SAGE: Twój Model Wie, Kiedy Przestać Myśleć — Tylko Mu Nie Pozwalasz

Modele rozumujące generują długie łańcuchy myśli, aby dojść do odpowiedzi. Ale co jeśli ponad połowa tych “myśli” to zbędny szum, a model od dawna zna odpowiedź — tylko nie wie, że może przestać? Publikacja “Does Your Reasoning Model Implicitly Know When to Stop Thinking?” odkrywa, że tak właśnie jest, i proponuje SAGE — metodę, która redukuje liczbę tokenów o 40-50% przy zachowaniu lub poprawie dokładności.

Problem: Myślenie, Które Szkodzi

Współczesne modele rozumujące modele rozumujące LLM trenowane do generowania krok-po-kroku łańcuchów myśli (Chain-of-Thought) przed podaniem odpowiedzi. Przykłady: DeepSeek-R1, Qwen3, o1. jak DeepSeek-R1 czy Qwen3 zostały nauczone produkować długie Chain-of-Thought Chain-of-Thought Łańcuch myśli — technika, w której model generuje kolejne kroki rozumowania prowadzące do odpowiedzi. Poprawia dokładność, ale zwiększa koszt. (CoT), zanim podadzą odpowiedź. Problem w tym, że dłuższe myślenie nie zawsze oznacza lepsze.

Autorzy mierzą to za pomocą metryki RFCS (Ratio of First Correct Step):

$$\text{RFCS} = \frac{\text{krok z pierwszą poprawną odpowiedzią}}{\text{łączna liczba kroków}}$$

Wyniki są alarmujące: ponad połowa poprawnych odpowiedzi zawiera ogromną ilość zbędnych kroków po tym, jak model już znalazł rozwiązanie. Przykładowo DeepSeek-1.5B znajdował poprawną odpowiedź w 500 tokenach, po czym generował kolejne 452 tokeny redundancji.

Dłuższe łańcuchy myśli mogą wręcz obniżać dokładność — model “myli się” nad własnym poprawnym rozwiązaniem.

Kluczowe Odkrycie: Ukryta Samoświadomość

Najważniejsze odkrycie publikacji jest zaskakująco proste:

Modele rozumujące wiedzą, kiedy zakończyć myślenie — ale standardowe metody próbkowania to ukrywają.

Jak to odkryto? Autorzy porównali dwie miary pewności modelu:

Prawdopodobieństwo Następnego Tokena (ϕ)

Standardowa miara — jak pewny jest model co do następnego tokena:

$$\phi(y_i) = \log \pi_\theta(y_i | y_{<i}, x)$$

Gdy model patrzy na token kończący token kończący Specjalny token (np. ) sygnalizujący modelowi zakończenie fazy rozumowania i przejście do generowania odpowiedzi. </think>, ta miara pokazuje niską pewność. Model “nie wie”, czy powinien skończyć.

Skumulowane Prawdopodobieństwo Logarytmiczne (Φ)

Nowa miara — średnia pewność całej dotychczasowej ścieżki:

$$\Phi(y_{\leq k}) = \frac{1}{k} \sum_{i=1}^{k} \log \pi_\theta(y_i | y_{<i}, x)$$

Przy tej mierze token </think> konsekwentnie zajmuje pierwsze miejsce w rankingu kandydatów. Model jest pewny, że powinien zakończyć — tylko standardowe próbkowanie próbkowanie Metoda wybierania kolejnych tokenów podczas generowania tekstu. Greedy = wybierz najbardziej prawdopodobny; top-p = losuj z najlepszych. tego nie widzi.

SAGE: Jak Pozwolić Modelowi Przestać Myśleć

Algorytm Krok po Kroku

SAGE (Self-Aware Guided Efficient Reasoning) to nowy paradygmat próbkowania:

1. Eksploracja — w każdym kroku utrzymuj m kandydujących sekwencji. Dla każdej generuj 2m kandydujących tokenów.

2. Selekcja — oceń każdą sekwencję miarą Φ (skumulowane prawdopodobieństwo). Zachowaj top-m najlepszych.

3. Pewne Zatrzymanie — gdy token </think> pojawia się w topowych kandydatach z wysoką pozycją rankingową, zakończ rozumowanie.

Kryterium Zakończenia

Tolerancja akceptacji definiowana jest przez parametr h:

$$TR = \frac{h}{2m}, \quad h \in [1, 2m]$$

Model kończy rozumowanie, gdy </think> znajdzie się w top-h kandydatach — sygnał, że model jest pewny zakończenia.

Kluczowa Obserwacja

“Gdy przestrzeń eksploracji rośnie, model rozumujący jest coraz bardziej zdolny do identyfikowania precyzyjnych i zwięzłych ścieżek rozumowania z wysoką pewnością.”

Im więcej opcji zbadamy, tym pewniej model wskaże moment zakończenia.

SAGE-RL: Uczenie Modelu Efektywnego Myślenia

Samo lepsze próbkowanie to nie wszystko. SAGE-RL integruje efektywne wzorce rozumowania z modelem za pomocą uczenia ze wzmocnieniem uczenia ze wzmocnieniem Metoda treningu, w której model uczy się poprzez próbowanie akcji i otrzymywanie nagród/kar. Tu: nagroda za poprawne i krótkie rozumowanie. :

Procedura Treningu

Dla grupy G=8 odpowiedzi:

r=2 generowane przez SAGE(m,r) — krótkie, efektywne łańcuchy
G-r=6 generowanych standardowo — losowe, często dłuższe

Model uczy się z sygnału przewagi przewagi Advantage — miara jak dobre jest dane działanie w porównaniu do średniej. Pozytywna = lepsze od przeciętnego; negatywna = gorsze. : krótkie, poprawne łańcuchy SAGE dostają wysoką nagrodę, ucząc model generować zwięzłe rozumowania.

Funkcja Celu

$$J(\theta) = \mathbb{E}\left[\frac{1}{G}\left(\sum_{i \in \text{SAGE}} + \sum_{i \in \text{Random}}\right) \min(w_{i,t}(\theta)\hat{A}_{i,t},\ \text{clip}(w_{i,t}(\theta), 1-\varepsilon, 1+\varepsilon)\hat{A}_{i,t})\right]$$

gdzie stosunek ważności:

$$w_{i,t}(\theta) = \frac{\pi_\theta(y_{i,t} | x, y_{i,<t})}{\pi_{\theta_{old}}(y_{i,t} | x, y_{i,<t})}$$

Nagroda

Prosta, binarna nagroda 0/1 — poprawna odpowiedź lub nie. Żadnego osobnego modelu nagrody. Sygnał efektywności pochodzi naturalnie z mieszanki SAGE + losowych próbek.

Wyniki: Mniej Tokenów, Lepsza Dokładność

DeepSeek-1.5B z SAGE-GRPO

Benchmark	Dokładność	Zmiana	Tokeny	Oszczędność
MATH-500	84.8%	+1.6%	2,915	-39%
AIME 2024	28.8%	+3.7%	7,243	-41%
AIME 2025	26.5%	+5.6%	7,479	-36%

DeepSeek-7B z SAGE-GRPO

Benchmark	Dokładność	Zmiana	Tokeny	Oszczędność
MATH-500	93.0%	+1.4%	2,141	-45%
AIME 2024	55.3%	+3.4%	6,422	-43%

Qwen3-8B z SAGE-GSPO

Benchmark	Dokładność	Zmiana	Tokeny	Oszczędność
AIME 2025	66.0%	-0.7%	9,183	-50%

Wzorzec jest jasny: 40-50% mniej tokenów z równą lub lepszą dokładnością.

Co Się Dzieje po Treningu SAGE-RL?

Metryka RFCS pokazuje dramatyczną zmianę zachowania modelu:

Przed SAGE-RL: Model często kontynuował rozumowanie daleko po znalezieniu poprawnej odpowiedzi
Po SAGE-RL: Model zatrzymuje się niemal natychmiast po poprawnym rozwiązaniu

Model dosłownie nauczył się ufać sobie i nie “przerabiać” problemu w nieskończoność.

Detale Implementacyjne

Parametr	Wartość
Framework	verl (HybridFlow)
Learning rate	1e-6, cosine warmup
Regularyzacja KL	β=0.001
Batch size	32 (8 GPU)
Max context	9,216 tokenów
Trening	600 kroków, Adam
Temperatura	T=1.0, top-p=0.95
Nagroda	Binarna 0/1

Podsumowanie

SAGE odkrywa coś fundamentalnego: modele rozumujące już wiedzą, kiedy przestać myśleć — wystarczy im na to pozwolić. Klucz to zmiana perspektywy z prawdopodobieństwa następnego tokena (ϕ) na skumulowane prawdopodobieństwo ścieżki (Φ).

W połączeniu z uczeniem ze wzmocnieniem (SAGE-RL), podejście to osiąga:

40-50% redukcji tokenów na benchmarkach matematycznych
Utrzymanie lub poprawę dokładności — mniej myślenia = lepsze wyniki
Proste wdrożenie — binarna nagroda, standardowe frameworki RL

Implikacja jest głęboka: nie potrzebujemy modeli, które myślą więcej. Potrzebujemy modeli, które wiedzą, kiedy przestać.

Linki

Na podstawie publikacji arXiv:2602.08354 PDF

Problem: Myślenie, Które Szkodzi#

Kluczowe Odkrycie: Ukryta Samoświadomość#

Prawdopodobieństwo Następnego Tokena (ϕ)#

Skumulowane Prawdopodobieństwo Logarytmiczne (Φ)#

SAGE: Jak Pozwolić Modelowi Przestać Myśleć#

Algorytm Krok po Kroku#

Kryterium Zakończenia#

Kluczowa Obserwacja#

SAGE-RL: Uczenie Modelu Efektywnego Myślenia#

Procedura Treningu#

Funkcja Celu#

Nagroda#

Wyniki: Mniej Tokenów, Lepsza Dokładność#

DeepSeek-1.5B z SAGE-GRPO#

DeepSeek-7B z SAGE-GRPO#

Qwen3-8B z SAGE-GSPO#

Co Się Dzieje po Treningu SAGE-RL?#

Detale Implementacyjne#

Podsumowanie#

Linki#