Modele rozumujące generują długie łańcuchy myśli, aby dojść do odpowiedzi. Ale co jeśli ponad połowa tych “myśli” to zbędny szum, a model od dawna zna odpowiedź — tylko nie wie, że może przestać? Publikacja “Does Your Reasoning Model Implicitly Know When to Stop Thinking?” odkrywa, że tak właśnie jest, i proponuje SAGE — metodę, która redukuje liczbę tokenów o 40-50% przy zachowaniu lub poprawie dokładności.


Problem: Myślenie, Które Szkodzi

Współczesne modele rozumujące modele rozumujące LLM trenowane do generowania krok-po-kroku łańcuchów myśli (Chain-of-Thought) przed podaniem odpowiedzi. Przykłady: DeepSeek-R1, Qwen3, o1. jak DeepSeek-R1 czy Qwen3 zostały nauczone produkować długie Chain-of-Thought Chain-of-Thought Łańcuch myśli — technika, w której model generuje kolejne kroki rozumowania prowadzące do odpowiedzi. Poprawia dokładność, ale zwiększa koszt. (CoT), zanim podadzą odpowiedź. Problem w tym, że dłuższe myślenie nie zawsze oznacza lepsze.

Autorzy mierzą to za pomocą metryki RFCS (Ratio of First Correct Step):

$$\text{RFCS} = \frac{\text{krok z pierwszą poprawną odpowiedzią}}{\text{łączna liczba kroków}}$$

Wyniki są alarmujące: ponad połowa poprawnych odpowiedzi zawiera ogromną ilość zbędnych kroków po tym, jak model już znalazł rozwiązanie. Przykładowo DeepSeek-1.5B znajdował poprawną odpowiedź w 500 tokenach, po czym generował kolejne 452 tokeny redundancji.

Dłuższe łańcuchy myśli mogą wręcz obniżać dokładność — model “myli się” nad własnym poprawnym rozwiązaniem.


Kluczowe Odkrycie: Ukryta Samoświadomość

Najważniejsze odkrycie publikacji jest zaskakująco proste:

Modele rozumujące wiedzą, kiedy zakończyć myślenie — ale standardowe metody próbkowania to ukrywają.

Jak to odkryto? Autorzy porównali dwie miary pewności modelu:

Prawdopodobieństwo Następnego Tokena (ϕ)

Standardowa miara — jak pewny jest model co do następnego tokena:

$$\phi(y_i) = \log \pi_\theta(y_i | y_{<i}, x)$$

Gdy model patrzy na token kończący token kończący Specjalny token (np. ) sygnalizujący modelowi zakończenie fazy rozumowania i przejście do generowania odpowiedzi. </think>, ta miara pokazuje niską pewność. Model “nie wie”, czy powinien skończyć.

Skumulowane Prawdopodobieństwo Logarytmiczne (Φ)

Nowa miara — średnia pewność całej dotychczasowej ścieżki:

$$\Phi(y_{\leq k}) = \frac{1}{k} \sum_{i=1}^{k} \log \pi_\theta(y_i | y_{<i}, x)$$

Przy tej mierze token </think> konsekwentnie zajmuje pierwsze miejsce w rankingu kandydatów. Model jest pewny, że powinien zakończyć — tylko standardowe próbkowanie próbkowanie Metoda wybierania kolejnych tokenów podczas generowania tekstu. Greedy = wybierz najbardziej prawdopodobny; top-p = losuj z najlepszych. tego nie widzi.


SAGE: Jak Pozwolić Modelowi Przestać Myśleć

Algorytm Krok po Kroku

SAGE (Self-Aware Guided Efficient Reasoning) to nowy paradygmat próbkowania:

1. Eksploracja — w każdym kroku utrzymuj m kandydujących sekwencji. Dla każdej generuj 2m kandydujących tokenów.

2. Selekcja — oceń każdą sekwencję miarą Φ (skumulowane prawdopodobieństwo). Zachowaj top-m najlepszych.

3. Pewne Zatrzymanie — gdy token </think> pojawia się w topowych kandydatach z wysoką pozycją rankingową, zakończ rozumowanie.

Kryterium Zakończenia

Tolerancja akceptacji definiowana jest przez parametr h:

$$TR = \frac{h}{2m}, \quad h \in [1, 2m]$$

Model kończy rozumowanie, gdy </think> znajdzie się w top-h kandydatach — sygnał, że model jest pewny zakończenia.

Kluczowa Obserwacja

“Gdy przestrzeń eksploracji rośnie, model rozumujący jest coraz bardziej zdolny do identyfikowania precyzyjnych i zwięzłych ścieżek rozumowania z wysoką pewnością.”

Im więcej opcji zbadamy, tym pewniej model wskaże moment zakończenia.


SAGE-RL: Uczenie Modelu Efektywnego Myślenia

Samo lepsze próbkowanie to nie wszystko. SAGE-RL integruje efektywne wzorce rozumowania z modelem za pomocą uczenia ze wzmocnieniem uczenia ze wzmocnieniem Metoda treningu, w której model uczy się poprzez próbowanie akcji i otrzymywanie nagród/kar. Tu: nagroda za poprawne i krótkie rozumowanie. :

Procedura Treningu

Dla grupy G=8 odpowiedzi:

  • r=2 generowane przez SAGE(m,r) — krótkie, efektywne łańcuchy
  • G-r=6 generowanych standardowo — losowe, często dłuższe

Model uczy się z sygnału przewagi przewagi Advantage — miara jak dobre jest dane działanie w porównaniu do średniej. Pozytywna = lepsze od przeciętnego; negatywna = gorsze. : krótkie, poprawne łańcuchy SAGE dostają wysoką nagrodę, ucząc model generować zwięzłe rozumowania.

Funkcja Celu

$$J(\theta) = \mathbb{E}\left[\frac{1}{G}\left(\sum_{i \in \text{SAGE}} + \sum_{i \in \text{Random}}\right) \min(w_{i,t}(\theta)\hat{A}_{i,t},\ \text{clip}(w_{i,t}(\theta), 1-\varepsilon, 1+\varepsilon)\hat{A}_{i,t})\right]$$

gdzie stosunek ważności:

$$w_{i,t}(\theta) = \frac{\pi_\theta(y_{i,t} | x, y_{i,<t})}{\pi_{\theta_{old}}(y_{i,t} | x, y_{i,<t})}$$

Nagroda

Prosta, binarna nagroda 0/1 — poprawna odpowiedź lub nie. Żadnego osobnego modelu nagrody. Sygnał efektywności pochodzi naturalnie z mieszanki SAGE + losowych próbek.


Wyniki: Mniej Tokenów, Lepsza Dokładność

DeepSeek-1.5B z SAGE-GRPO

BenchmarkDokładnośćZmianaTokenyOszczędność
MATH-50084.8%+1.6%2,915-39%
AIME 202428.8%+3.7%7,243-41%
AIME 202526.5%+5.6%7,479-36%

DeepSeek-7B z SAGE-GRPO

BenchmarkDokładnośćZmianaTokenyOszczędność
MATH-50093.0%+1.4%2,141-45%
AIME 202455.3%+3.4%6,422-43%

Qwen3-8B z SAGE-GSPO

BenchmarkDokładnośćZmianaTokenyOszczędność
AIME 202566.0%-0.7%9,183-50%

Wzorzec jest jasny: 40-50% mniej tokenów z równą lub lepszą dokładnością.


Co Się Dzieje po Treningu SAGE-RL?

Metryka RFCS pokazuje dramatyczną zmianę zachowania modelu:

  • Przed SAGE-RL: Model często kontynuował rozumowanie daleko po znalezieniu poprawnej odpowiedzi
  • Po SAGE-RL: Model zatrzymuje się niemal natychmiast po poprawnym rozwiązaniu

Model dosłownie nauczył się ufać sobie i nie “przerabiać” problemu w nieskończoność.


Detale Implementacyjne

ParametrWartość
Frameworkverl (HybridFlow)
Learning rate1e-6, cosine warmup
Regularyzacja KLβ=0.001
Batch size32 (8 GPU)
Max context9,216 tokenów
Trening600 kroków, Adam
TemperaturaT=1.0, top-p=0.95
NagrodaBinarna 0/1

Podsumowanie

SAGE odkrywa coś fundamentalnego: modele rozumujące już wiedzą, kiedy przestać myśleć — wystarczy im na to pozwolić. Klucz to zmiana perspektywy z prawdopodobieństwa następnego tokena (ϕ) na skumulowane prawdopodobieństwo ścieżki (Φ).

W połączeniu z uczeniem ze wzmocnieniem (SAGE-RL), podejście to osiąga:

  • 40-50% redukcji tokenów na benchmarkach matematycznych
  • Utrzymanie lub poprawę dokładności — mniej myślenia = lepsze wyniki
  • Proste wdrożenie — binarna nagroda, standardowe frameworki RL

Implikacja jest głęboka: nie potrzebujemy modeli, które myślą więcej. Potrzebujemy modeli, które wiedzą, kiedy przestać.


Linki