Modele rozumujące generują długie łańcuchy myśli, aby dojść do odpowiedzi. Ale co jeśli ponad połowa tych “myśli” to zbędny szum, a model od dawna zna odpowiedź — tylko nie wie, że może przestać? Publikacja “Does Your Reasoning Model Implicitly Know When to Stop Thinking?” odkrywa, że tak właśnie jest, i proponuje SAGE — metodę, która redukuje liczbę tokenów o 40-50% przy zachowaniu lub poprawie dokładności.
Problem: Myślenie, Które Szkodzi
Współczesne modele rozumujące modele rozumujące LLM trenowane do generowania krok-po-kroku łańcuchów myśli (Chain-of-Thought) przed podaniem odpowiedzi. Przykłady: DeepSeek-R1, Qwen3, o1. jak DeepSeek-R1 czy Qwen3 zostały nauczone produkować długie Chain-of-Thought Chain-of-Thought Łańcuch myśli — technika, w której model generuje kolejne kroki rozumowania prowadzące do odpowiedzi. Poprawia dokładność, ale zwiększa koszt. (CoT), zanim podadzą odpowiedź. Problem w tym, że dłuższe myślenie nie zawsze oznacza lepsze.
Autorzy mierzą to za pomocą metryki RFCS (Ratio of First Correct Step):
$$\text{RFCS} = \frac{\text{krok z pierwszą poprawną odpowiedzią}}{\text{łączna liczba kroków}}$$
Wyniki są alarmujące: ponad połowa poprawnych odpowiedzi zawiera ogromną ilość zbędnych kroków po tym, jak model już znalazł rozwiązanie. Przykładowo DeepSeek-1.5B znajdował poprawną odpowiedź w 500 tokenach, po czym generował kolejne 452 tokeny redundancji.
Dłuższe łańcuchy myśli mogą wręcz obniżać dokładność — model “myli się” nad własnym poprawnym rozwiązaniem.
Kluczowe Odkrycie: Ukryta Samoświadomość
Najważniejsze odkrycie publikacji jest zaskakująco proste:
Modele rozumujące wiedzą, kiedy zakończyć myślenie — ale standardowe metody próbkowania to ukrywają.
Jak to odkryto? Autorzy porównali dwie miary pewności modelu:
Prawdopodobieństwo Następnego Tokena (ϕ)
Standardowa miara — jak pewny jest model co do następnego tokena:
$$\phi(y_i) = \log \pi_\theta(y_i | y_{<i}, x)$$
Gdy model patrzy na token kończący
token kończący
Specjalny token (np. ) sygnalizujący modelowi zakończenie fazy rozumowania i przejście do generowania odpowiedzi.
</think>, ta miara pokazuje niską pewność. Model “nie wie”, czy powinien skończyć.
Skumulowane Prawdopodobieństwo Logarytmiczne (Φ)
Nowa miara — średnia pewność całej dotychczasowej ścieżki:
$$\Phi(y_{\leq k}) = \frac{1}{k} \sum_{i=1}^{k} \log \pi_\theta(y_i | y_{<i}, x)$$
Przy tej mierze token </think> konsekwentnie zajmuje pierwsze miejsce w rankingu kandydatów. Model jest pewny, że powinien zakończyć — tylko standardowe próbkowanie
próbkowanie
Metoda wybierania kolejnych tokenów podczas generowania tekstu. Greedy = wybierz najbardziej prawdopodobny; top-p = losuj z najlepszych.
tego nie widzi.
SAGE: Jak Pozwolić Modelowi Przestać Myśleć
Algorytm Krok po Kroku
SAGE (Self-Aware Guided Efficient Reasoning) to nowy paradygmat próbkowania:
1. Eksploracja — w każdym kroku utrzymuj m kandydujących sekwencji. Dla każdej generuj 2m kandydujących tokenów.
2. Selekcja — oceń każdą sekwencję miarą Φ (skumulowane prawdopodobieństwo). Zachowaj top-m najlepszych.
3. Pewne Zatrzymanie — gdy token </think> pojawia się w topowych kandydatach z wysoką pozycją rankingową, zakończ rozumowanie.
Kryterium Zakończenia
Tolerancja akceptacji definiowana jest przez parametr h:
$$TR = \frac{h}{2m}, \quad h \in [1, 2m]$$
Model kończy rozumowanie, gdy </think> znajdzie się w top-h kandydatach — sygnał, że model jest pewny zakończenia.
Kluczowa Obserwacja
“Gdy przestrzeń eksploracji rośnie, model rozumujący jest coraz bardziej zdolny do identyfikowania precyzyjnych i zwięzłych ścieżek rozumowania z wysoką pewnością.”
Im więcej opcji zbadamy, tym pewniej model wskaże moment zakończenia.
SAGE-RL: Uczenie Modelu Efektywnego Myślenia
Samo lepsze próbkowanie to nie wszystko. SAGE-RL integruje efektywne wzorce rozumowania z modelem za pomocą uczenia ze wzmocnieniem uczenia ze wzmocnieniem Metoda treningu, w której model uczy się poprzez próbowanie akcji i otrzymywanie nagród/kar. Tu: nagroda za poprawne i krótkie rozumowanie. :
Procedura Treningu
Dla grupy G=8 odpowiedzi:
- r=2 generowane przez SAGE(m,r) — krótkie, efektywne łańcuchy
- G-r=6 generowanych standardowo — losowe, często dłuższe
Model uczy się z sygnału przewagi przewagi Advantage — miara jak dobre jest dane działanie w porównaniu do średniej. Pozytywna = lepsze od przeciętnego; negatywna = gorsze. : krótkie, poprawne łańcuchy SAGE dostają wysoką nagrodę, ucząc model generować zwięzłe rozumowania.
Funkcja Celu
$$J(\theta) = \mathbb{E}\left[\frac{1}{G}\left(\sum_{i \in \text{SAGE}} + \sum_{i \in \text{Random}}\right) \min(w_{i,t}(\theta)\hat{A}_{i,t},\ \text{clip}(w_{i,t}(\theta), 1-\varepsilon, 1+\varepsilon)\hat{A}_{i,t})\right]$$
gdzie stosunek ważności:
$$w_{i,t}(\theta) = \frac{\pi_\theta(y_{i,t} | x, y_{i,<t})}{\pi_{\theta_{old}}(y_{i,t} | x, y_{i,<t})}$$
Nagroda
Prosta, binarna nagroda 0/1 — poprawna odpowiedź lub nie. Żadnego osobnego modelu nagrody. Sygnał efektywności pochodzi naturalnie z mieszanki SAGE + losowych próbek.
Wyniki: Mniej Tokenów, Lepsza Dokładność
DeepSeek-1.5B z SAGE-GRPO
| Benchmark | Dokładność | Zmiana | Tokeny | Oszczędność |
|---|---|---|---|---|
| MATH-500 | 84.8% | +1.6% | 2,915 | -39% |
| AIME 2024 | 28.8% | +3.7% | 7,243 | -41% |
| AIME 2025 | 26.5% | +5.6% | 7,479 | -36% |
DeepSeek-7B z SAGE-GRPO
| Benchmark | Dokładność | Zmiana | Tokeny | Oszczędność |
|---|---|---|---|---|
| MATH-500 | 93.0% | +1.4% | 2,141 | -45% |
| AIME 2024 | 55.3% | +3.4% | 6,422 | -43% |
Qwen3-8B z SAGE-GSPO
| Benchmark | Dokładność | Zmiana | Tokeny | Oszczędność |
|---|---|---|---|---|
| AIME 2025 | 66.0% | -0.7% | 9,183 | -50% |
Wzorzec jest jasny: 40-50% mniej tokenów z równą lub lepszą dokładnością.
Co Się Dzieje po Treningu SAGE-RL?
Metryka RFCS pokazuje dramatyczną zmianę zachowania modelu:
- Przed SAGE-RL: Model często kontynuował rozumowanie daleko po znalezieniu poprawnej odpowiedzi
- Po SAGE-RL: Model zatrzymuje się niemal natychmiast po poprawnym rozwiązaniu
Model dosłownie nauczył się ufać sobie i nie “przerabiać” problemu w nieskończoność.
Detale Implementacyjne
| Parametr | Wartość |
|---|---|
| Framework | verl (HybridFlow) |
| Learning rate | 1e-6, cosine warmup |
| Regularyzacja KL | β=0.001 |
| Batch size | 32 (8 GPU) |
| Max context | 9,216 tokenów |
| Trening | 600 kroków, Adam |
| Temperatura | T=1.0, top-p=0.95 |
| Nagroda | Binarna 0/1 |
Podsumowanie
SAGE odkrywa coś fundamentalnego: modele rozumujące już wiedzą, kiedy przestać myśleć — wystarczy im na to pozwolić. Klucz to zmiana perspektywy z prawdopodobieństwa następnego tokena (ϕ) na skumulowane prawdopodobieństwo ścieżki (Φ).
W połączeniu z uczeniem ze wzmocnieniem (SAGE-RL), podejście to osiąga:
- 40-50% redukcji tokenów na benchmarkach matematycznych
- Utrzymanie lub poprawę dokładności — mniej myślenia = lepsze wyniki
- Proste wdrożenie — binarna nagroda, standardowe frameworki RL
Implikacja jest głęboka: nie potrzebujemy modeli, które myślą więcej. Potrzebujemy modeli, które wiedzą, kiedy przestać.
Linki
- Na podstawie publikacji arXiv:2602.08354 PDF