Rozumowanie

Modele rozumujące generują długie łańcuchy myśli, aby dojść do odpowiedzi. Ale co jeśli ponad połowa tych “myśli” to zbędny szum, a model od dawna zna odpowiedź — tylko nie wie, że może przestać? Publikacja “Does Your Reasoning Model Implicitly Know When to Stop Thinking?” odkrywa, że tak właśnie jest, i proponuje SAGE — metodę, która redukuje liczbę tokenów o 40-50% przy zachowaniu lub poprawie dokładności. Problem: Myślenie, Które Szkodzi Współczesne modele rozumujące modele rozumujące LLM trenowane do generowania krok-po-kroku łańcuchów myśli (Chain-of-Thought) przed podaniem odpowiedzi. Przykłady: DeepSeek-R1, Qwen3, o1. jak DeepSeek-R1 czy Qwen3 zostały nauczone produkować długie Chain-of-Thought Chain-of-Thought Łańcuch myśli — technika, w której model generuje kolejne kroki rozumowania prowadzące do odpowiedzi. Poprawia dokładność, ale zwiększa koszt. (CoT), zanim podadzą odpowiedź. Problem w tym, że dłuższe myślenie nie zawsze oznacza lepsze. ...

Rozwój dużych modeli językowych (LLMs) sprawił, że potrafią one już nie tylko generować tekst, ale także rozumować — krok po kroku odpowiadać na zadania matematyczne, logiczne czy planistyczne. Jednym z wyzwań jest jednak to, jak poprawić jakość tego rozumowania. Klasyczne uczenie ze wzmocnieniem (RL) nagradza dopiero efekt końcowy, ale w przypadku skomplikowanego rozumowania warto oceniać każdy krok pośredni. Takie podejście nazywamy process-supervised RL (PSRL). Problem: dotychczasowe metody PSRL były kosztowne i nieefektywne — eksplorowały zbyt wiele nieistotnych ścieżek. Nowa publikacja Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models proponuje rozwiązanie: AttnRL. W skrócie: wykorzystuje uwagę (attention) jako kompas, który wskazuje, w których miejscach warto rozgałęziać rozumowanie. ...

Rozumowanie

SAGE: Twój Model Wie, Kiedy Przestać Myśleć — Tylko Mu Nie Pozwalasz

Attention as a Compass – jak uczyć modele rozumowania mądrzej?