Attention as a Compass – jak uczyć modele rozumowania mądrzej?
Rozwój dużych modeli językowych (LLMs) sprawił, że potrafią one już nie tylko generować tekst, ale także rozumować — krok po kroku odpowiadać na zadania matematyczne, logiczne czy planistyczne. Jednym z wyzwań jest jednak to, jak poprawić jakość tego rozumowania. Klasyczne uczenie ze wzmocnieniem (RL) nagradza dopiero efekt końcowy, ale w przypadku skomplikowanego rozumowania warto oceniać każdy krok pośredni. Takie podejście nazywamy process-supervised RL (PSRL). Problem: dotychczasowe metody PSRL były kosztowne i nieefektywne — eksplorowały zbyt wiele nieistotnych ścieżek. Nowa publikacja Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models proponuje rozwiązanie: AttnRL. W skrócie: wykorzystuje uwagę (attention) jako kompas, który wskazuje, w których miejscach warto rozgałęziać rozumowanie. ...