Uczenie przez wzmacnianie (RL) pozwala agentom uczyć się zachowań na podstawie sygnałów nagrody. Jednak w zadaniach wymagających rozumowania długiego łańcucha decyzji pojawiają się dwa główne wyzwania:
- Problem “near-miss” – jeden błąd na końcu rozumowania unieważnia cały ciąg kroków.
- Stagnacja eksploracji – agent zbyt długo powtarza znane ścieżki, nie odkrywając nowych strategii.
Artykuł StepHint: Multi-level Stepwise Hints Enhance Reinforcement Learning to Reason prezentuje metodę pod nazwą StepHint, która dostarcza agentowi wielopoziomowe wskazówki krokowe, wspierając zarówno początkujących, jak i zaawansowanych użytkowników.
Intuicyjny przykład: labirynt
Wyobraź sobie agenta w labiryncie, który szuka skarbu. Bez wskazówek będzie eksplorował losowo:
- Najczęściej wraca tam, gdzie już był (stagnacja).
- Gdy prawie dochodzi do wyjścia, ale się cofa, traci cały postęp (near-miss).
Dzięki wskazówkom krokowym od razu dowiaduje się, że po trzecim zakręcie należy skręcić w prawo. Krótsze łańcuchy decyzji oznaczają mniej błędów i szybsze uczenie.
Jak działa StepHint?
1. Adaptacyjne partycjonowanie rozumowania
Model traktuje łańcuch rozumowania jako sekwencję tokenów. Wskaźnik zakończenia kroku wylicza się jako
$$ p_{\mathrm{end}}(t) = p(\texttt{} \mid \text{prefix do }t), $$
a następnie wybiera te miejsca, w których spada ta szansa: $p_{\mathrm{end}}(t) > p_{\mathrm{end}}(t+1)$. Dzięki temu odkrywamy potencjalne punkty końcowe kroków, zachowując minimalną odległość między nimi.
2. Wielopoziomowe wskazówki
Dla każdego łańcucha rozumowania generowane są wskazówki na różnych poziomach: od bardzo ogólnych (np. pierwszy krok) po niemal pełne rozwiązanie. Model wybiera poziom, który najlepiej balansuje między:
- nadmierną kontrolą (przekształceniem w nadzorowane uczenie),
- zbyt słabym wsparciem (ponownym near-miss).
Formalizm matematyczny
Cały proces to eksploracja przestrzeni rozwiązań $\mathcal{R}$. W dowolnym stanie po $k$ tokenach mamy entropię kondycyjną:
$$ H(\mathcal{R} \mid S_k) = -\sum_{r \in \mathcal{R}} p(r \mid S_k) \log p(r \mid S_k), $$
która pokazuje, jak bardzo agent jest niepewny swoich dalszych kroków.
Optymalizacja polityki
Proximal Policy Optimization (PPO)
PPO maksymalizuje cel:
$$ L^{\mathrm{PPO}}_{\theta} = \frac{1}{N}\sum_{i=1}^N\sum_{t=1}^{|y_i|} \min\bigl(r_{i,t}\hat A_{i,t},\dots\bigr)- \beta,D_{\mathrm{KL}}(\dots) $$
gdzie $r_{i,t}=\frac{\pi_{\theta}(y_{i,t}\mid\cdot)}{\pi_{\mathrm{old}}(y_{i,t}\mid\cdot)}$ oraz $\hat A_{i,t}$ to zaleta z uogólnionej estymacji przyrostu (GAE).
Group Relative Policy Optimization (GRPO)
GRPO upraszcza obliczenia, definiując zastępczą zaletę:
$$ \hat A^{\mathrm{GRPO}}_{i,t} = \frac{R(y_i)-\mathrm{mean}(R)}{\mathrm{std}(R)}, $$
gdzie $R(y_i)\in{0,1}$ to zwrot z całego łańcucha, eliminując potrzebę krytyka.
Podsumowanie
StepHint to potężne narzędzie, które:
- redukuje błędy near-miss,
- przyspiesza konwergencję,
- poprawia generalizację w zadaniach zarówno w domenie matematyki, jak i poza nią.
Dzięki połączeniu adaptacyjnego partycjonowania i wielopoziomowych wskazówek, agenty uczą się efektywniej i bardziej niezawodnie, nawet w skomplikowanych zadaniach rozumowania.
📎 Linki
- Na podstawie publikacji 📄 arXiv:2507.02841