Uczenie przez wzmacnianie (RL) pozwala agentom uczyć się zachowań na podstawie sygnałów nagrody. Jednak w zadaniach wymagających rozumowania długiego łańcucha decyzji pojawiają się dwa główne wyzwania:

  1. Problem “near-miss” – jeden błąd na końcu rozumowania unieważnia cały ciąg kroków.
  2. Stagnacja eksploracji – agent zbyt długo powtarza znane ścieżki, nie odkrywając nowych strategii.

Artykuł StepHint: Multi-level Stepwise Hints Enhance Reinforcement Learning to Reason prezentuje metodę pod nazwą StepHint, która dostarcza agentowi wielopoziomowe wskazówki krokowe, wspierając zarówno początkujących, jak i zaawansowanych użytkowników.

Intuicyjny przykład: labirynt

Wyobraź sobie agenta w labiryncie, który szuka skarbu. Bez wskazówek będzie eksplorował losowo:

  • Najczęściej wraca tam, gdzie już był (stagnacja).
  • Gdy prawie dochodzi do wyjścia, ale się cofa, traci cały postęp (near-miss).

Dzięki wskazówkom krokowym od razu dowiaduje się, że po trzecim zakręcie należy skręcić w prawo. Krótsze łańcuchy decyzji oznaczają mniej błędów i szybsze uczenie.

Jak działa StepHint?

1. Adaptacyjne partycjonowanie rozumowania

Model traktuje łańcuch rozumowania jako sekwencję tokenów. Wskaźnik zakończenia kroku wylicza się jako

$$ p_{\mathrm{end}}(t) = p(\texttt{} \mid \text{prefix do }t), $$

a następnie wybiera te miejsca, w których spada ta szansa: $p_{\mathrm{end}}(t) > p_{\mathrm{end}}(t+1)$. Dzięki temu odkrywamy potencjalne punkty końcowe kroków, zachowując minimalną odległość między nimi.

2. Wielopoziomowe wskazówki

Dla każdego łańcucha rozumowania generowane są wskazówki na różnych poziomach: od bardzo ogólnych (np. pierwszy krok) po niemal pełne rozwiązanie. Model wybiera poziom, który najlepiej balansuje między:

  • nadmierną kontrolą (przekształceniem w nadzorowane uczenie),
  • zbyt słabym wsparciem (ponownym near-miss).

Formalizm matematyczny

Cały proces to eksploracja przestrzeni rozwiązań $\mathcal{R}$. W dowolnym stanie po $k$ tokenach mamy entropię kondycyjną:

$$ H(\mathcal{R} \mid S_k) = -\sum_{r \in \mathcal{R}} p(r \mid S_k) \log p(r \mid S_k), $$

która pokazuje, jak bardzo agent jest niepewny swoich dalszych kroków.

Optymalizacja polityki

Proximal Policy Optimization (PPO)

PPO maksymalizuje cel:

$$ L^{\mathrm{PPO}}_{\theta} = \frac{1}{N}\sum_{i=1}^N\sum_{t=1}^{|y_i|} \min\bigl(r_{i,t}\hat A_{i,t},\dots\bigr)- \beta,D_{\mathrm{KL}}(\dots) $$

gdzie $r_{i,t}=\frac{\pi_{\theta}(y_{i,t}\mid\cdot)}{\pi_{\mathrm{old}}(y_{i,t}\mid\cdot)}$ oraz $\hat A_{i,t}$ to zaleta z uogólnionej estymacji przyrostu (GAE).

Group Relative Policy Optimization (GRPO)

GRPO upraszcza obliczenia, definiując zastępczą zaletę:

$$ \hat A^{\mathrm{GRPO}}_{i,t} = \frac{R(y_i)-\mathrm{mean}(R)}{\mathrm{std}(R)}, $$

gdzie $R(y_i)\in{0,1}$ to zwrot z całego łańcucha, eliminując potrzebę krytyka.

Podsumowanie

StepHint to potężne narzędzie, które:

  • redukuje błędy near-miss,
  • przyspiesza konwergencję,
  • poprawia generalizację w zadaniach zarówno w domenie matematyki, jak i poza nią.

Dzięki połączeniu adaptacyjnego partycjonowania i wielopoziomowych wskazówek, agenty uczą się efektywniej i bardziej niezawodnie, nawet w skomplikowanych zadaniach rozumowania.


📎 Linki