Rozwój dużych modeli językowych (LLMs) sprawił, że potrafią one już nie tylko generować tekst, ale także rozumować — krok po kroku odpowiadać na zadania matematyczne, logiczne czy planistyczne.
Jednym z wyzwań jest jednak to, jak poprawić jakość tego rozumowania. Klasyczne uczenie ze wzmocnieniem (RL) nagradza dopiero efekt końcowy, ale w przypadku skomplikowanego rozumowania warto oceniać każdy krok pośredni. Takie podejście nazywamy process-supervised RL (PSRL).

Problem: dotychczasowe metody PSRL były kosztowne i nieefektywne — eksplorowały zbyt wiele nieistotnych ścieżek.
Nowa publikacja Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models proponuje rozwiązanie: AttnRL. W skrócie: wykorzystuje uwagę (attention) jako kompas, który wskazuje, w których miejscach warto rozgałęziać rozumowanie.


Rozumowanie z kompasem uwagi

Wyobraź sobie, że rozwiązujesz zagadkę krok po kroku. Na każdym etapie możesz pójść różnymi ścieżkami. Klasyczne podejście w RL to po prostu spróbować kilku losowych dróg i sprawdzić, która działa. To jednak marnuje czas.

AttnRL robi to inaczej. Modele językowe same podczas pisania zwracają uwagę (attention) na ważne fragmenty wcześniejszego tekstu. To tak, jakby podczas rozwiązywania zagadki Twoje myśli szczególnie mocno skupiały się na jednym wcześniejszym kroku.
I właśnie tam warto „rozgałęzić się” i spróbować innej drogi.

Prosta analogia

  • Mapa podróży = proces rozumowania.
  • Drogi i skrzyżowania = kolejne kroki logiczne.
  • Kompas uwagi = sygnał z modelu, że „to miejsce jest istotne, tutaj zwróć uwagę”.

Zamiast losowo próbować różnych dróg, idziemy za kompasem — i eksplorujemy tylko te ścieżki, które model sam uważa za kluczowe.

Adaptacja do trudności

AttnRL dodatkowo dostosowuje proces:

  • Jeśli problem jest łatwy, model nie traci czasu na dodatkowe rozgałęzienia.
  • Jeśli problem jest trudny, dostaje więcej eksploracji.
  • System odrzuca też zadania, które nic nie wnoszą (np. takie, które zawsze wychodzą poprawnie).
  • Dzięki specjalnemu podejściu trening jest szybszy, bo wystarczy tylko jedna runda generowania na iterację.

Efekt? Modele uczą się rozumować skuteczniej i oszczędniej.


Wnętrze AttnRL

Formalizacja

Rozumowanie traktujemy jako proces decyzyjny (MDP) na poziomie kroków:

  • Stan początkowy $( s_1 = q \sim \mathcal{D} )$ (prompt).
  • Akcje to segmenty tekstu (np. akapity).
  • Przejście deterministyczne:
    $$ s_{k+1} = [s_k, a_k] $$

W Outcome-Supervised RL (OSRL) nagradzamy tylko wynik końcowy.
W Process-Supervised RL (PSRL) nagradzamy poszczególne kroki.

Klasyczne TreeRL ocenia wartość węzła ( s_k ) poprzez średnią poprawności jego dzieci:

$$ V(s_k) = \frac{1}{|L(s_k)|} \sum_{\ell \in L(s_k)} \mathbf{1}(\ell \text{ jest poprawne}) $$

A przewagę:

$$ \hat A_{i,k} = \frac{1}{\sqrt{|L(s_k)|}} \Big( (V(s_k) - V(s_1)) + (V(s_k) - V(p(s_k))) \Big) $$

gdzie ( p(s_k) ) to rodzic.

Komponenty AttnRL

  1. Attention-Based Tree Branching (ATB)
    Wykorzystuje macierze uwagi, by wskazać kroki o największym wpływie na dalsze rozumowanie.
    Definicja Forward Context Influence (FCI) dla kroku (k):

    $$ y_{l,h,k} = \sum_{j=k+\Delta}^{T_k} \alpha_{l,h}(j,k) $$

    gdzie (\alpha_{l,h}(j,k)) to uwaga z kroku (j) na krok (k).

    Następnie:

    $$ y_k = \max_{l,h} y_{l,h,k} $$

    Kroki z najwyższym FCI wybierane są jako punkty rozgałęzienia.

  2. Adaptive Sampling (ADS)

    • Filtruje prompty zbyt łatwe (które nie wnoszą informacji).
    • Dostosowuje liczbę gałęzi do trudności:

    $$ {tree_num} = \exp(-z_n) \times {original_tree_num} $$

    gdzie ( z_n ) to miara łatwości promptu.

    • Dynamicznie reguluje rozmiar batcha:

    $$ B_m = \mathrm{Round}\big( \lambda B_{m-1} + (1-\lambda),\frac{B’}{B’’} B_{m-1} \big) $$

    gdzie ( B’’ ) = liczba próbek z niezerową przewagą.

  3. One-Step Off-Policy Training
    Zamiast dwóch rund generowania (jak w TreeRL), AttnRL łączy generowanie nowych promptów i rollouty dla starych promptów w jednej iteracji, redukując koszty.

Wyniki

  • AttnRL przewyższa metody bazowe (GRPO, TreeRL) o ok. +1.8 pp na benchmarkach matematycznych.
  • Skraca czas treningu o ~8%.
  • Wytwarza więcej wartościowych ścieżek (z niezerową przewagą).

Podsumowanie

AttnRL to metoda, która używa uwagi jako kompasu, aby bardziej efektywnie eksplorować ścieżki rozumowania w dużych modelach językowych. Dzięki temu:

  • Modele uczą się szybciej i skuteczniej.
  • Unikają strat czasu na nieistotne gałęzie.
  • Proces treningowy jest prostszy i tańszy obliczeniowo.

Dlaczego warto się tym interesować?

Bo w przyszłości takie metody mogą pozwolić na rozwój modeli:

  • rozwiązujących złożone zadania matematyczne, fizyczne i logiczne,
  • wspomagających dowodzenie twierdzeń czy planowanie procesów,
  • działających w środowiskach multimodalnych (tekst, obraz, dane).

AttnRL to krok w stronę „mądrzejszego” uczenia rozumowania — nie tylko szybszego, ale też bardziej celowego.


📎 Linki