RLVMR: Wzmocnione Uczenie z Weryfikowalnymi Nagradzającymi Meta‑Rozumowaniem
Artykuł przedstawia RLVMR, innowacyjną metodę wzmocnionego uczenia (RL), która wprowadza weryfikowalne nagrody meta‑rozumowania wzmacniające zdolność działania na długich horyzontach czasowych. Agent generuje wewnętrzne sygnały wyjaśniające, które są oceniane pod względem weryfikowalności, co zwiększa odporność i jakość planowania :contentReference[oaicite:4]{index=4}. Wkład Formalizacja nagród meta‑rozumowania: agenci otrzymują dodatkowe sygnały nagród za weryfikowalność łańcuchów rozumowania. Protokół weryfikacji: pomocnicze ślady rozumowania są sprawdzalne i służą ocenie uzasadnień. Walidacja empiryczna na zadaniach RL z długim horyzontem – RLVMR przewyższa standardowe podejścia RL :contentReference[oaicite:5]{index=5}. Metoda Agent generuje łańcuch rozumowania $r = (r_1,\dots,r_T)$ wraz z akcjami $a_t$. Całkowita nagroda wynosi: $$ R_{\text{total}} = \sum_t R_{\text{env}}(a_t) + \lambda,R_{\text{meta}}(r), $$ gdzie $R_{\text{meta}}(r)$ jest duża tylko, jeśli łańcuch rozumowania przejdzie weryfikację; $\lambda$ reguluje wpływ meta‑rozumowania. ...