W ostatnich latach duże modele wizualno‑językowe (Large Vision‑Language Models, LVLM) potrafią łączyć rozumienie obrazów i tekstu, ale mają trudności z długimi, wieloetapowymi wnioskowaniami. Artykuł „SOPHIA: Semi‑Off‑Policy Reinforcement Learning for Slow‑Thinking in LVLMs” przedstawia nową metodę, która znacząco poprawia ich zdolność do tzw. wolnomyślenia (slow‑thinking reasoning).

Czym jest wolnomyślenie?

Wolnomyślenie to długi, przejrzysty proces rozumowania, w którym model krok po kroku analizuje każdy fragment problemu. W przeciwieństwie do szybkich, intuicyjnych podpowiedzi, slow‑thinking:

  • rozpisuje rozumowanie na etapy,
  • sprawdza pośrednie wnioski,
  • umożliwia interpretację każdej decyzji.

Dzięki temu unika częstych „halucynacji” – czyli wymyślania szczegółów nieistniejących na obrazie.

Podstawy reinforcement learning

Reinforcement learning (RL) to nauka przez wzmacnianie:

  • Model (agent) działa w środowisku, otrzymuje stany $s$ (np. opis obrazu) i wybiera akcje $a$ (np. kolejny krok rozumowania).

  • Za każdą akcję agent dostaje nagrodę $R(s,a)$.

  • Celem jest maksymalizacja oczekiwanej sumy nagród:

    $$J(\theta) = \mathbb{E}\Bigl[\sum_{t=0}^T R(s_t, a_t)\Bigr],$$

    gdzie $\theta$ to parametry modelu, a $(s_t,a_t)$ to kolejność stanów i akcji.

Istnieją dwa główne podejścia:

  • On‑policy RL – agent uczy się na podstawie własnych trajektorii (ciągów stan‑akcja), co bywa ograniczone przez początkowe błędy modelu.
  • Off‑policy RL – można uczyć się z dowolnych trajektorii, ale ryzyko rozbieżności między źródłem danych a aktualną polityką prowadzi do błędów (halucynacji).

Metoda SOPHIA

SOPHIA łączy zalety obu podejść w nowatorski sposób:

  1. On‑policy wizualne zrozumienie
    Model generuje opisy obrazu i krótkie wnioskowania, zbierając własne trajektorie.

  2. Off‑policy slow‑thinking
    Duży model językowy (np. GPT‑klasy) dostarcza dłuższe, szczegółowe rozumowania zapisane jako trajektorie.

  3. Mechanizm przypisywania nagród

    • Weryfikacja poprawności wnioskowań (np. testy matematyczne, logiczne).
    • Propagacja nagród wizualnych wstecz, by wzmocnić spójność między czytaniem obrazu a rozumieniem.

Dzięki temu SOPHIA:

  • unika halucynacji (dobre trajektorie z off‑policy są weryfikowane),
  • eksploruje nowe ścieżki rozumowania (on‑policy),
  • przyspiesza i wzmacnia naukę slow‑thinking.

Wyniki eksperymentów

Autorzy przetestowali SOPHIA na dwóch otwartoźródłowych modelach InternVL:

  • InternVL2.5 (8 mld parametrów)
  • InternVL3.0 (38 mld parametrów)

Efekty dla InternVL3.0:

  • Wzrost średniej dokładności o 8,5 p.p..
  • Wyniki zbliżone do GPT‑4.1, a w niektórych zadaniach (MathVision, OlympiadBench) nawet je przewyższające (ok. 49–50 % pass@1).

Podsumowanie

SOPHIA to skalowalna, semi‑off‑policy metoda RL, która:

  • wprowadza do LVLM zdolność głębokiego rozumowania,
  • łączy odczyty wizualne z rozumowaniami językowymi,
  • osiąga wyniki porównywalne z najlepszymi komercyjnymi modelami.

Jej kluczową zaletą jest minimalna potrzeba ręcznych adnotacji i możliwość dalszej rozbudowy w kolejnych pracach nad AI.


📎 Linki