W ostatnich latach duże modele wizualno‑językowe (Large Vision‑Language Models, LVLM) potrafią łączyć rozumienie obrazów i tekstu, ale mają trudności z długimi, wieloetapowymi wnioskowaniami. Artykuł „SOPHIA: Semi‑Off‑Policy Reinforcement Learning for Slow‑Thinking in LVLMs” przedstawia nową metodę, która znacząco poprawia ich zdolność do tzw. wolnomyślenia (slow‑thinking reasoning).
Czym jest wolnomyślenie?
Wolnomyślenie to długi, przejrzysty proces rozumowania, w którym model krok po kroku analizuje każdy fragment problemu. W przeciwieństwie do szybkich, intuicyjnych podpowiedzi, slow‑thinking:
- rozpisuje rozumowanie na etapy,
- sprawdza pośrednie wnioski,
- umożliwia interpretację każdej decyzji.
Dzięki temu unika częstych „halucynacji” – czyli wymyślania szczegółów nieistniejących na obrazie.
Podstawy reinforcement learning
Reinforcement learning (RL) to nauka przez wzmacnianie:
Model (agent) działa w środowisku, otrzymuje stany $s$ (np. opis obrazu) i wybiera akcje $a$ (np. kolejny krok rozumowania).
Za każdą akcję agent dostaje nagrodę $R(s,a)$.
Celem jest maksymalizacja oczekiwanej sumy nagród:
$$J(\theta) = \mathbb{E}\Bigl[\sum_{t=0}^T R(s_t, a_t)\Bigr],$$
gdzie $\theta$ to parametry modelu, a $(s_t,a_t)$ to kolejność stanów i akcji.
Istnieją dwa główne podejścia:
- On‑policy RL – agent uczy się na podstawie własnych trajektorii (ciągów stan‑akcja), co bywa ograniczone przez początkowe błędy modelu.
- Off‑policy RL – można uczyć się z dowolnych trajektorii, ale ryzyko rozbieżności między źródłem danych a aktualną polityką prowadzi do błędów (halucynacji).
Metoda SOPHIA
SOPHIA łączy zalety obu podejść w nowatorski sposób:
On‑policy wizualne zrozumienie
Model generuje opisy obrazu i krótkie wnioskowania, zbierając własne trajektorie.Off‑policy slow‑thinking
Duży model językowy (np. GPT‑klasy) dostarcza dłuższe, szczegółowe rozumowania zapisane jako trajektorie.Mechanizm przypisywania nagród
- Weryfikacja poprawności wnioskowań (np. testy matematyczne, logiczne).
- Propagacja nagród wizualnych wstecz, by wzmocnić spójność między czytaniem obrazu a rozumieniem.
Dzięki temu SOPHIA:
- unika halucynacji (dobre trajektorie z off‑policy są weryfikowane),
- eksploruje nowe ścieżki rozumowania (on‑policy),
- przyspiesza i wzmacnia naukę slow‑thinking.
Wyniki eksperymentów
Autorzy przetestowali SOPHIA na dwóch otwartoźródłowych modelach InternVL:
- InternVL2.5 (8 mld parametrów)
- InternVL3.0 (38 mld parametrów)
Efekty dla InternVL3.0:
- Wzrost średniej dokładności o 8,5 p.p..
- Wyniki zbliżone do GPT‑4.1, a w niektórych zadaniach (MathVision, OlympiadBench) nawet je przewyższające (ok. 49–50 % pass@1).
Podsumowanie
SOPHIA to skalowalna, semi‑off‑policy metoda RL, która:
- wprowadza do LVLM zdolność głębokiego rozumowania,
- łączy odczyty wizualne z rozumowaniami językowymi,
- osiąga wyniki porównywalne z najlepszymi komercyjnymi modelami.
Jej kluczową zaletą jest minimalna potrzeba ręcznych adnotacji i możliwość dalszej rozbudowy w kolejnych pracach nad AI.
📎 Linki
- Na podstawie publikacji 📄 2507.16814