Demystifying Video Reasoning: Modele nie myślą klatkami - myślą krokami odszumiania

Modele generowania wideo jak Sora potrafią rozwiązywać labirynty, manipulować obiektami i odpowiadać na pytania matematyczne - wszystko poprzez generowanie wideo. Ale jak one rozumują? Intuicyjna odpowiedź: krok po kroku, klatka po klatce, jak człowiek rysujący rozwiązanie na tablicy.

Ta odpowiedź jest błędna.

Publikacja “Demystifying Video Reasoning” pokazuje, że rozumowanie w modelu dyfuzyjnym nie przebiega wzdłuż klatek. Przebiega wzdłuż kroków odszumiania - iteracyjnego procesu, który zamienia szum w spójne wideo. Autorzy nazywają to Chain-of-Steps (CoS) i fundamentalnie zmienia to sposób, w jaki rozumiemy działanie tych modeli.

Tło: Wideo jako medium rozumowania

Wcześniejsze prace - szczególnie Thinking with Video (2511.04570) - wykazały, że modele generowania wideo potrafią rozwiązywać zadania rozumowania. Sora-2 osiągnęła 40% na zagadkach geometrycznych (pokonując VLM-y), 98.9% na GSM8K i 92% na MATH-500, wszystko generując wideo, które wizualnie przepracowuje problem.

Zakładane wyjaśnienie to Chain-of-Frames (CoF): model rozumuje sekwencyjnie, każda klatka buduje na poprzedniej, jak animowany dowód. Klatka 1 ustawia problem, klatka 10 robi pierwszy krok, klatka 30 dochodzi do odpowiedzi.

Intuicyjne. Eleganckie. I w dużej mierze błędne.

Chain-of-Steps: Gdzie naprawdę zachodzi rozumowanie

Główne odkrycie

Autorzy badają wewnętrzną mechanikę modeli dyfuzyjnych modeli dyfuzyjnych Modele generatywne uczące się tworzyć dane przez odwracanie procesu dodawania szumu. Startując od czystego szumu, iteracyjnie ‘odszumiają’ aż do uzyskania spójnego wyniku - obrazu lub wideo. podczas generowania wideo i odkrywają coś zaskakującego: rozumowanie zachodzi wzdłuż osi odszumiania, nie wzdłuż osi czasowej.

W procesie dyfuzji procesie dyfuzji Iteracyjna procedura, w której model startuje od losowego szumu i stopniowo go oczyszcza przez wiele kroków (typowo 20-100) w czysty obraz lub wideo. Wczesne kroki ustalają strukturę; późne dodają detale. model startuje od czystego szumu i iteracyjnie oczyszcza go w spójne wideo. Autorzy pokazują, że:

Wczesne kroki odszumiania - model eksploruje wiele kandydujących rozwiązań jednocześnie. Reprezentacja latentna zawiera nakładające się, sprzeczne możliwości.
Środkowe kroki odszumiania - kandydaci są stopniowo eliminowani. Model zawęża się ku konkretnej ścieżce rozwiązania.
Późne kroki odszumiania - finalna odpowiedź krystalizuje się. Detale są dopracowywane, ale rozwiązanie jest już wybrane.

To jest Chain-of-Steps (CoS): rozumowanie jako progresywna konwergencja przez odszumianie, nie sekwencyjna konstrukcja przez klatki.

Dlaczego to ważne

Rozróżnienie jest kluczowe. W CoF każda klatka to krok rozumowania - potrzebujesz wielu klatek do złożonych problemów, a model musi utrzymywać logiczną spójność wzdłuż osi czasowej. W CoS rozumowanie zachodzi “pionowo” przez głębokość odszumiania, a klatki są raczej różnymi przestrzennymi widokami tego samego skonwergowanego rozwiązania.

To oznacza:

Więcej kroków odszumiania = głębsze rozumowanie, nie więcej klatek
Model nie potrzebuje długich filmów do rozwiązywania złożonych problemów
Jakość rozumowania jest powiązana z harmonogramem odszumiania harmonogramem odszumiania Sekwencja poziomów szumu używanych podczas generowania. Harmonogram określa, ile szumu jest usuwane na każdym kroku, wpływając na to, jak model alokuje ‘obliczenia’ między strukturę a detale. , nie z długością wideo

Emergentne zachowania rozumowania

Poza CoS autorzy identyfikują trzy zachowania, które pojawiają się spontanicznie podczas generowania:

1. Pamięć robocza

Model utrzymuje trwałe punkty odniesienia między krokami odszumiania. Rozwiązując labirynt, nie odkrywa ścian na nowo w każdym kroku - ustala ich pozycje wcześnie i utrzymuje je jako stabilny szkielet podczas eksploracji ścieżek.

To analogia do tego, jak ludzie trzymają relevantne ograniczenia “załadowane” w pamięci roboczej pamięci roboczej Zdolność do utrzymywania i manipulowania informacjami przez krótki czas podczas wykonywania zadania poznawczego. W kontekście modeli: utrzymywanie ustaleń z wcześniejszych kroków jako stabilnego kontekstu. podczas rozwiązywania problemu.

2. Samokorekta i ulepszanie

Być może najbardziej zaskakujące: model potrafi naprawić niepoprawne rozwiązania pośrednie. Podczas wczesnych kroków odszumiania reprezentacja latentna może zawierać błędną ścieżkę przez labirynt lub złą cyfrę w obliczeniach. W środkowych krokach te błędy mogą zostać skorygowane - bez żadnego jawnego mechanizmu wykrywania błędów.

Model nie konwerguje monotonnie ku odpowiedzi. Eksploruje, popełnia błędy i je naprawia - wszystko w ramach trajektorii odszumiania.

3. Percepcja przed działaniem

Wczesne kroki odszumiania ustalają zakotwiczenie semantyczne: rozumienie sceny, identyfikację obiektów, rozpoznanie struktury problemu. Dopiero po zbudowaniu tej fundamentalnej percepcji późniejsze kroki wykonują strukturalną manipulację: przesuwanie elementów, rysowanie ścieżek, obliczanie wyników.

To odzwierciedla ludzki wzorzec “popatrz zanim skoczysz” - ale wyłania się spontanicznie z procesu dyfuzji, nie z jawnego projektu architektonicznego.

Specjalizacja funkcjonalna wewnątrz transformera

Autorzy idą głębiej, badając co dzieje się w ramach pojedynczego kroku odszumiania wewnątrz Diffusion Transformera Diffusion Transformera Architektura generatywna łącząca modele dyfuzyjne z mechanizmem atencji transformera. DiT-y stały się dominującą architekturą dla wysokiej jakości generowania wideo (Sora, Kling, VEO). (DiT):

Grupa warstw	Funkcja	Rola
Wczesne warstwy	Gęste kodowanie percepcyjne	Ekstrakcja cech wizualnych, rozumienie struktury sceny
Środkowe warstwy	Wykonywanie rozumowania	Operacje logiczne, manipulacja przestrzenna
Późne warstwy	Konsolidacja reprezentacji	Scalanie i stabilizacja latentu w spójne wyjście

To samowyłoniona specjalizacja funkcjonalna - model nie został zaprojektowany z oddzielnymi modułami percepcji i rozumowania. Podział pracy wyłonił się z treningu.

Implikacja: w ramach każdego kroku odszumiania model uruchamia mini-pipeline percepcja → rozumowanie → konsolidacja. Między krokami odszumiania te mini-pipeline’y progresywnie doskonalą rozwiązanie. To rozumowanie zagnieżdżone w rozumowaniu.

Praktyczne zastosowanie: Ensemble z różnymi seedami

Zainspirowane odkryciem CoS, autorzy proponują prostą, niewymagającą treningu strategię: uruchom ten sam model wielokrotnie z różnymi losowymi seedami i uśrednij trajektorie latentne.

Dlaczego to działa? Ponieważ:

Różne seedy eksplorują różne regiony przestrzeni rozwiązań podczas wczesnych kroków odszumiania
Uśrednienie trajektorii latentnych łączy te eksploracje
Wynik to szersze przeszukanie możliwych rozwiązań przed konwergencją

To koncepcyjnie podobne do self-consistency self-consistency Strategia dekodowania, w której ten sam problem jest rozwiązywany wielokrotnie z różnymi losowymi próbkami, a najczęstsza odpowiedź jest wybierana. Używane w LLM-ach (głosowanie większościowe), teraz zaadaptowane do ciągłej przestrzeni latentnej modeli dyfuzyjnych. w LLM-ach (generuj wiele odpowiedzi, wybierz najpopularniejszą), ale operujące w ciągłej przestrzeni latentnej modeli dyfuzyjnych zamiast na dyskretnych tokenach.

Strategia poprawia wydajność rozumowania na benchmarkach - bez żadnego dotrenowania, zmian architektonicznych ani dodatkowych danych.

Co to zmienia

Dla projektowania modeli wideo

Jeśli rozumowanie żyje w głębokości odszumiania, to:

Harmonogramy odszumiania powinny być optymalizowane pod rozumowanie, nie tylko jakość wizualną
Modele mogłyby alokować więcej kroków do “trudnych” regionów i mniej do “łatwych”
Architektury pogłębiające obliczenia per-krok (więcej warstw, więcej atencji) mogą poprawić rozumowanie bardziej niż dodawanie klatek

Dla rozumienia rozumowania AI

Odkrycie, że samokorekta wyłania się spontanicznie w modelach dyfuzyjnych, jest uderzające. LLM-y mają problem z samokorektą - często nie potrafią zidentyfikować własnych błędów bez zewnętrznego feedbacku. Modele dyfuzyjne, operujące w ciągłej przestrzeni latentnej z iteracyjnym udoskonalaniem, rozwijają tę zdolność naturalnie.

To sugeruje, że iteracyjne udoskonalanie w ciągłej przestrzeni może być bardziej naturalnym substratem dla pewnych typów rozumowania niż autoregresyjne generowanie tokenów.

Dla praktycznych zastosowań

Rozwiązywanie labiryntów, planowanie ścieżek, rozumowanie geometryczne: te zadania korzystają z głębszego odszumiania, nie dłuższych filmów
Strategia ensemble z seedami to darmowa poprawa w czasie inferencji, stosowalna do dowolnego modelu dyfuzyjnego
Niepewność we wczesnych krokach może przewidywać jakość finalnego rozumowania - umożliwiając wczesne zatrzymanie lub ponowne próbkowanie

Podsumowanie

Chain-of-Steps przeformułowuje sposób, w jaki modele dyfuzyjne wideo rozumują:

Rozumowanie zachodzi wzdłuż kroków odszumiania, nie wzdłuż klatek
Wczesne kroki eksplorują wiele rozwiązań; późne konwergują do jednego
Trzy emergentne zachowania: pamięć robocza, samokorekta, percepcja przed działaniem
W ramach każdego kroku warstwy transformera samo-specjalizują się: percepcja → rozumowanie → konsolidacja
Prosty ensemble z różnymi seedami wykorzystuje te dynamiki do darmowej poprawy

Głębsza lekcja: modele dyfuzyjne to nie tylko dopasowywacze wzorców, które przypadkowo produkują wiarygodne wideo. Rozwijają wewnętrzne dynamiki rozumowania - eksplorując, korygując i konwergując - które wyłaniają się z samej struktury procesu odszumiania.

Linki

Na podstawie publikacji arXiv:2603.16870
Strona projektu: wruisi.com/demystifying_video_reasoning
Powiązane: Thinking with Video (arXiv:2511.04570)

Tło: Wideo jako medium rozumowania#

Chain-of-Steps: Gdzie naprawdę zachodzi rozumowanie#

Główne odkrycie#

Dlaczego to ważne#

Emergentne zachowania rozumowania#

1. Pamięć robocza#

2. Samokorekta i ulepszanie#

3. Percepcja przed działaniem#

Specjalizacja funkcjonalna wewnątrz transformera#

Praktyczne zastosowanie: Ensemble z różnymi seedami#

Co to zmienia#

Dla projektowania modeli wideo#

Dla rozumienia rozumowania AI#

Dla praktycznych zastosowań#

Podsumowanie#

Linki#