Modele generowania wideo jak Sora potrafią rozwiązywać labirynty, manipulować obiektami i odpowiadać na pytania matematyczne - wszystko poprzez generowanie wideo. Ale jak one rozumują? Intuicyjna odpowiedź: krok po kroku, klatka po klatce, jak człowiek rysujący rozwiązanie na tablicy.
Ta odpowiedź jest błędna.
Publikacja “Demystifying Video Reasoning” pokazuje, że rozumowanie w modelu dyfuzyjnym nie przebiega wzdłuż klatek. Przebiega wzdłuż kroków odszumiania - iteracyjnego procesu, który zamienia szum w spójne wideo. Autorzy nazywają to Chain-of-Steps (CoS) i fundamentalnie zmienia to sposób, w jaki rozumiemy działanie tych modeli.
Tło: Wideo jako medium rozumowania
Wcześniejsze prace - szczególnie Thinking with Video (2511.04570) - wykazały, że modele generowania wideo potrafią rozwiązywać zadania rozumowania. Sora-2 osiągnęła 40% na zagadkach geometrycznych (pokonując VLM-y), 98.9% na GSM8K i 92% na MATH-500, wszystko generując wideo, które wizualnie przepracowuje problem.
Zakładane wyjaśnienie to Chain-of-Frames (CoF): model rozumuje sekwencyjnie, każda klatka buduje na poprzedniej, jak animowany dowód. Klatka 1 ustawia problem, klatka 10 robi pierwszy krok, klatka 30 dochodzi do odpowiedzi.
Intuicyjne. Eleganckie. I w dużej mierze błędne.
Chain-of-Steps: Gdzie naprawdę zachodzi rozumowanie
Główne odkrycie
Autorzy badają wewnętrzną mechanikę modeli dyfuzyjnych modeli dyfuzyjnych Modele generatywne uczące się tworzyć dane przez odwracanie procesu dodawania szumu. Startując od czystego szumu, iteracyjnie ‘odszumiają’ aż do uzyskania spójnego wyniku - obrazu lub wideo. podczas generowania wideo i odkrywają coś zaskakującego: rozumowanie zachodzi wzdłuż osi odszumiania, nie wzdłuż osi czasowej.
W procesie dyfuzji procesie dyfuzji Iteracyjna procedura, w której model startuje od losowego szumu i stopniowo go oczyszcza przez wiele kroków (typowo 20-100) w czysty obraz lub wideo. Wczesne kroki ustalają strukturę; późne dodają detale. model startuje od czystego szumu i iteracyjnie oczyszcza go w spójne wideo. Autorzy pokazują, że:
- Wczesne kroki odszumiania - model eksploruje wiele kandydujących rozwiązań jednocześnie. Reprezentacja latentna zawiera nakładające się, sprzeczne możliwości.
- Środkowe kroki odszumiania - kandydaci są stopniowo eliminowani. Model zawęża się ku konkretnej ścieżce rozwiązania.
- Późne kroki odszumiania - finalna odpowiedź krystalizuje się. Detale są dopracowywane, ale rozwiązanie jest już wybrane.
To jest Chain-of-Steps (CoS): rozumowanie jako progresywna konwergencja przez odszumianie, nie sekwencyjna konstrukcja przez klatki.
Dlaczego to ważne
Rozróżnienie jest kluczowe. W CoF każda klatka to krok rozumowania - potrzebujesz wielu klatek do złożonych problemów, a model musi utrzymywać logiczną spójność wzdłuż osi czasowej. W CoS rozumowanie zachodzi “pionowo” przez głębokość odszumiania, a klatki są raczej różnymi przestrzennymi widokami tego samego skonwergowanego rozwiązania.
To oznacza:
- Więcej kroków odszumiania = głębsze rozumowanie, nie więcej klatek
- Model nie potrzebuje długich filmów do rozwiązywania złożonych problemów
- Jakość rozumowania jest powiązana z harmonogramem odszumiania harmonogramem odszumiania Sekwencja poziomów szumu używanych podczas generowania. Harmonogram określa, ile szumu jest usuwane na każdym kroku, wpływając na to, jak model alokuje ‘obliczenia’ między strukturę a detale. , nie z długością wideo
Emergentne zachowania rozumowania
Poza CoS autorzy identyfikują trzy zachowania, które pojawiają się spontanicznie podczas generowania:
1. Pamięć robocza
Model utrzymuje trwałe punkty odniesienia między krokami odszumiania. Rozwiązując labirynt, nie odkrywa ścian na nowo w każdym kroku - ustala ich pozycje wcześnie i utrzymuje je jako stabilny szkielet podczas eksploracji ścieżek.
To analogia do tego, jak ludzie trzymają relevantne ograniczenia “załadowane” w pamięci roboczej pamięci roboczej Zdolność do utrzymywania i manipulowania informacjami przez krótki czas podczas wykonywania zadania poznawczego. W kontekście modeli: utrzymywanie ustaleń z wcześniejszych kroków jako stabilnego kontekstu. podczas rozwiązywania problemu.
2. Samokorekta i ulepszanie
Być może najbardziej zaskakujące: model potrafi naprawić niepoprawne rozwiązania pośrednie. Podczas wczesnych kroków odszumiania reprezentacja latentna może zawierać błędną ścieżkę przez labirynt lub złą cyfrę w obliczeniach. W środkowych krokach te błędy mogą zostać skorygowane - bez żadnego jawnego mechanizmu wykrywania błędów.
Model nie konwerguje monotonnie ku odpowiedzi. Eksploruje, popełnia błędy i je naprawia - wszystko w ramach trajektorii odszumiania.
3. Percepcja przed działaniem
Wczesne kroki odszumiania ustalają zakotwiczenie semantyczne: rozumienie sceny, identyfikację obiektów, rozpoznanie struktury problemu. Dopiero po zbudowaniu tej fundamentalnej percepcji późniejsze kroki wykonują strukturalną manipulację: przesuwanie elementów, rysowanie ścieżek, obliczanie wyników.
To odzwierciedla ludzki wzorzec “popatrz zanim skoczysz” - ale wyłania się spontanicznie z procesu dyfuzji, nie z jawnego projektu architektonicznego.
Specjalizacja funkcjonalna wewnątrz transformera
Autorzy idą głębiej, badając co dzieje się w ramach pojedynczego kroku odszumiania wewnątrz Diffusion Transformera Diffusion Transformera Architektura generatywna łącząca modele dyfuzyjne z mechanizmem atencji transformera. DiT-y stały się dominującą architekturą dla wysokiej jakości generowania wideo (Sora, Kling, VEO). (DiT):
| Grupa warstw | Funkcja | Rola |
|---|---|---|
| Wczesne warstwy | Gęste kodowanie percepcyjne | Ekstrakcja cech wizualnych, rozumienie struktury sceny |
| Środkowe warstwy | Wykonywanie rozumowania | Operacje logiczne, manipulacja przestrzenna |
| Późne warstwy | Konsolidacja reprezentacji | Scalanie i stabilizacja latentu w spójne wyjście |
To samowyłoniona specjalizacja funkcjonalna - model nie został zaprojektowany z oddzielnymi modułami percepcji i rozumowania. Podział pracy wyłonił się z treningu.
Implikacja: w ramach każdego kroku odszumiania model uruchamia mini-pipeline percepcja → rozumowanie → konsolidacja. Między krokami odszumiania te mini-pipeline’y progresywnie doskonalą rozwiązanie. To rozumowanie zagnieżdżone w rozumowaniu.
Praktyczne zastosowanie: Ensemble z różnymi seedami
Zainspirowane odkryciem CoS, autorzy proponują prostą, niewymagającą treningu strategię: uruchom ten sam model wielokrotnie z różnymi losowymi seedami i uśrednij trajektorie latentne.
Dlaczego to działa? Ponieważ:
- Różne seedy eksplorują różne regiony przestrzeni rozwiązań podczas wczesnych kroków odszumiania
- Uśrednienie trajektorii latentnych łączy te eksploracje
- Wynik to szersze przeszukanie możliwych rozwiązań przed konwergencją
To koncepcyjnie podobne do self-consistency self-consistency Strategia dekodowania, w której ten sam problem jest rozwiązywany wielokrotnie z różnymi losowymi próbkami, a najczęstsza odpowiedź jest wybierana. Używane w LLM-ach (głosowanie większościowe), teraz zaadaptowane do ciągłej przestrzeni latentnej modeli dyfuzyjnych. w LLM-ach (generuj wiele odpowiedzi, wybierz najpopularniejszą), ale operujące w ciągłej przestrzeni latentnej modeli dyfuzyjnych zamiast na dyskretnych tokenach.
Strategia poprawia wydajność rozumowania na benchmarkach - bez żadnego dotrenowania, zmian architektonicznych ani dodatkowych danych.
Co to zmienia
Dla projektowania modeli wideo
Jeśli rozumowanie żyje w głębokości odszumiania, to:
- Harmonogramy odszumiania powinny być optymalizowane pod rozumowanie, nie tylko jakość wizualną
- Modele mogłyby alokować więcej kroków do “trudnych” regionów i mniej do “łatwych”
- Architektury pogłębiające obliczenia per-krok (więcej warstw, więcej atencji) mogą poprawić rozumowanie bardziej niż dodawanie klatek
Dla rozumienia rozumowania AI
Odkrycie, że samokorekta wyłania się spontanicznie w modelach dyfuzyjnych, jest uderzające. LLM-y mają problem z samokorektą - często nie potrafią zidentyfikować własnych błędów bez zewnętrznego feedbacku. Modele dyfuzyjne, operujące w ciągłej przestrzeni latentnej z iteracyjnym udoskonalaniem, rozwijają tę zdolność naturalnie.
To sugeruje, że iteracyjne udoskonalanie w ciągłej przestrzeni może być bardziej naturalnym substratem dla pewnych typów rozumowania niż autoregresyjne generowanie tokenów.
Dla praktycznych zastosowań
- Rozwiązywanie labiryntów, planowanie ścieżek, rozumowanie geometryczne: te zadania korzystają z głębszego odszumiania, nie dłuższych filmów
- Strategia ensemble z seedami to darmowa poprawa w czasie inferencji, stosowalna do dowolnego modelu dyfuzyjnego
- Niepewność we wczesnych krokach może przewidywać jakość finalnego rozumowania - umożliwiając wczesne zatrzymanie lub ponowne próbkowanie
Podsumowanie
Chain-of-Steps przeformułowuje sposób, w jaki modele dyfuzyjne wideo rozumują:
- Rozumowanie zachodzi wzdłuż kroków odszumiania, nie wzdłuż klatek
- Wczesne kroki eksplorują wiele rozwiązań; późne konwergują do jednego
- Trzy emergentne zachowania: pamięć robocza, samokorekta, percepcja przed działaniem
- W ramach każdego kroku warstwy transformera samo-specjalizują się: percepcja → rozumowanie → konsolidacja
- Prosty ensemble z różnymi seedami wykorzystuje te dynamiki do darmowej poprawy
Głębsza lekcja: modele dyfuzyjne to nie tylko dopasowywacze wzorców, które przypadkowo produkują wiarygodne wideo. Rozwijają wewnętrzne dynamiki rozumowania - eksplorując, korygując i konwergując - które wyłaniają się z samej struktury procesu odszumiania.
Linki
- Na podstawie publikacji arXiv:2603.16870
- Strona projektu: wruisi.com/demystifying_video_reasoning
- Powiązane: Thinking with Video (arXiv:2511.04570)