Demystifying Video Reasoning: Modele nie myślą klatkami - myślą krokami odszumiania

Modele generowania wideo jak Sora potrafią rozwiązywać labirynty, manipulować obiektami i odpowiadać na pytania matematyczne - wszystko poprzez generowanie wideo. Ale jak one rozumują? Intuicyjna odpowiedź: krok po kroku, klatka po klatce, jak człowiek rysujący rozwiązanie na tablicy. Ta odpowiedź jest błędna. Publikacja “Demystifying Video Reasoning” pokazuje, że rozumowanie w modelu dyfuzyjnym nie przebiega wzdłuż klatek. Przebiega wzdłuż kroków odszumiania - iteracyjnego procesu, który zamienia szum w spójne wideo. Autorzy nazywają to Chain-of-Steps (CoS) i fundamentalnie zmienia to sposób, w jaki rozumiemy działanie tych modeli. ...

marca 17, 2026

Seoul World Model: AI generujące wideo prawdziwych miast ze zdjęć ulicznych

Co by było, gdyby można było przelecieć wirtualną kamerą przez dowolną ulicę prawdziwego miasta — nie w silniku gry, nie z nagrania, ale z wygenerowanego na żywo, fotorealistycznego obrazu opartego na prawdziwych zdjęciach ulicznych? Dokładnie to robi Seoul World Model (SWM). Publikacja “Grounding World Simulation Models in a Real-World Metropolis” przedstawia model świata model świata Sieć neuronowa, która uczy się dynamiki i wyglądu środowiska, pozwalając ‘wyobrażać sobie’ nowe widoki i trajektorie, których nigdy bezpośrednio nie widziała. działający w skali całego miasta, zakotwiczony w realnej geografii — nie w wymyślonych scenach. ...

marca 16, 2026