Seoul World Model: AI generujące wideo prawdziwych miast ze zdjęć ulicznych

Co by było, gdyby można było przelecieć wirtualną kamerą przez dowolną ulicę prawdziwego miasta — nie w silniku gry, nie z nagrania, ale z wygenerowanego na żywo, fotorealistycznego obrazu opartego na prawdziwych zdjęciach ulicznych?

Dokładnie to robi Seoul World Model (SWM). Publikacja “Grounding World Simulation Models in a Real-World Metropolis” przedstawia model świata model świata Sieć neuronowa, która uczy się dynamiki i wyglądu środowiska, pozwalając ‘wyobrażać sobie’ nowe widoki i trajektorie, których nigdy bezpośrednio nie widziała. działający w skali całego miasta, zakotwiczony w realnej geografii — nie w wymyślonych scenach.

Problem: Od wyobraźni do rzeczywistości

Większość modeli generowania wideo działa w wyimaginowanym świecie. Potrafią tworzyć imponujące wizualizacje, ale te wizualizacje nie są powiązane z żadnym realnym miejscem. Poproś model o konkretną ulicę w Seulu — wygeneruje coś przekonującego, ale nieprawdziwego.

Dla zastosowań takich jak symulacja jazdy autonomicznej jazdy autonomicznej Samochody samojezdne wymagające dokładnych symulacji rzeczywistego otoczenia, aby bezpiecznie testować podejmowanie decyzji bez fizycznego ryzyka. , planowanie urbanistyczne czy nawigacja, potrzebny jest model generujący wideo wierne przestrzennie — zgodne z rzeczywistą geografią, budynkami i skrzyżowaniami.

Wyzwania:

Rozbieżność czasowa — referencyjne zdjęcia uliczne zostały zrobione w innym czasie niż docelowa scena
Rzadkie próbkowanie — panoramy są wykonywane co 5–20 metrów, nie jako ciągłe wideo
Akumulacja błędów — na dystansie setek metrów małe błędy kumulują się, tworząc niespójne wideo

Architektura: Jak działa SWM

Fundament

SWM dostrajany jest na bazie Cosmos-Predict2.5-2B — Diffusion Transformer Diffusion Transformer Architektura generatywna łącząca modele dyfuzyjne (iteracyjne odszumianie) z mechanizmem atencji transformera. Stosowana do wysokiej jakości syntezy obrazu i wideo. z 2 miliardami parametrów, 28 blokami i 16 głowicami atencji. Wideo jest kompresowane do 16-kanałowej przestrzeni latentnej przestrzeni latentnej Skompresowana reprezentacja danych. Zamiast pracować z surowymi pikselami, model operuje w przestrzeni o niższym wymiarze, gdzie każdy wektor latentny koduje znaczące informacje wizualne. przez 3D VAE z 4× kompresją czasową i 8× przestrzenną.

Generowanie jest autoregresyjne autoregresyjne Generowanie wyjścia sekwencyjnie — każdy nowy fragment wideo jest uwarunkowany na wcześniej wygenerowanych fragmentach, jak pisanie zdania słowo po słowie. : model produkuje wideo w porcjach po 77 klatek (teacher-forcing) lub 12 klatek (self-forcing), każda uwarunkowana na poprzednim wyjściu.

Podwójny system referencji

SWM wykorzystuje dwa komplementarne sposoby wprowadzania informacji ze świata rzeczywistego:

Referencja geometryczna — najbliższe zdjęcie uliczne jest rzutowane na docelowy punkt widzenia z użyciem estymacji głębi:

$$\mathbf{x}_{warp} = \text{Render}(\text{Unproj}(\mathbf{x}_{ref}, d_{ref}), c_{ref \to t})$$

Ten zniekształcony obraz jest konkatenowany kanałowo z zaszumionym latentem docelowym, zapewniając geometryczne zakotwiczenie na poziomie pikseli.

Referencja semantyczna — K=5 pobliskich zdjęć ulicznych jest kodowanych jako pojedyncze tokeny latentne i dołączanych do sekwencji atencji. Każda docelowa klatka może zwracać uwagę na wszystkie pięć referencji, wyciągając wskazówki dotyczące wyglądu fasad, tekstur dróg i roślinności.

Kodowanie kamery

Pozycja kamery jest kodowana poprzez embeddingi promieni Plückera embeddingi promieni Plückera Matematyczna reprezentacja promieni kamery w przestrzeni 3D za pomocą współrzędnych 6D. Każdy piksel otrzymuje wektor kierunku i momentu, informując model dokładnie, gdzie kamera patrzy. — współrzędne 6D wyprowadzone z parametrów kamery, przetworzone przez enkoder konwolucyjny i skonkatenowane z kanałami latentnymi.

Kluczowe innowacje

1. Parowanie międzyczasowe (Cross-Temporal Pairing)

Zdjęcia uliczne są robione w różnych porach — lato vs. zima, dzień vs. noc, z zaparkowanymi samochodami lub bez. Zamiast traktować to jako wadę, SWM używa tego jako zalety.

Celowe parowanie referencji z różnych momentów czasowych z docelowymi sekwencjami zmusza model do wyciągania trwałych struktur (budynki, drogi, punkty orientacyjne) przy ignorowaniu przejściowych treści (pogoda, pojazdy, przechodnie). To najważniejsza decyzja projektowa — jej usunięcie powoduje największą degradację we wszystkich metrykach.

2. Pipeline interpolacji widoków

Panoramy uliczne są wykonywane co 5–20 metrów — zdecydowanie za rzadko do treningu wideo. SWM wypełnia luki strategią przerywanego zamrożenia klatki: każda kluczowa klatka jest powtarzana 4 razy z rzędu, dopasowując się do kroku czasowego 3D VAE.

To proste podejście znacząco przewyższa konkatenację kanałową:

Metryka	Zamrożenie klatek	Konkatenacja
PSNR	25.03	22.52
SSIM	0.703	0.628
LPIPS	0.162	0.245

3. Virtual Lookahead Sink

Na długich trajektoriach (setki metrów) modele autoregresyjne akumulują błędy. Wcześniejsze podejścia używały stałej kotwicy pierwszej klatki, ale staje się ona nieistotna, gdy kamera oddala się daleko.

Virtual Lookahead dynamicznie pobiera najbliższe zdjęcie uliczne do końcowego punktu generowanej porcji i umieszcza je jako przyszłą kotwicę:

$$\mathbf{Z}_{seq} = [\mathbf{Z}_{hist}; \mathbf{Z}; z_{VL}]$$

z przesunięciem czasowym $\Delta_{VL} = 5$ poza okno generowania. Model jest ciągle ponownie zakotwiczany w nadchodzących lokalizacjach.

Na wydłużonych sekwencjach 1460 klatek (4× standardowy benchmark):

Wariant	FID ↓	mPSNR ↑
Virtual Lookahead	25.13	13.70
Bez kotwicy	37.37	12.94

Różnica rośnie znacząco na dłuższych trajektoriach — dokładnie tam, gdzie ma to największe znaczenie.

Dane treningowe

SWM łączy trzy źródła danych:

Źródło	Rozmiar	Rola
Seoul street-view	440K panoram (z 1.2M surowych)	Zakotwiczenie w rzeczywistości
CARLA (syntetyczne)	12.7K filmów na 6 mapach	Różnorodność trajektorii
Waymo	Publiczne nagrania jazdy	Różnorodność scenariuszy

Proporcje treningu: Waymo 20%, Seoul 40%, syntetyczne 40%.

Konfiguracja: 10K iteracji (teacher-forcing) + 6K inicjalizacji ODE (self-forcing) na 24 GPU NVIDIA H100, batch size 48, learning rate 4.8e-5 z AdamW.

Wyniki: SWM vs. sześć modeli bazowych

Model oceniono na dwóch benchmarkach całkowicie nieobecnych w treningu:

Busan-City-Bench: 30 sekwencji, 365 klatek (~100m), inne koreańskie miasto
Ann-Arbor-City-Bench: 30 sekwencji z datasetu MARS, miasto w USA

Wyniki ilościowe

Metryka	SWM (TF)	Najlepszy baseline	Poprawa
FID (Busan)	28.43	62.14 (Lingbot)	2.2×
FVD (Busan)	301.76	717.44 (Lingbot)	2.4×
RotErr (Busan)	0.020	0.044 (HY-World)	2.2×
TransErr (Busan)	0.015	0.079 (HY-World)	5.3×
FID (Ann Arbor)	43.97	57.99 (Lingbot)	1.3×

SWM wytrenowany wyłącznie na danych z Seulu pokonuje wszystkie modele bazowe zarówno w Busan, jak i Ann Arbor bez żadnego dostrajania — demonstrując silną generalizację zero-shot generalizację zero-shot Zdolność do dobrego działania na zadaniu lub domenie nigdy nie widzianej podczas treningu. Tu: model wytrenowany na Seulu generuje dokładne wideo z Busan i Ann Arbor. .

Szybkość inferencji

Wariant self-forcing działa z prędkością 15.2 fps na pojedynczym GPU H100 — wystarczająco szybko do interaktywnych zastosowań.

Ablacja: Co jest najważniejsze?

Usunięty komponent	Wpływ na FID	Wpływ na TransErr
Parowanie międzyczasowe	+16.31 (najgorszy)	+0.108 (najgorszy)
Referencja geometryczna	+4.58	+0.051
Dane syntetyczne	FVD +63	RotErr +0.001
Referencja semantyczna	+1.84	minimalny

Parowanie międzyczasowe jest najważniejszym komponentem — bez niego model overfituje się do przejściowych detali w zdjęciach referencyjnych.

Ograniczenia

Brak prawdziwego wideo treningowego — SWM trenuje na interpolowanych sekwencjach z rzadkich kluczowych klatek, nie na faktycznym wideo. Prawdziwe wideo poprawiłoby spójność czasową.
Obiekty dynamiczne — pojazdy i piesi czasami pojawiają się/znikają nagle (~5% przypadków), ponieważ referencje zostały zrobione w arbitralnych momentach w przeszłości.
Zasięg geograficzny — trening obejmuje ~44.8 km × 31.0 km w obszarze metropolitalnym Seulu.

Dlaczego to ważne?

Seoul World Model to nie tylko imponujące demo. To fundament dla:

Symulacji jazdy autonomicznej — testowanie systemów samojezdnych w fotorealistycznych odtworzeniach prawdziwych miast
Planowania urbanistycznego — wizualizacja zmian w rzeczywistych dzielnicach przed rozpoczęciem budowy
Nawigacji — generowanie podglądu tras z dowolnego kąta kamery
Cyfrowych bliźniaków — ciągle aktualizowane modele wizualne miast

Kluczowy wniosek: zakotwiczenie generowania w danych z rzeczywistego świata (zdjęcia uliczne + współrzędne GPS) daje dramatycznie lepsze wyniki niż trening na wyobraźni. A model generalizuje na miasta, których nigdy nie widział.

Linki

Na podstawie publikacji arXiv:2603.15583
Strona projektu: seoul-world-model.github.io

Problem: Od wyobraźni do rzeczywistości#

Architektura: Jak działa SWM#

Fundament#

Podwójny system referencji#

Kodowanie kamery#

Kluczowe innowacje#

1. Parowanie międzyczasowe (Cross-Temporal Pairing)#

2. Pipeline interpolacji widoków#

3. Virtual Lookahead Sink#

Dane treningowe#

Wyniki: SWM vs. sześć modeli bazowych#

Wyniki ilościowe#

Szybkość inferencji#

Ablacja: Co jest najważniejsze?#

Ograniczenia#

Dlaczego to ważne?#

Linki#