Co by było, gdyby można było przelecieć wirtualną kamerą przez dowolną ulicę prawdziwego miasta — nie w silniku gry, nie z nagrania, ale z wygenerowanego na żywo, fotorealistycznego obrazu opartego na prawdziwych zdjęciach ulicznych?

Dokładnie to robi Seoul World Model (SWM). Publikacja “Grounding World Simulation Models in a Real-World Metropolis” przedstawia model świata model świata Sieć neuronowa, która uczy się dynamiki i wyglądu środowiska, pozwalając ‘wyobrażać sobie’ nowe widoki i trajektorie, których nigdy bezpośrednio nie widziała. działający w skali całego miasta, zakotwiczony w realnej geografii — nie w wymyślonych scenach.


Problem: Od wyobraźni do rzeczywistości

Większość modeli generowania wideo działa w wyimaginowanym świecie. Potrafią tworzyć imponujące wizualizacje, ale te wizualizacje nie są powiązane z żadnym realnym miejscem. Poproś model o konkretną ulicę w Seulu — wygeneruje coś przekonującego, ale nieprawdziwego.

Dla zastosowań takich jak symulacja jazdy autonomicznej jazdy autonomicznej Samochody samojezdne wymagające dokładnych symulacji rzeczywistego otoczenia, aby bezpiecznie testować podejmowanie decyzji bez fizycznego ryzyka. , planowanie urbanistyczne czy nawigacja, potrzebny jest model generujący wideo wierne przestrzennie — zgodne z rzeczywistą geografią, budynkami i skrzyżowaniami.

Wyzwania:

  1. Rozbieżność czasowa — referencyjne zdjęcia uliczne zostały zrobione w innym czasie niż docelowa scena
  2. Rzadkie próbkowanie — panoramy są wykonywane co 5–20 metrów, nie jako ciągłe wideo
  3. Akumulacja błędów — na dystansie setek metrów małe błędy kumulują się, tworząc niespójne wideo

Architektura: Jak działa SWM

Fundament

SWM dostrajany jest na bazie Cosmos-Predict2.5-2BDiffusion Transformer Diffusion Transformer Architektura generatywna łącząca modele dyfuzyjne (iteracyjne odszumianie) z mechanizmem atencji transformera. Stosowana do wysokiej jakości syntezy obrazu i wideo. z 2 miliardami parametrów, 28 blokami i 16 głowicami atencji. Wideo jest kompresowane do 16-kanałowej przestrzeni latentnej przestrzeni latentnej Skompresowana reprezentacja danych. Zamiast pracować z surowymi pikselami, model operuje w przestrzeni o niższym wymiarze, gdzie każdy wektor latentny koduje znaczące informacje wizualne. przez 3D VAE z 4× kompresją czasową i 8× przestrzenną.

Generowanie jest autoregresyjne autoregresyjne Generowanie wyjścia sekwencyjnie — każdy nowy fragment wideo jest uwarunkowany na wcześniej wygenerowanych fragmentach, jak pisanie zdania słowo po słowie. : model produkuje wideo w porcjach po 77 klatek (teacher-forcing) lub 12 klatek (self-forcing), każda uwarunkowana na poprzednim wyjściu.

Podwójny system referencji

SWM wykorzystuje dwa komplementarne sposoby wprowadzania informacji ze świata rzeczywistego:

Referencja geometryczna — najbliższe zdjęcie uliczne jest rzutowane na docelowy punkt widzenia z użyciem estymacji głębi:

$$\mathbf{x}_{warp} = \text{Render}(\text{Unproj}(\mathbf{x}_{ref}, d_{ref}), c_{ref \to t})$$

Ten zniekształcony obraz jest konkatenowany kanałowo z zaszumionym latentem docelowym, zapewniając geometryczne zakotwiczenie na poziomie pikseli.

Referencja semantyczna — K=5 pobliskich zdjęć ulicznych jest kodowanych jako pojedyncze tokeny latentne i dołączanych do sekwencji atencji. Każda docelowa klatka może zwracać uwagę na wszystkie pięć referencji, wyciągając wskazówki dotyczące wyglądu fasad, tekstur dróg i roślinności.

Kodowanie kamery

Pozycja kamery jest kodowana poprzez embeddingi promieni Plückera embeddingi promieni Plückera Matematyczna reprezentacja promieni kamery w przestrzeni 3D za pomocą współrzędnych 6D. Każdy piksel otrzymuje wektor kierunku i momentu, informując model dokładnie, gdzie kamera patrzy. — współrzędne 6D wyprowadzone z parametrów kamery, przetworzone przez enkoder konwolucyjny i skonkatenowane z kanałami latentnymi.


Kluczowe innowacje

1. Parowanie międzyczasowe (Cross-Temporal Pairing)

Zdjęcia uliczne są robione w różnych porach — lato vs. zima, dzień vs. noc, z zaparkowanymi samochodami lub bez. Zamiast traktować to jako wadę, SWM używa tego jako zalety.

Celowe parowanie referencji z różnych momentów czasowych z docelowymi sekwencjami zmusza model do wyciągania trwałych struktur (budynki, drogi, punkty orientacyjne) przy ignorowaniu przejściowych treści (pogoda, pojazdy, przechodnie). To najważniejsza decyzja projektowa — jej usunięcie powoduje największą degradację we wszystkich metrykach.

2. Pipeline interpolacji widoków

Panoramy uliczne są wykonywane co 5–20 metrów — zdecydowanie za rzadko do treningu wideo. SWM wypełnia luki strategią przerywanego zamrożenia klatki: każda kluczowa klatka jest powtarzana 4 razy z rzędu, dopasowując się do kroku czasowego 3D VAE.

To proste podejście znacząco przewyższa konkatenację kanałową:

MetrykaZamrożenie klatekKonkatenacja
PSNR25.0322.52
SSIM0.7030.628
LPIPS0.1620.245

3. Virtual Lookahead Sink

Na długich trajektoriach (setki metrów) modele autoregresyjne akumulują błędy. Wcześniejsze podejścia używały stałej kotwicy pierwszej klatki, ale staje się ona nieistotna, gdy kamera oddala się daleko.

Virtual Lookahead dynamicznie pobiera najbliższe zdjęcie uliczne do końcowego punktu generowanej porcji i umieszcza je jako przyszłą kotwicę:

$$\mathbf{Z}_{seq} = [\mathbf{Z}_{hist}; \mathbf{Z}; z_{VL}]$$

z przesunięciem czasowym $\Delta_{VL} = 5$ poza okno generowania. Model jest ciągle ponownie zakotwiczany w nadchodzących lokalizacjach.

Na wydłużonych sekwencjach 1460 klatek (4× standardowy benchmark):

WariantFID ↓mPSNR ↑
Virtual Lookahead25.1313.70
Bez kotwicy37.3712.94

Różnica rośnie znacząco na dłuższych trajektoriach — dokładnie tam, gdzie ma to największe znaczenie.


Dane treningowe

SWM łączy trzy źródła danych:

ŹródłoRozmiarRola
Seoul street-view440K panoram (z 1.2M surowych)Zakotwiczenie w rzeczywistości
CARLA (syntetyczne)12.7K filmów na 6 mapachRóżnorodność trajektorii
WaymoPubliczne nagrania jazdyRóżnorodność scenariuszy

Proporcje treningu: Waymo 20%, Seoul 40%, syntetyczne 40%.

Konfiguracja: 10K iteracji (teacher-forcing) + 6K inicjalizacji ODE (self-forcing) na 24 GPU NVIDIA H100, batch size 48, learning rate 4.8e-5 z AdamW.


Wyniki: SWM vs. sześć modeli bazowych

Model oceniono na dwóch benchmarkach całkowicie nieobecnych w treningu:

  • Busan-City-Bench: 30 sekwencji, 365 klatek (~100m), inne koreańskie miasto
  • Ann-Arbor-City-Bench: 30 sekwencji z datasetu MARS, miasto w USA

Wyniki ilościowe

MetrykaSWM (TF)Najlepszy baselinePoprawa
FID (Busan)28.4362.14 (Lingbot)2.2×
FVD (Busan)301.76717.44 (Lingbot)2.4×
RotErr (Busan)0.0200.044 (HY-World)2.2×
TransErr (Busan)0.0150.079 (HY-World)5.3×
FID (Ann Arbor)43.9757.99 (Lingbot)1.3×

SWM wytrenowany wyłącznie na danych z Seulu pokonuje wszystkie modele bazowe zarówno w Busan, jak i Ann Arbor bez żadnego dostrajania — demonstrując silną generalizację zero-shot generalizację zero-shot Zdolność do dobrego działania na zadaniu lub domenie nigdy nie widzianej podczas treningu. Tu: model wytrenowany na Seulu generuje dokładne wideo z Busan i Ann Arbor. .

Szybkość inferencji

Wariant self-forcing działa z prędkością 15.2 fps na pojedynczym GPU H100 — wystarczająco szybko do interaktywnych zastosowań.


Ablacja: Co jest najważniejsze?

Usunięty komponentWpływ na FIDWpływ na TransErr
Parowanie międzyczasowe+16.31 (najgorszy)+0.108 (najgorszy)
Referencja geometryczna+4.58+0.051
Dane syntetyczneFVD +63RotErr +0.001
Referencja semantyczna+1.84minimalny

Parowanie międzyczasowe jest najważniejszym komponentem — bez niego model overfituje się do przejściowych detali w zdjęciach referencyjnych.


Ograniczenia

  1. Brak prawdziwego wideo treningowego — SWM trenuje na interpolowanych sekwencjach z rzadkich kluczowych klatek, nie na faktycznym wideo. Prawdziwe wideo poprawiłoby spójność czasową.
  2. Obiekty dynamiczne — pojazdy i piesi czasami pojawiają się/znikają nagle (~5% przypadków), ponieważ referencje zostały zrobione w arbitralnych momentach w przeszłości.
  3. Zasięg geograficzny — trening obejmuje ~44.8 km × 31.0 km w obszarze metropolitalnym Seulu.

Dlaczego to ważne?

Seoul World Model to nie tylko imponujące demo. To fundament dla:

  • Symulacji jazdy autonomicznej — testowanie systemów samojezdnych w fotorealistycznych odtworzeniach prawdziwych miast
  • Planowania urbanistycznego — wizualizacja zmian w rzeczywistych dzielnicach przed rozpoczęciem budowy
  • Nawigacji — generowanie podglądu tras z dowolnego kąta kamery
  • Cyfrowych bliźniaków — ciągle aktualizowane modele wizualne miast

Kluczowy wniosek: zakotwiczenie generowania w danych z rzeczywistego świata (zdjęcia uliczne + współrzędne GPS) daje dramatycznie lepsze wyniki niż trening na wyobraźni. A model generalizuje na miasta, których nigdy nie widział.


Linki