Co by było, gdyby można było przelecieć wirtualną kamerą przez dowolną ulicę prawdziwego miasta — nie w silniku gry, nie z nagrania, ale z wygenerowanego na żywo, fotorealistycznego obrazu opartego na prawdziwych zdjęciach ulicznych?
Dokładnie to robi Seoul World Model (SWM). Publikacja “Grounding World Simulation Models in a Real-World Metropolis” przedstawia model świata model świata Sieć neuronowa, która uczy się dynamiki i wyglądu środowiska, pozwalając ‘wyobrażać sobie’ nowe widoki i trajektorie, których nigdy bezpośrednio nie widziała. działający w skali całego miasta, zakotwiczony w realnej geografii — nie w wymyślonych scenach.
Problem: Od wyobraźni do rzeczywistości
Większość modeli generowania wideo działa w wyimaginowanym świecie. Potrafią tworzyć imponujące wizualizacje, ale te wizualizacje nie są powiązane z żadnym realnym miejscem. Poproś model o konkretną ulicę w Seulu — wygeneruje coś przekonującego, ale nieprawdziwego.
Dla zastosowań takich jak symulacja jazdy autonomicznej jazdy autonomicznej Samochody samojezdne wymagające dokładnych symulacji rzeczywistego otoczenia, aby bezpiecznie testować podejmowanie decyzji bez fizycznego ryzyka. , planowanie urbanistyczne czy nawigacja, potrzebny jest model generujący wideo wierne przestrzennie — zgodne z rzeczywistą geografią, budynkami i skrzyżowaniami.
Wyzwania:
- Rozbieżność czasowa — referencyjne zdjęcia uliczne zostały zrobione w innym czasie niż docelowa scena
- Rzadkie próbkowanie — panoramy są wykonywane co 5–20 metrów, nie jako ciągłe wideo
- Akumulacja błędów — na dystansie setek metrów małe błędy kumulują się, tworząc niespójne wideo
Architektura: Jak działa SWM
Fundament
SWM dostrajany jest na bazie Cosmos-Predict2.5-2B — Diffusion Transformer Diffusion Transformer Architektura generatywna łącząca modele dyfuzyjne (iteracyjne odszumianie) z mechanizmem atencji transformera. Stosowana do wysokiej jakości syntezy obrazu i wideo. z 2 miliardami parametrów, 28 blokami i 16 głowicami atencji. Wideo jest kompresowane do 16-kanałowej przestrzeni latentnej przestrzeni latentnej Skompresowana reprezentacja danych. Zamiast pracować z surowymi pikselami, model operuje w przestrzeni o niższym wymiarze, gdzie każdy wektor latentny koduje znaczące informacje wizualne. przez 3D VAE z 4× kompresją czasową i 8× przestrzenną.
Generowanie jest autoregresyjne autoregresyjne Generowanie wyjścia sekwencyjnie — każdy nowy fragment wideo jest uwarunkowany na wcześniej wygenerowanych fragmentach, jak pisanie zdania słowo po słowie. : model produkuje wideo w porcjach po 77 klatek (teacher-forcing) lub 12 klatek (self-forcing), każda uwarunkowana na poprzednim wyjściu.
Podwójny system referencji
SWM wykorzystuje dwa komplementarne sposoby wprowadzania informacji ze świata rzeczywistego:
Referencja geometryczna — najbliższe zdjęcie uliczne jest rzutowane na docelowy punkt widzenia z użyciem estymacji głębi:
$$\mathbf{x}_{warp} = \text{Render}(\text{Unproj}(\mathbf{x}_{ref}, d_{ref}), c_{ref \to t})$$
Ten zniekształcony obraz jest konkatenowany kanałowo z zaszumionym latentem docelowym, zapewniając geometryczne zakotwiczenie na poziomie pikseli.
Referencja semantyczna — K=5 pobliskich zdjęć ulicznych jest kodowanych jako pojedyncze tokeny latentne i dołączanych do sekwencji atencji. Każda docelowa klatka może zwracać uwagę na wszystkie pięć referencji, wyciągając wskazówki dotyczące wyglądu fasad, tekstur dróg i roślinności.
Kodowanie kamery
Pozycja kamery jest kodowana poprzez embeddingi promieni Plückera embeddingi promieni Plückera Matematyczna reprezentacja promieni kamery w przestrzeni 3D za pomocą współrzędnych 6D. Każdy piksel otrzymuje wektor kierunku i momentu, informując model dokładnie, gdzie kamera patrzy. — współrzędne 6D wyprowadzone z parametrów kamery, przetworzone przez enkoder konwolucyjny i skonkatenowane z kanałami latentnymi.
Kluczowe innowacje
1. Parowanie międzyczasowe (Cross-Temporal Pairing)
Zdjęcia uliczne są robione w różnych porach — lato vs. zima, dzień vs. noc, z zaparkowanymi samochodami lub bez. Zamiast traktować to jako wadę, SWM używa tego jako zalety.
Celowe parowanie referencji z różnych momentów czasowych z docelowymi sekwencjami zmusza model do wyciągania trwałych struktur (budynki, drogi, punkty orientacyjne) przy ignorowaniu przejściowych treści (pogoda, pojazdy, przechodnie). To najważniejsza decyzja projektowa — jej usunięcie powoduje największą degradację we wszystkich metrykach.
2. Pipeline interpolacji widoków
Panoramy uliczne są wykonywane co 5–20 metrów — zdecydowanie za rzadko do treningu wideo. SWM wypełnia luki strategią przerywanego zamrożenia klatki: każda kluczowa klatka jest powtarzana 4 razy z rzędu, dopasowując się do kroku czasowego 3D VAE.
To proste podejście znacząco przewyższa konkatenację kanałową:
| Metryka | Zamrożenie klatek | Konkatenacja |
|---|---|---|
| PSNR | 25.03 | 22.52 |
| SSIM | 0.703 | 0.628 |
| LPIPS | 0.162 | 0.245 |
3. Virtual Lookahead Sink
Na długich trajektoriach (setki metrów) modele autoregresyjne akumulują błędy. Wcześniejsze podejścia używały stałej kotwicy pierwszej klatki, ale staje się ona nieistotna, gdy kamera oddala się daleko.
Virtual Lookahead dynamicznie pobiera najbliższe zdjęcie uliczne do końcowego punktu generowanej porcji i umieszcza je jako przyszłą kotwicę:
$$\mathbf{Z}_{seq} = [\mathbf{Z}_{hist}; \mathbf{Z}; z_{VL}]$$
z przesunięciem czasowym $\Delta_{VL} = 5$ poza okno generowania. Model jest ciągle ponownie zakotwiczany w nadchodzących lokalizacjach.
Na wydłużonych sekwencjach 1460 klatek (4× standardowy benchmark):
| Wariant | FID ↓ | mPSNR ↑ |
|---|---|---|
| Virtual Lookahead | 25.13 | 13.70 |
| Bez kotwicy | 37.37 | 12.94 |
Różnica rośnie znacząco na dłuższych trajektoriach — dokładnie tam, gdzie ma to największe znaczenie.
Dane treningowe
SWM łączy trzy źródła danych:
| Źródło | Rozmiar | Rola |
|---|---|---|
| Seoul street-view | 440K panoram (z 1.2M surowych) | Zakotwiczenie w rzeczywistości |
| CARLA (syntetyczne) | 12.7K filmów na 6 mapach | Różnorodność trajektorii |
| Waymo | Publiczne nagrania jazdy | Różnorodność scenariuszy |
Proporcje treningu: Waymo 20%, Seoul 40%, syntetyczne 40%.
Konfiguracja: 10K iteracji (teacher-forcing) + 6K inicjalizacji ODE (self-forcing) na 24 GPU NVIDIA H100, batch size 48, learning rate 4.8e-5 z AdamW.
Wyniki: SWM vs. sześć modeli bazowych
Model oceniono na dwóch benchmarkach całkowicie nieobecnych w treningu:
- Busan-City-Bench: 30 sekwencji, 365 klatek (~100m), inne koreańskie miasto
- Ann-Arbor-City-Bench: 30 sekwencji z datasetu MARS, miasto w USA
Wyniki ilościowe
| Metryka | SWM (TF) | Najlepszy baseline | Poprawa |
|---|---|---|---|
| FID (Busan) | 28.43 | 62.14 (Lingbot) | 2.2× |
| FVD (Busan) | 301.76 | 717.44 (Lingbot) | 2.4× |
| RotErr (Busan) | 0.020 | 0.044 (HY-World) | 2.2× |
| TransErr (Busan) | 0.015 | 0.079 (HY-World) | 5.3× |
| FID (Ann Arbor) | 43.97 | 57.99 (Lingbot) | 1.3× |
SWM wytrenowany wyłącznie na danych z Seulu pokonuje wszystkie modele bazowe zarówno w Busan, jak i Ann Arbor bez żadnego dostrajania — demonstrując silną generalizację zero-shot generalizację zero-shot Zdolność do dobrego działania na zadaniu lub domenie nigdy nie widzianej podczas treningu. Tu: model wytrenowany na Seulu generuje dokładne wideo z Busan i Ann Arbor. .
Szybkość inferencji
Wariant self-forcing działa z prędkością 15.2 fps na pojedynczym GPU H100 — wystarczająco szybko do interaktywnych zastosowań.
Ablacja: Co jest najważniejsze?
| Usunięty komponent | Wpływ na FID | Wpływ na TransErr |
|---|---|---|
| Parowanie międzyczasowe | +16.31 (najgorszy) | +0.108 (najgorszy) |
| Referencja geometryczna | +4.58 | +0.051 |
| Dane syntetyczne | FVD +63 | RotErr +0.001 |
| Referencja semantyczna | +1.84 | minimalny |
Parowanie międzyczasowe jest najważniejszym komponentem — bez niego model overfituje się do przejściowych detali w zdjęciach referencyjnych.
Ograniczenia
- Brak prawdziwego wideo treningowego — SWM trenuje na interpolowanych sekwencjach z rzadkich kluczowych klatek, nie na faktycznym wideo. Prawdziwe wideo poprawiłoby spójność czasową.
- Obiekty dynamiczne — pojazdy i piesi czasami pojawiają się/znikają nagle (~5% przypadków), ponieważ referencje zostały zrobione w arbitralnych momentach w przeszłości.
- Zasięg geograficzny — trening obejmuje ~44.8 km × 31.0 km w obszarze metropolitalnym Seulu.
Dlaczego to ważne?
Seoul World Model to nie tylko imponujące demo. To fundament dla:
- Symulacji jazdy autonomicznej — testowanie systemów samojezdnych w fotorealistycznych odtworzeniach prawdziwych miast
- Planowania urbanistycznego — wizualizacja zmian w rzeczywistych dzielnicach przed rozpoczęciem budowy
- Nawigacji — generowanie podglądu tras z dowolnego kąta kamery
- Cyfrowych bliźniaków — ciągle aktualizowane modele wizualne miast
Kluczowy wniosek: zakotwiczenie generowania w danych z rzeczywistego świata (zdjęcia uliczne + współrzędne GPS) daje dramatycznie lepsze wyniki niż trening na wyobraźni. A model generalizuje na miasta, których nigdy nie widział.
Linki
- Na podstawie publikacji arXiv:2603.15583
- Strona projektu: seoul-world-model.github.io