LiDAR na dachu autonomicznego samochodu, kamera głębi w robocie domowym, skaner satelitarny i model CAD z drukarki 3D — każde z tych urządzeń produkuje chmurę punktów chmurę punktów Zbiór punktów 3D (x, y, z) reprezentujący kształt obiektu lub sceny. Każdy punkt może mieć dodatkowe atrybuty: kolor, normalna, intensywność. , ale o radykalnie różnej gęstości, skali i geometrii. Dotychczas każda domena wymagała osobnego modelu. Publikacja “Utonia: Toward One Encoder for All Point Clouds” łamie ten schemat — jeden enkoder, 137M parametrów, pięć domen, i emergentne zachowania, których nikt się nie spodziewał.
Problem: Pięć Światów, Pięć Modeli
Chmury punktów przychodzą z zupełnie różnych źródeł:
| Domena | Przykładowe sensory | Skala | Gęstość |
|---|---|---|---|
| Wnętrza | RGB-D (Kinect, RealSense) | Pokoje | Wysoka |
| Zewnątrz | LiDAR (Velodyne, Waymo) | Ulice, kilometry | Rzadka, nieregularna |
| Teledetekcja | Satelity, drony | Miasta, tereny | Bardzo rzadka |
| Obiekty CAD | Modele 3D | Centymetry | Jednorodna |
| Video → 3D | Rekonstrukcja z RGB | Zmienna | Zaszumiona |
Trenowanie jednego modelu na tak różnorodnych danych to wyzwanie, bo siatka wokselowa siatka wokselowa Podział przestrzeni 3D na regularne komórki (woksele), analogicznie do pikseli w 2D. Używana do przetwarzania chmur punktów w sieciach neuronowych. dopasowana do pokoju nie zadziała na ulicy, a reprezentacja gęstego skanu obiektu nie pasuje do rzadkiego LiDAR-u.
Dotychczasowe podejścia (Sonata, Concerto) działały w obrębie jednej lub dwóch domen. Utonia scala wszystkie pięć.
Architektura: Point Transformer V3 + RoPE
Szkielet
Utonia bazuje na Point Transformer V3 Point Transformer V3 Architektura transformera zaprojektowana specjalnie dla chmur punktów 3D. Używa mechanizmu uwagi do modelowania relacji między punktami. (PTv3) — transformerze zaprojektowanym do przetwarzania chmur punktów.
| Wariant | Parametry | Kanały | Głębokości warstw |
|---|---|---|---|
| Ablacja | 38M | [36, 72, 144, 252, 504] | — |
| Główny | 137M | [54, 108, 216, 432, 576] | [3, 3, 3, 12, 3] |
RoPE: Kodowanie Pozycji bez Parametrów
Kluczowym ulepszeniem jest RoPE RoPE Rotary Position Embedding — metoda kodowania pozycji poprzez rotację wektorów cech. Nie wymaga dodatkowych parametrów i naturalnie obsługuje zmienne długości sekwencji. (Rotary Position Embedding) zastosowane do współrzędnych 3D.
Cechy każdego punktu dzielone są na trzy składowe osiowe:
$$\mathbf{u} = [\mathbf{u}^x;\ \mathbf{u}^y;\ \mathbf{u}^z]$$
Każda składowa otrzymuje 1D RoPE z odpowiedniej współrzędnej. RoPE jest aplikowane w każdej warstwie uwagi, co daje modelowi ciągłą informację o pozycji bez dodatkowych parametrów.
Trzy Filary Treningu Wielodomenowego
Naiwne połączenie danych z pięciu domen nie działa — autorzy zidentyfikowali trzy kluczowe problemy i ich rozwiązania:
1. Przyczynowe Zaślepianie Modalności
Problem: Model uczy się “skrótów” — rozpoznaje domenę po kolorach lub normalnych zamiast geometrii.
Rozwiązanie: Causal Modality Blinding — losowe usuwanie całych grup modalności (kolory, normalne normalne Wektory prostopadłe do powierzchni w danym punkcie. Opisują orientację powierzchni i są kluczowe dla rozumienia kształtu 3D. ) zarówno na poziomie całej próbki, jak i poszczególnych punktów.
Efekt: Bez kolorów Utonia osiąga 77.0% mIoU na ScanNet, vs zaledwie 36.8% dla Concerto. Model nauczył się rozumieć geometrię, nie polegać na kolorach.
2. Reskalowanie Granularności Percepcyjnej
Problem: Siatka o stałym rozmiarze nie pasuje jednocześnie do obiektów (centymetry) i ulic (kilometry).
Rozwiązanie: Współrzędne są reskalowane do wspólnej granularności obserwacyjnej granularności obserwacyjnej Ujednolicona skala przestrzenna, jakby obserwator patrzył na każdą scenę z tej samej odległości. Pozwala modelowi traktować punkty z różnych sensorów jednakowo. — to jakby patrzeć na każdą scenę z tej samej odległości. Formuła augmentacji:
Jitter osiowy: $\mathbf{j} = \exp(\varepsilon_j)$ gdzie $\varepsilon_j \sim \mathcal{U}(-\log \gamma, \log \gamma)^3$
Skalowanie izotropowe: $r = \exp(\varepsilon_s)$ gdzie $\varepsilon_s \sim \mathcal{U}(-\log \eta, \log \eta)$
3. RoPE na Wyrównanych Współrzędnych
RoPE jest aplikowane na współrzędnych po reskalowaniu z dodatkowym augmentacyjnym jitterem (anizotropowym) i skalowaniem (izotropowym), wzorowanym na zasadach DINOv3.
Trening: Self-Distillation na 64 GPU
Metodologia
Utonia trenowana jest metodą self-distillation self-distillation Technika gdzie model uczy się od samego siebie — ’nauczyciel’ (wolniej aktualizowana kopia) generuje cele dla ‘ucznia’ (właściwy model). Popularna w DINO, DINOv2. nauczyciel-uczeń:
- Nauczyciel: Otrzymuje globalną chmurę punktów (agregacja wielu klatek, wyrównana pozą)
- Uczeń: Otrzymuje lokalny widok (pojedyncza klatka)
- Model uczy się przewidywać globalny kontekst z lokalnej obserwacji
Dwa Etapy
| Etap | Dane | Cel |
|---|---|---|
| 1. Inicjalizacja | ScanNet, Structured3D, Waymo, PartNet | Stabilny start |
| 2. Pełny trening | 250k scen + 1M obiektów Cap3D | 100 epok |
Konfiguracja
| Parametr | Wartość |
|---|---|
| Batch size | 256 |
| GPU | 64× NVIDIA H20 |
| Cap3D sampling | 90k instancji / epoka |
| Augmentacja obiektów | ±50% skala, pełne rotacje SO(3) |
| Augmentacja scen | ±10% skala, yaw [−π, π] |
Wyniki: Jeden Model, Wszystkie Benchmarki
Segmentacja Semantyczna — Wnętrza
| Benchmark | mIoU |
|---|---|
| ScanNet | 81.1% |
| ScanNet200 | 39.6% |
| S3DIS Area 5 | 78.1% |
Segmentacja Semantyczna — Zewnątrz
| Benchmark | mIoU |
|---|---|
| NuScenes | 82.2% |
| Waymo | 71.4% |
| SemanticKITTI | 72.0% |
Klasyfikacja Obiektów
| Benchmark | mAcc |
|---|---|
| ModelNet40 | 92.4% |
| ScanObjectNN | 95.0% |
Segmentacja Części Obiektów
PartNetE: 62.7% mIoU
Jeden model osiąga wyniki SOTA lub bliskie SOTA na wszystkich domenach jednocześnie.
Emergentne Zachowania
Najciekawsza część publikacji: gdy domeny trenowane są razem, pojawiają się zachowania, których nie ma przy treningu osobnym.
Semantyczne Dopasowanie Międzydomenowe
Model CAD zabawkowego samochodu i prawdziwy samochód ze skanu LiDAR — Utonia przypisuje im wysokie podobieństwo cech, mimo że pochodzą z kompletnie różnych sensorów i skal.
Separacja Obiektów od Powierzchni
Cechy Utonii naturalnie oddzielają obiekty od powierzchni, na których stoją — bez żadnego nadzoru na ten temat.
Elastyczność Grawitacyjna
Sceny zachowują strukturę z osią Z jako “górą”, ale obiekty stają się w dużej mierze niezmiennikami rotacyjnymi niezmiennikami rotacyjnymi Cechy, które nie zmieniają się przy obracaniu obiektu. Model nauczył się rozumieć kształt niezależnie od orientacji. — model sam nauczył się, kiedy orientacja ma znaczenie, a kiedy nie.
Zastosowania: Roboty i Modele Językowe
Manipulacja Robotyczna
Utonia jako enkoder wizyjny w polityce VLA VLA Vision-Language-Action — model łączący percepcję wizualną, rozumienie języka i generowanie akcji robotycznych. :
| Model | Success Rate |
|---|---|
| Sonata | 74.7% |
| Concerto | 80.0% |
| Utonia | 82.1% |
Integracja z VLM (Video-3D LLM)
Cechy Utonii wstrzyknięte do modelu językowego poprawiają rozumowanie przestrzenne:
| Benchmark | Wynik |
|---|---|
| ScanRefer (Acc@0.5) | 54.0% |
| ScanQA (EM) | 30.5% |
| Scan2Cap (CIDEr@0.5) | 83.9 |
Open-World Segmentacja Części
Na PartObjaverse-Tiny: 57.95% average mIoU — cechy Utonii z wyraźną strukturą na poziomie części bez specjalnego treningu.
Podsumowanie
Utonia to przełom w przetwarzaniu chmur punktów 3D. Trzy kluczowe innowacje — zaślepianie modalności, reskalowanie granularności i 3D RoPE — pozwalają jednemu enkoderowi o 137M parametrów obsługiwać wnętrza, LiDAR, teledetekcję, CAD i rekonstrukcje z wideo.
Ale prawdziwa historia to emergentne zachowania: semantyczne dopasowanie między domenami, naturalna separacja obiektów i elastyczne traktowanie orientacji. To sugeruje, że różnorodność danych nie jest przeszkodą, ale zaletą — domeny wzajemnie się wzmacniają zamiast konkurować.
Implikacja dla branży: jeden pretrenowany model dla robotyki, autonomicznych pojazdów, AR/VR i analizy satelitarnej. Zamiast N specjalistów — jeden generalista.
Linki
- Na podstawie publikacji arXiv:2603.03283 PDF