LiDAR na dachu autonomicznego samochodu, kamera głębi w robocie domowym, skaner satelitarny i model CAD z drukarki 3D — każde z tych urządzeń produkuje chmurę punktów chmurę punktów Zbiór punktów 3D (x, y, z) reprezentujący kształt obiektu lub sceny. Każdy punkt może mieć dodatkowe atrybuty: kolor, normalna, intensywność. , ale o radykalnie różnej gęstości, skali i geometrii. Dotychczas każda domena wymagała osobnego modelu. Publikacja “Utonia: Toward One Encoder for All Point Clouds” łamie ten schemat — jeden enkoder, 137M parametrów, pięć domen, i emergentne zachowania, których nikt się nie spodziewał.


Problem: Pięć Światów, Pięć Modeli

Chmury punktów przychodzą z zupełnie różnych źródeł:

DomenaPrzykładowe sensorySkalaGęstość
WnętrzaRGB-D (Kinect, RealSense)PokojeWysoka
ZewnątrzLiDAR (Velodyne, Waymo)Ulice, kilometryRzadka, nieregularna
TeledetekcjaSatelity, dronyMiasta, terenyBardzo rzadka
Obiekty CADModele 3DCentymetryJednorodna
Video → 3DRekonstrukcja z RGBZmiennaZaszumiona

Trenowanie jednego modelu na tak różnorodnych danych to wyzwanie, bo siatka wokselowa siatka wokselowa Podział przestrzeni 3D na regularne komórki (woksele), analogicznie do pikseli w 2D. Używana do przetwarzania chmur punktów w sieciach neuronowych. dopasowana do pokoju nie zadziała na ulicy, a reprezentacja gęstego skanu obiektu nie pasuje do rzadkiego LiDAR-u.

Dotychczasowe podejścia (Sonata, Concerto) działały w obrębie jednej lub dwóch domen. Utonia scala wszystkie pięć.


Architektura: Point Transformer V3 + RoPE

Szkielet

Utonia bazuje na Point Transformer V3 Point Transformer V3 Architektura transformera zaprojektowana specjalnie dla chmur punktów 3D. Używa mechanizmu uwagi do modelowania relacji między punktami. (PTv3) — transformerze zaprojektowanym do przetwarzania chmur punktów.

WariantParametryKanałyGłębokości warstw
Ablacja38M[36, 72, 144, 252, 504]
Główny137M[54, 108, 216, 432, 576][3, 3, 3, 12, 3]

RoPE: Kodowanie Pozycji bez Parametrów

Kluczowym ulepszeniem jest RoPE RoPE Rotary Position Embedding — metoda kodowania pozycji poprzez rotację wektorów cech. Nie wymaga dodatkowych parametrów i naturalnie obsługuje zmienne długości sekwencji. (Rotary Position Embedding) zastosowane do współrzędnych 3D.

Cechy każdego punktu dzielone są na trzy składowe osiowe:

$$\mathbf{u} = [\mathbf{u}^x;\ \mathbf{u}^y;\ \mathbf{u}^z]$$

Każda składowa otrzymuje 1D RoPE z odpowiedniej współrzędnej. RoPE jest aplikowane w każdej warstwie uwagi, co daje modelowi ciągłą informację o pozycji bez dodatkowych parametrów.


Trzy Filary Treningu Wielodomenowego

Naiwne połączenie danych z pięciu domen nie działa — autorzy zidentyfikowali trzy kluczowe problemy i ich rozwiązania:

1. Przyczynowe Zaślepianie Modalności

Problem: Model uczy się “skrótów” — rozpoznaje domenę po kolorach lub normalnych zamiast geometrii.

Rozwiązanie: Causal Modality Blinding — losowe usuwanie całych grup modalności (kolory, normalne normalne Wektory prostopadłe do powierzchni w danym punkcie. Opisują orientację powierzchni i są kluczowe dla rozumienia kształtu 3D. ) zarówno na poziomie całej próbki, jak i poszczególnych punktów.

Efekt: Bez kolorów Utonia osiąga 77.0% mIoU na ScanNet, vs zaledwie 36.8% dla Concerto. Model nauczył się rozumieć geometrię, nie polegać na kolorach.

2. Reskalowanie Granularności Percepcyjnej

Problem: Siatka o stałym rozmiarze nie pasuje jednocześnie do obiektów (centymetry) i ulic (kilometry).

Rozwiązanie: Współrzędne są reskalowane do wspólnej granularności obserwacyjnej granularności obserwacyjnej Ujednolicona skala przestrzenna, jakby obserwator patrzył na każdą scenę z tej samej odległości. Pozwala modelowi traktować punkty z różnych sensorów jednakowo. — to jakby patrzeć na każdą scenę z tej samej odległości. Formuła augmentacji:

Jitter osiowy: $\mathbf{j} = \exp(\varepsilon_j)$ gdzie $\varepsilon_j \sim \mathcal{U}(-\log \gamma, \log \gamma)^3$

Skalowanie izotropowe: $r = \exp(\varepsilon_s)$ gdzie $\varepsilon_s \sim \mathcal{U}(-\log \eta, \log \eta)$

3. RoPE na Wyrównanych Współrzędnych

RoPE jest aplikowane na współrzędnych po reskalowaniu z dodatkowym augmentacyjnym jitterem (anizotropowym) i skalowaniem (izotropowym), wzorowanym na zasadach DINOv3.


Trening: Self-Distillation na 64 GPU

Metodologia

Utonia trenowana jest metodą self-distillation self-distillation Technika gdzie model uczy się od samego siebie — ’nauczyciel’ (wolniej aktualizowana kopia) generuje cele dla ‘ucznia’ (właściwy model). Popularna w DINO, DINOv2. nauczyciel-uczeń:

  • Nauczyciel: Otrzymuje globalną chmurę punktów (agregacja wielu klatek, wyrównana pozą)
  • Uczeń: Otrzymuje lokalny widok (pojedyncza klatka)
  • Model uczy się przewidywać globalny kontekst z lokalnej obserwacji

Dwa Etapy

EtapDaneCel
1. InicjalizacjaScanNet, Structured3D, Waymo, PartNetStabilny start
2. Pełny trening250k scen + 1M obiektów Cap3D100 epok

Konfiguracja

ParametrWartość
Batch size256
GPU64× NVIDIA H20
Cap3D sampling90k instancji / epoka
Augmentacja obiektów±50% skala, pełne rotacje SO(3)
Augmentacja scen±10% skala, yaw [−π, π]

Wyniki: Jeden Model, Wszystkie Benchmarki

Segmentacja Semantyczna — Wnętrza

BenchmarkmIoU
ScanNet81.1%
ScanNet20039.6%
S3DIS Area 578.1%

Segmentacja Semantyczna — Zewnątrz

BenchmarkmIoU
NuScenes82.2%
Waymo71.4%
SemanticKITTI72.0%

Klasyfikacja Obiektów

BenchmarkmAcc
ModelNet4092.4%
ScanObjectNN95.0%

Segmentacja Części Obiektów

PartNetE: 62.7% mIoU

Jeden model osiąga wyniki SOTA lub bliskie SOTA na wszystkich domenach jednocześnie.


Emergentne Zachowania

Najciekawsza część publikacji: gdy domeny trenowane są razem, pojawiają się zachowania, których nie ma przy treningu osobnym.

Semantyczne Dopasowanie Międzydomenowe

Model CAD zabawkowego samochodu i prawdziwy samochód ze skanu LiDAR — Utonia przypisuje im wysokie podobieństwo cech, mimo że pochodzą z kompletnie różnych sensorów i skal.

Separacja Obiektów od Powierzchni

Cechy Utonii naturalnie oddzielają obiekty od powierzchni, na których stoją — bez żadnego nadzoru na ten temat.

Elastyczność Grawitacyjna

Sceny zachowują strukturę z osią Z jako “górą”, ale obiekty stają się w dużej mierze niezmiennikami rotacyjnymi niezmiennikami rotacyjnymi Cechy, które nie zmieniają się przy obracaniu obiektu. Model nauczył się rozumieć kształt niezależnie od orientacji. — model sam nauczył się, kiedy orientacja ma znaczenie, a kiedy nie.


Zastosowania: Roboty i Modele Językowe

Manipulacja Robotyczna

Utonia jako enkoder wizyjny w polityce VLA VLA Vision-Language-Action — model łączący percepcję wizualną, rozumienie języka i generowanie akcji robotycznych. :

ModelSuccess Rate
Sonata74.7%
Concerto80.0%
Utonia82.1%

Integracja z VLM (Video-3D LLM)

Cechy Utonii wstrzyknięte do modelu językowego poprawiają rozumowanie przestrzenne:

BenchmarkWynik
ScanRefer (Acc@0.5)54.0%
ScanQA (EM)30.5%
Scan2Cap (CIDEr@0.5)83.9

Open-World Segmentacja Części

Na PartObjaverse-Tiny: 57.95% average mIoU — cechy Utonii z wyraźną strukturą na poziomie części bez specjalnego treningu.


Podsumowanie

Utonia to przełom w przetwarzaniu chmur punktów 3D. Trzy kluczowe innowacje — zaślepianie modalności, reskalowanie granularności i 3D RoPE — pozwalają jednemu enkoderowi o 137M parametrów obsługiwać wnętrza, LiDAR, teledetekcję, CAD i rekonstrukcje z wideo.

Ale prawdziwa historia to emergentne zachowania: semantyczne dopasowanie między domenami, naturalna separacja obiektów i elastyczne traktowanie orientacji. To sugeruje, że różnorodność danych nie jest przeszkodą, ale zaletą — domeny wzajemnie się wzmacniają zamiast konkurować.

Implikacja dla branży: jeden pretrenowany model dla robotyki, autonomicznych pojazdów, AR/VR i analizy satelitarnej. Zamiast N specjalistów — jeden generalista.


Linki