Utonia: Jeden Enkoder Dla Wszystkich Chmur Punktów

LiDAR na dachu autonomicznego samochodu, kamera głębi w robocie domowym, skaner satelitarny i model CAD z drukarki 3D — każde z tych urządzeń produkuje chmurę punktów chmurę punktów Zbiór punktów 3D (x, y, z) reprezentujący kształt obiektu lub sceny. Każdy punkt może mieć dodatkowe atrybuty: kolor, normalna, intensywność. , ale o radykalnie różnej gęstości, skali i geometrii. Dotychczas każda domena wymagała osobnego modelu. Publikacja “Utonia: Toward One Encoder for All Point Clouds” łamie ten schemat — jeden enkoder, 137M parametrów, pięć domen, i emergentne zachowania, których nikt się nie spodziewał.

Problem: Pięć Światów, Pięć Modeli

Chmury punktów przychodzą z zupełnie różnych źródeł:

Domena	Przykładowe sensory	Skala	Gęstość
Wnętrza	RGB-D (Kinect, RealSense)	Pokoje	Wysoka
Zewnątrz	LiDAR (Velodyne, Waymo)	Ulice, kilometry	Rzadka, nieregularna
Teledetekcja	Satelity, drony	Miasta, tereny	Bardzo rzadka
Obiekty CAD	Modele 3D	Centymetry	Jednorodna
Video → 3D	Rekonstrukcja z RGB	Zmienna	Zaszumiona

Trenowanie jednego modelu na tak różnorodnych danych to wyzwanie, bo siatka wokselowa siatka wokselowa Podział przestrzeni 3D na regularne komórki (woksele), analogicznie do pikseli w 2D. Używana do przetwarzania chmur punktów w sieciach neuronowych. dopasowana do pokoju nie zadziała na ulicy, a reprezentacja gęstego skanu obiektu nie pasuje do rzadkiego LiDAR-u.

Dotychczasowe podejścia (Sonata, Concerto) działały w obrębie jednej lub dwóch domen. Utonia scala wszystkie pięć.

Architektura: Point Transformer V3 + RoPE

Szkielet

Utonia bazuje na Point Transformer V3 Point Transformer V3 Architektura transformera zaprojektowana specjalnie dla chmur punktów 3D. Używa mechanizmu uwagi do modelowania relacji między punktami. (PTv3) — transformerze zaprojektowanym do przetwarzania chmur punktów.

Wariant	Parametry	Kanały	Głębokości warstw
Ablacja	38M	[36, 72, 144, 252, 504]	—
Główny	137M	[54, 108, 216, 432, 576]	[3, 3, 3, 12, 3]

RoPE: Kodowanie Pozycji bez Parametrów

Kluczowym ulepszeniem jest RoPE RoPE Rotary Position Embedding — metoda kodowania pozycji poprzez rotację wektorów cech. Nie wymaga dodatkowych parametrów i naturalnie obsługuje zmienne długości sekwencji. (Rotary Position Embedding) zastosowane do współrzędnych 3D.

Cechy każdego punktu dzielone są na trzy składowe osiowe:

$$\mathbf{u} = [\mathbf{u}^x;\ \mathbf{u}^y;\ \mathbf{u}^z]$$

Każda składowa otrzymuje 1D RoPE z odpowiedniej współrzędnej. RoPE jest aplikowane w każdej warstwie uwagi, co daje modelowi ciągłą informację o pozycji bez dodatkowych parametrów.

Trzy Filary Treningu Wielodomenowego

Naiwne połączenie danych z pięciu domen nie działa — autorzy zidentyfikowali trzy kluczowe problemy i ich rozwiązania:

1. Przyczynowe Zaślepianie Modalności

Problem: Model uczy się “skrótów” — rozpoznaje domenę po kolorach lub normalnych zamiast geometrii.

Rozwiązanie: Causal Modality Blinding — losowe usuwanie całych grup modalności (kolory, normalne normalne Wektory prostopadłe do powierzchni w danym punkcie. Opisują orientację powierzchni i są kluczowe dla rozumienia kształtu 3D. ) zarówno na poziomie całej próbki, jak i poszczególnych punktów.

Efekt: Bez kolorów Utonia osiąga 77.0% mIoU na ScanNet, vs zaledwie 36.8% dla Concerto. Model nauczył się rozumieć geometrię, nie polegać na kolorach.

2. Reskalowanie Granularności Percepcyjnej

Problem: Siatka o stałym rozmiarze nie pasuje jednocześnie do obiektów (centymetry) i ulic (kilometry).

Rozwiązanie: Współrzędne są reskalowane do wspólnej granularności obserwacyjnej granularności obserwacyjnej Ujednolicona skala przestrzenna, jakby obserwator patrzył na każdą scenę z tej samej odległości. Pozwala modelowi traktować punkty z różnych sensorów jednakowo. — to jakby patrzeć na każdą scenę z tej samej odległości. Formuła augmentacji:

Jitter osiowy: $\mathbf{j} = \exp(\varepsilon_j)$ gdzie $\varepsilon_j \sim \mathcal{U}(-\log \gamma, \log \gamma)^3$

Skalowanie izotropowe: $r = \exp(\varepsilon_s)$ gdzie $\varepsilon_s \sim \mathcal{U}(-\log \eta, \log \eta)$

3. RoPE na Wyrównanych Współrzędnych

RoPE jest aplikowane na współrzędnych po reskalowaniu z dodatkowym augmentacyjnym jitterem (anizotropowym) i skalowaniem (izotropowym), wzorowanym na zasadach DINOv3.

Trening: Self-Distillation na 64 GPU

Metodologia

Utonia trenowana jest metodą self-distillation self-distillation Technika gdzie model uczy się od samego siebie — ’nauczyciel’ (wolniej aktualizowana kopia) generuje cele dla ‘ucznia’ (właściwy model). Popularna w DINO, DINOv2. nauczyciel-uczeń:

Nauczyciel: Otrzymuje globalną chmurę punktów (agregacja wielu klatek, wyrównana pozą)
Uczeń: Otrzymuje lokalny widok (pojedyncza klatka)
Model uczy się przewidywać globalny kontekst z lokalnej obserwacji

Dwa Etapy

Etap	Dane	Cel
1. Inicjalizacja	ScanNet, Structured3D, Waymo, PartNet	Stabilny start
2. Pełny trening	250k scen + 1M obiektów Cap3D	100 epok

Konfiguracja

Parametr	Wartość
Batch size	256
GPU	64× NVIDIA H20
Cap3D sampling	90k instancji / epoka
Augmentacja obiektów	±50% skala, pełne rotacje SO(3)
Augmentacja scen	±10% skala, yaw [−π, π]

Wyniki: Jeden Model, Wszystkie Benchmarki

Segmentacja Semantyczna — Wnętrza

Benchmark	mIoU
ScanNet	81.1%
ScanNet200	39.6%
S3DIS Area 5	78.1%

Segmentacja Semantyczna — Zewnątrz

Benchmark	mIoU
NuScenes	82.2%
Waymo	71.4%
SemanticKITTI	72.0%

Klasyfikacja Obiektów

Benchmark	mAcc
ModelNet40	92.4%
ScanObjectNN	95.0%

Segmentacja Części Obiektów

PartNetE: 62.7% mIoU

Jeden model osiąga wyniki SOTA lub bliskie SOTA na wszystkich domenach jednocześnie.

Emergentne Zachowania

Najciekawsza część publikacji: gdy domeny trenowane są razem, pojawiają się zachowania, których nie ma przy treningu osobnym.

Semantyczne Dopasowanie Międzydomenowe

Model CAD zabawkowego samochodu i prawdziwy samochód ze skanu LiDAR — Utonia przypisuje im wysokie podobieństwo cech, mimo że pochodzą z kompletnie różnych sensorów i skal.

Separacja Obiektów od Powierzchni

Cechy Utonii naturalnie oddzielają obiekty od powierzchni, na których stoją — bez żadnego nadzoru na ten temat.

Elastyczność Grawitacyjna

Sceny zachowują strukturę z osią Z jako “górą”, ale obiekty stają się w dużej mierze niezmiennikami rotacyjnymi niezmiennikami rotacyjnymi Cechy, które nie zmieniają się przy obracaniu obiektu. Model nauczył się rozumieć kształt niezależnie od orientacji. — model sam nauczył się, kiedy orientacja ma znaczenie, a kiedy nie.

Zastosowania: Roboty i Modele Językowe

Manipulacja Robotyczna

Utonia jako enkoder wizyjny w polityce VLA VLA Vision-Language-Action — model łączący percepcję wizualną, rozumienie języka i generowanie akcji robotycznych. :

Model	Success Rate
Sonata	74.7%
Concerto	80.0%
Utonia	82.1%

Integracja z VLM (Video-3D LLM)

Cechy Utonii wstrzyknięte do modelu językowego poprawiają rozumowanie przestrzenne:

Benchmark	Wynik
ScanRefer (Acc@0.5)	54.0%
ScanQA (EM)	30.5%
Scan2Cap (CIDEr@0.5)	83.9

Open-World Segmentacja Części

Na PartObjaverse-Tiny: 57.95% average mIoU — cechy Utonii z wyraźną strukturą na poziomie części bez specjalnego treningu.

Podsumowanie

Utonia to przełom w przetwarzaniu chmur punktów 3D. Trzy kluczowe innowacje — zaślepianie modalności, reskalowanie granularności i 3D RoPE — pozwalają jednemu enkoderowi o 137M parametrów obsługiwać wnętrza, LiDAR, teledetekcję, CAD i rekonstrukcje z wideo.

Ale prawdziwa historia to emergentne zachowania: semantyczne dopasowanie między domenami, naturalna separacja obiektów i elastyczne traktowanie orientacji. To sugeruje, że różnorodność danych nie jest przeszkodą, ale zaletą — domeny wzajemnie się wzmacniają zamiast konkurować.

Implikacja dla branży: jeden pretrenowany model dla robotyki, autonomicznych pojazdów, AR/VR i analizy satelitarnej. Zamiast N specjalistów — jeden generalista.

Linki

Na podstawie publikacji arXiv:2603.03283 PDF

Problem: Pięć Światów, Pięć Modeli#

Architektura: Point Transformer V3 + RoPE#

Szkielet#

RoPE: Kodowanie Pozycji bez Parametrów#

Trzy Filary Treningu Wielodomenowego#

1. Przyczynowe Zaślepianie Modalności#

2. Reskalowanie Granularności Percepcyjnej#

3. RoPE na Wyrównanych Współrzędnych#

Trening: Self-Distillation na 64 GPU#

Metodologia#

Dwa Etapy#

Konfiguracja#

Wyniki: Jeden Model, Wszystkie Benchmarki#

Segmentacja Semantyczna — Wnętrza#

Segmentacja Semantyczna — Zewnątrz#

Klasyfikacja Obiektów#

Segmentacja Części Obiektów#

Emergentne Zachowania#

Semantyczne Dopasowanie Międzydomenowe#

Separacja Obiektów od Powierzchni#

Elastyczność Grawitacyjna#

Zastosowania: Roboty i Modele Językowe#

Manipulacja Robotyczna#

Integracja z VLM (Video-3D LLM)#

Open-World Segmentacja Części#

Podsumowanie#

Linki#