Efektywna i geometrycznie inteligentna: Liniowa pamięć i uwaga inwariantna SE(2)

W wielu codziennych sytuacjach—jak przewidywanie trajektorii samochodów na zatłoczonym skrzyżowaniu, koordynacja floty robotów dostawczych, czy symulacja ruchu pieszych—ważne jest nie tylko gdzie się coś znajduje, ale także jak jest obrócone lub skierowane. Tę informację opisuje geometria SE(2): pozycja w 2D oraz kierunek (heading).

Tradycyjne modele typu Transformer, które uwzględniają inwariancję względem translacji i rotacji (SE(2)), muszą porównywać pozycję i orientację każdej pary obiektów. Dla $n$ obiektów daje to złożoność pamięciową $O(n^2)$ – co staje się niepraktyczne przy dużej liczbie agentów.

🚀 Co wnoszą autorzy

Metoda autorstwa Ethana Pronovosta i współpracowników oferuje:

Pełną inwariancję SE(2) — niezależność od przesunięć i obrotów całej sceny;
Pamięć liniową względem liczby obiektów ($O(n)$ zamiast $O(n^2)$).

Jak to działa? Poprzez aproksymację relacyjnego kodowania pozycji i orientacji za pomocą szeregu Fouriera, z błędem kontrolowanym poniżej $10^{-3}$. Kodowanie jest wkomponowane w mechanizm uwagi w sposób nie wymagający jawnego porównywania każdej pary obiektów.

🧠 Jak działa to technicznie

Zamiast tworzyć dużą macierz $n \times n$ relacji między obiektami, każdy obiekt ma swoim zapytaniu (query) i kluczu (key) zakodowaną informację o swojej pozycji i orientacji. Dzięki temu iloczyn skalarny (dot‑product) uwzględnia geometrię:

$$ \text{attention}(Q, K, V) = \mathrm{softmax}\left(\frac{Q K^T + \mathrm{SE2Enc}(Q,K)}{\sqrt{d_k}}\right) V $$

Dzięki embeddingowi Fouriera, SE2Enc jest obliczane efektywnie i potrzebuje tylko pamięci liniowej.

🌍 Przykład z życia

Wyobraź sobie zatłoczoną stację kolejową. Chcesz przewidzieć ruch ludzi: skąd przychodzą, dokąd idą i jak się obrócą. Normalnie musiałbyś brać pod uwagę pozycję i kierunek każdego człowieka względem każdego innego — to kwadratowa złożoność.

Zamiast tego ta metoda działa jakby każda osoba miała przy sobie mały kod opisujący jej pozycję i kierunek. Odczytujesz tylko ten kod i wiesz, jak zareagować — bez zestawiania informacji parowo. To sprawia, że Twój model mentalny działa szybciej i skalowalnie.

📈 Dlaczego to takie ważne

Sprawdza się w scenach z wieloma agentami — np. środowiska z autami autonomicznymi lub robotami współdziałającymi.
Zapewnia geometryczną spójność, niezależnie od obrotu czy przesunięcia sceny.
Działa wystarczająco szybko, by być użytecznym w czasie rzeczywistym, nawet przy dziesiątkach lub setkach agentów.

⚡ Wyniki eksperymentów

Pronovost i wsp. pokazują, że ich metoda:

Przewyższa modele bez inwariancji SE(2), zwłaszcza w zadaniach prognozowania i planowania z wieloma agentami.
Pokonuje wcześniejsze metody SE(2)-inwariantne wymagające pamięci kwadratowej, takie jak GTA czy RoPE‑style encodings.
Została uhonorowana nagrodą Best Paper Award na konferencji RSS 2025 Equivariant Systems Workshop — potwierdzenie przez międzynarodową społeczność.

🔍 Ograniczenia i przyszłe kierunki

Aproksymacja Fouriera wprowadza niewielki błąd (< $10^{-3}$), co oznacza kompromis między dokładnością a efektywnością.
Obecna metoda działa tylko w płaszczyźnie (SE(2)); nie obsługuje pełnej rotacji 3D (SE(3)), co jest perspektywicznym kierunkiem dalszych badań.

Linki

Na podstawie publikacji 📄 2507.18597

🚀 Co wnoszą autorzy#

🧠 Jak działa to technicznie#

🌍 Przykład z życia#

📈 Dlaczego to takie ważne#

⚡ Wyniki eksperymentów#

🔍 Ograniczenia i przyszłe kierunki#

Linki#