RiemannLoRA: Zunifikowane ramy Riemanna dla bezdyskusyjnej optymalizacji LoRA

W ostatnich latach Low‑Rank Adaptation (LoRA) stało się kluczową techniką efektywnego parametrycznie dostrajania dużych modeli językowych (LLM) oraz modeli dyfuzyjnych. Dzięki wprowadzeniu macierzy o niskim rzędzie, LoRA znacznie redukuje zapotrzebowanie na pamięć i moc obliczeniową. Jednak w praktyce napotykamy dwa główne problemy:

Niejednoznaczna inicjalizacja: Różne pary macierzy ($A, B$) mogą dawać ten sam przyrost wagi $\Delta W = A,B^\top$, co prowadzi do niestabilnych startów.
Redundancja parametrów: Bez kanonicznej reprezentacji gradienty mogą krążyć wśród równoważnych faktoryzacji.

RiemannLoRA prezentuje geometryczną metodę, która usuwa te niejasności i przyspiesza oraz stabilizuje fine‑tuning.

Rozmaitość macierzy niskiego rzędu

Zbiór wszystkich macierzy $m \times n$ o stałym rzędzie $r$ tworzy gładką rozmaitość $\mathcal{M}_{m,n}^r$. Klasyczny LoRA definiuje:

$$ \Delta W = A,B^\top,\quad A\in\mathbb{R}^{m\times r},;B\in\mathbb{R}^{n\times r}. $$

Jednak dla dowolnej odwracalnej macierzy $Q\in\mathbb{R}^{r\times r}$:

$$ A,B^\top = (A,Q),(B,Q^{-\top})^\top. $$

RiemannLoRA traktuje $\Delta W$ jako punkt na $\mathcal{M}_{m,n}^r$, usuwając tę dowolność i zapewniając:

Unikalną reprezentację każdego $\Delta W$.
Obliczanie gradientów i retraction zgodnie z geometrią rozmaitości.

Bezambiguacyjny gradient i inicjalizacja

Wybierając naturalną metrykę Riemanna na $\mathcal{M}$, definiujemy gradient Riemannański $\mathrm{grad},f$ dla funkcji strat $f(W+\Delta W)$. Proponowany algorytm:

Oblicza gradient Euklidesowy $\nabla_{A,B} f$.
Rzutuje go na przestrzeń styczną $T_{\Delta W}\mathcal{M}$.
Retraktuje na rozmaitość, uzyskując kanoniczną inicjalizację.

Dzięki temu początkowy krok LoRA pokrywa się z kierunkiem najszybszego spadku na $\mathcal{M}$.

Stabilność numeryczna i implementacja

Aby uniknąć nadmiernych kosztów, autorzy zalecają:

Projekcje za pomocą cienkiej dekompozycji SVD lub QR.
Retrakcję realizowaną przez rozkład polarowy.
Wykorzystanie zoptymalizowanych bibliotek liniowo-algebraicznych.

Profilowanie pokazuje jedynie niewielki narzut, bez utraty korzyści płynących z szybszej zbieżności.

Wyniki eksperymentów

RiemannLoRA przetestowano między innymi na:

Modelach językowych (transformery typu GPT) dla zadań klasyfikacji i generacji.
Modelach dyfuzyjnych (np. Stable Diffusion) dla zadań obraz→obraz.

Najważniejsze obserwacje:

50% mniej kroków trenowania do osiągnięcia tej samej straty.
+1.2 punktu BLEU w zadaniach tłumaczeniowych.
Lepsza jakość próbek w generacji obrazów (niższy FID).

Podsumowanie i perspektywy

RiemannLoRA łączy praktyczność LoRA z precyzją optymalizacji Riemanna. Główne zalety:

Stabilność dzięki eliminacji parametrów równoważnych.
Prędkość – szybsze uzyskanie pożądanych wyników.
Przejrzystość – jasna, geometryczna interpretacja.

W przyszłości warto zbadać adaptacyjne dobieranie rzędu $r$ na rozmaitości czy rozszerzenie metody na inne techniki adaptacji.

📎 Linki

Na podstawie publikacji 📄 2507.12142

Rozmaitość macierzy niskiego rzędu#

Bezambiguacyjny gradient i inicjalizacja#

Stabilność numeryczna i implementacja#

Wyniki eksperymentów#

Podsumowanie i perspektywy#

📎 Linki#