W ostatnich latach Low‑Rank Adaptation (LoRA) stało się kluczową techniką efektywnego parametrycznie dostrajania dużych modeli językowych (LLM) oraz modeli dyfuzyjnych. Dzięki wprowadzeniu macierzy o niskim rzędzie, LoRA znacznie redukuje zapotrzebowanie na pamięć i moc obliczeniową. Jednak w praktyce napotykamy dwa główne problemy:

  1. Niejednoznaczna inicjalizacja: Różne pary macierzy ($A, B$) mogą dawać ten sam przyrost wagi $\Delta W = A,B^\top$, co prowadzi do niestabilnych startów.
  2. Redundancja parametrów: Bez kanonicznej reprezentacji gradienty mogą krążyć wśród równoważnych faktoryzacji.

RiemannLoRA prezentuje geometryczną metodę, która usuwa te niejasności i przyspiesza oraz stabilizuje fine‑tuning.

Rozmaitość macierzy niskiego rzędu

Zbiór wszystkich macierzy $m \times n$ o stałym rzędzie $r$ tworzy gładką rozmaitość $\mathcal{M}_{m,n}^r$. Klasyczny LoRA definiuje:

$$ \Delta W = A,B^\top,\quad A\in\mathbb{R}^{m\times r},;B\in\mathbb{R}^{n\times r}. $$

Jednak dla dowolnej odwracalnej macierzy $Q\in\mathbb{R}^{r\times r}$:

$$ A,B^\top = (A,Q),(B,Q^{-\top})^\top. $$

RiemannLoRA traktuje $\Delta W$ jako punkt na $\mathcal{M}_{m,n}^r$, usuwając tę dowolność i zapewniając:

  • Unikalną reprezentację każdego $\Delta W$.
  • Obliczanie gradientów i retraction zgodnie z geometrią rozmaitości.

Bezambiguacyjny gradient i inicjalizacja

Wybierając naturalną metrykę Riemanna na $\mathcal{M}$, definiujemy gradient Riemannański $\mathrm{grad},f$ dla funkcji strat $f(W+\Delta W)$. Proponowany algorytm:

  1. Oblicza gradient Euklidesowy $\nabla_{A,B} f$.
  2. Rzutuje go na przestrzeń styczną $T_{\Delta W}\mathcal{M}$.
  3. Retraktuje na rozmaitość, uzyskując kanoniczną inicjalizację.

Dzięki temu początkowy krok LoRA pokrywa się z kierunkiem najszybszego spadku na $\mathcal{M}$.

Stabilność numeryczna i implementacja

Aby uniknąć nadmiernych kosztów, autorzy zalecają:

  • Projekcje za pomocą cienkiej dekompozycji SVD lub QR.
  • Retrakcję realizowaną przez rozkład polarowy.
  • Wykorzystanie zoptymalizowanych bibliotek liniowo-algebraicznych.

Profilowanie pokazuje jedynie niewielki narzut, bez utraty korzyści płynących z szybszej zbieżności.

Wyniki eksperymentów

RiemannLoRA przetestowano między innymi na:

  • Modelach językowych (transformery typu GPT) dla zadań klasyfikacji i generacji.
  • Modelach dyfuzyjnych (np. Stable Diffusion) dla zadań obraz→obraz.

Najważniejsze obserwacje:

  • 50% mniej kroków trenowania do osiągnięcia tej samej straty.
  • +1.2 punktu BLEU w zadaniach tłumaczeniowych.
  • Lepsza jakość próbek w generacji obrazów (niższy FID).

Podsumowanie i perspektywy

RiemannLoRA łączy praktyczność LoRA z precyzją optymalizacji Riemanna. Główne zalety:

  • Stabilność dzięki eliminacji parametrów równoważnych.
  • Prędkość – szybsze uzyskanie pożądanych wyników.
  • Przejrzystość – jasna, geometryczna interpretacja.

W przyszłości warto zbadać adaptacyjne dobieranie rzędu $r$ na rozmaitości czy rozszerzenie metody na inne techniki adaptacji.


📎 Linki