W ostatnich latach Low‑Rank Adaptation (LoRA) stało się kluczową techniką efektywnego parametrycznie dostrajania dużych modeli językowych (LLM) oraz modeli dyfuzyjnych. Dzięki wprowadzeniu macierzy o niskim rzędzie, LoRA znacznie redukuje zapotrzebowanie na pamięć i moc obliczeniową. Jednak w praktyce napotykamy dwa główne problemy:
- Niejednoznaczna inicjalizacja: Różne pary macierzy ($A, B$) mogą dawać ten sam przyrost wagi $\Delta W = A,B^\top$, co prowadzi do niestabilnych startów.
- Redundancja parametrów: Bez kanonicznej reprezentacji gradienty mogą krążyć wśród równoważnych faktoryzacji.
RiemannLoRA prezentuje geometryczną metodę, która usuwa te niejasności i przyspiesza oraz stabilizuje fine‑tuning.
Rozmaitość macierzy niskiego rzędu
Zbiór wszystkich macierzy $m \times n$ o stałym rzędzie $r$ tworzy gładką rozmaitość $\mathcal{M}_{m,n}^r$. Klasyczny LoRA definiuje:
$$ \Delta W = A,B^\top,\quad A\in\mathbb{R}^{m\times r},;B\in\mathbb{R}^{n\times r}. $$
Jednak dla dowolnej odwracalnej macierzy $Q\in\mathbb{R}^{r\times r}$:
$$ A,B^\top = (A,Q),(B,Q^{-\top})^\top. $$
RiemannLoRA traktuje $\Delta W$ jako punkt na $\mathcal{M}_{m,n}^r$, usuwając tę dowolność i zapewniając:
- Unikalną reprezentację każdego $\Delta W$.
- Obliczanie gradientów i retraction zgodnie z geometrią rozmaitości.
Bezambiguacyjny gradient i inicjalizacja
Wybierając naturalną metrykę Riemanna na $\mathcal{M}$, definiujemy gradient Riemannański $\mathrm{grad},f$ dla funkcji strat $f(W+\Delta W)$. Proponowany algorytm:
- Oblicza gradient Euklidesowy $\nabla_{A,B} f$.
- Rzutuje go na przestrzeń styczną $T_{\Delta W}\mathcal{M}$.
- Retraktuje na rozmaitość, uzyskując kanoniczną inicjalizację.
Dzięki temu początkowy krok LoRA pokrywa się z kierunkiem najszybszego spadku na $\mathcal{M}$.
Stabilność numeryczna i implementacja
Aby uniknąć nadmiernych kosztów, autorzy zalecają:
- Projekcje za pomocą cienkiej dekompozycji SVD lub QR.
- Retrakcję realizowaną przez rozkład polarowy.
- Wykorzystanie zoptymalizowanych bibliotek liniowo-algebraicznych.
Profilowanie pokazuje jedynie niewielki narzut, bez utraty korzyści płynących z szybszej zbieżności.
Wyniki eksperymentów
RiemannLoRA przetestowano między innymi na:
- Modelach językowych (transformery typu GPT) dla zadań klasyfikacji i generacji.
- Modelach dyfuzyjnych (np. Stable Diffusion) dla zadań obraz→obraz.
Najważniejsze obserwacje:
- 50% mniej kroków trenowania do osiągnięcia tej samej straty.
- +1.2 punktu BLEU w zadaniach tłumaczeniowych.
- Lepsza jakość próbek w generacji obrazów (niższy FID).
Podsumowanie i perspektywy
RiemannLoRA łączy praktyczność LoRA z precyzją optymalizacji Riemanna. Główne zalety:
- Stabilność dzięki eliminacji parametrów równoważnych.
- Prędkość – szybsze uzyskanie pożądanych wyników.
- Przejrzystość – jasna, geometryczna interpretacja.
W przyszłości warto zbadać adaptacyjne dobieranie rzędu $r$ na rozmaitości czy rozszerzenie metody na inne techniki adaptacji.
📎 Linki
- Na podstawie publikacji 📄 2507.12142