W uczeniu maszynowym spodziewamy się, że model albo się nauczy, albo przeucza. Czego się nie spodziewamy, to żeby model najpierw się przeuczył, a potem — dużo później, bez żadnych zmian — nagle zaczął dobrze generalizować. To zjawisko nazywa się grokking i intryguje badaczy od momentu odkrycia. Nowa publikacja wreszcie wyjaśnia dlaczego to się dzieje i dowodzi tego matematycznie — w najprostszym możliwym ustawieniu.
Czym jest grokking?
Grokking został po raz pierwszy zaobserwowany w 2022 roku na małych zadaniach algorytmicznych (jak arytmetyka modularna). Wzorzec jest uderzający:
- Model szybko osiąga niemal idealną dokładność na danych treningowych
- Dokładność testowa pozostaje kiepska przez długi czas
- Potem, pozornie znikąd, dokładność testowa nagle rośnie
Wygląda to jakby model najpierw “zapamiętywał”, a “rozumiał” dużo później. Strata treningowa mówi “skończyłem”, ale model ciągle się potajemnie poprawia.
To postawiło fundamentalne pytanie: czy grokking to głęboka tajemnica sieci neuronowych, czy ma proste wyjaśnienie?
Odpowiedź: Regresja grzbietowa wskazuje drogę
Autorzy dowodzą, że grokking występuje nawet w regresji grzbietowej (ridge regression) — najprostszym możliwym ustawieniu uczenia. Żadnych głębokich sieci, żadnych złożonych architektur. Tylko regresja liniowa z regularyzacją L2:
$$\min_\theta \frac{1}{n} |X\theta - y|^2 + \lambda |\theta|^2$$
gdzie $\lambda$ to parametr weight decay.
Jeśli grokking zachodzi tutaj, to nie chodzi o magię sieci neuronowych — chodzi o fundamentalną dynamikę gradient descent z regularyzacją.
Trzy fazy grokkingu
Artykuł formalnie dowodzi trzech odrębnych faz podczas treningu gradient descent:
Faza 1: Szybkie przeuczenie
Model szybko dopasowuje się do danych treningowych. Jak szybko? Kontrolowane przez najmniejszą niezerową wartość własną empirycznej macierzy cech $\Phi^\top \Phi$:
$$t_{\text{overfit}} \leq \frac{n \cdot \ln(6b^2|\theta^{(0)}|2^2 / \varepsilon)}{2\eta \cdot \lambda{\min}^+(\Phi^\top \Phi)}$$
Prościej: strata treningowa spada szybko, bo model ma wystarczająco parametrów, żeby zapamiętać dane.
Faza 2: Przedłużona słaba generalizacja
Tu jest klucz. Po przeučeniu model nauczył się prawidłowych odpowiedzi dla punktów treningowych. Ale jego parametry w kierunkach ortogonalnych do danych treningowych pozostają blisko początkowych (losowych) wartości.
Te “dodatkowe” kierunki nie wpływają na stratę treningową — model już pasuje do danych. Ale pogarszają generalizację, bo dodają szum do predykcji na nowych danych.
Faza 3: Późna generalizacja
Weight decay powoli zmniejsza wszystkie parametry, włącznie z tymi zaszumionymi ortogonalnymi komponentami. W końcu stają się na tyle małe, że model zaczyna dobrze generalizować.
Czas generalizacji jest ograniczony od dołu:
$$t_{\text{generalize}} \geq \frac{1}{4\eta\lambda} \cdot \ln\left(\frac{(m-n)\nu^2}{2} \cdot \left(\sqrt{\frac{c}{\lambda_{\min}(\Sigma)}} + |\theta^*|_2\right)^{-2}\right)$$
Krytyczny czynnik: skaluje się jako $1/\lambda$ — im mniejszy weight decay, tym dłuższe opóźnienie grokkingu.
Dlaczego to się dzieje?
Intuicja jest zaskakująco prosta:
- Nadparametryzacja ($m \gg n$): Model ma dużo więcej parametrów niż punktów danych
- Losowa inicjalizacja: Parametry startują z losowymi wartościami we wszystkich kierunkach
- Szybkie zapamiętywanie: Model szybko znajduje parametry pasujące do danych treningowych
- Wolna regularyzacja: Weight decay powoli usuwa “śmieci” w nieużywanych kierunkach
Przerwa między Fazą 1 a Fazą 3 to opóźnienie grokkingu. Istnieje, bo zapamiętywanie jest szybkie (zależy od danych), ale regularyzacja jest wolna (zależy od weight decay).
Kontrolowanie grokkingu
Najbardziej praktyczna obserwacja z artykułu: grokking jest kontrolowalny przez hiperparametry.
| Parametr | Wpływ na grokking |
|---|---|
| Weight decay $\lambda$ ↑ | Krótsze opóźnienie (szybsza regularyzacja) |
| Weight decay $\lambda$ ↓ | Dłuższe opóźnienie (może być dowolnie długie) |
| Learning rate $\eta$ ↑ | Krótsze opóźnienie |
| Nadparametryzacja ↑ | Bardziej wyraźny grokking |
| Skala inicjalizacji ↑ | Bardziej wyraźny grokking |
Możesz sprawić, że grokking zniknie — zwiększając weight decay. Albo że będzie dowolnie długi — zmniejszając go.
Poza regresją grzbietową
Teoria jest udowodniona dla regresji grzbietowej, ale autorzy walidują ją eksperymentalnie na sieciach neuronowych:
Sieci z losowymi cechami
Dwuwarstwowe sieci ReLU z zamrożoną warstwą ukrytą (de facto regresja grzbietowa w przestrzeni cech). Przewidywania teoretyczne zgadzają się precyzyjnie.
Pełne sieci neuronowe
Dwuwarstwowe sieci z treningiem obu warstw. Zachowanie grokkingu jakościowo zgadza się z przewidywaniami teoretycznymi — te same zależności od hiperparametrów.
To sugeruje, że mechanizm jest uniwersalny: nie chodzi o architekturę modelu, ale o dynamikę gradient descent z regularyzacją w ustawieniu nadparametryzowanym.
Co to oznacza
Grokking nie jest tajemnicą
Centralny przekaz artykułu: grokking nie jest wrodzoną wadą głębokiego uczenia, lecz konsekwencją konkretnych warunków treningowych.
Zachodzi, gdy:
- Model jest nadparametryzowany
- Weight decay jest mały
- Istnieje luka między szybkością zapamiętywania a szybkością regularyzacji
Implikacje praktyczne
Jeśli obserwujesz grokking w praktyce:
- Zwiększ weight decay — najprostszy fix
- Zwiększ learning rate — przyspiesza obie fazy
- Monitoruj stratę testową dłużej — model może jeszcze nie skończyć
- Nie zatrzymuj za wcześnie — early stopping w Fazie 2 zabija generalizację
Implikacje teoretyczne
To pierwszy rygorystyczny dowód end-to-end grokkingu z ilościowymi granicami. Łączy grokking ze zrozumiałymi zjawiskami w teorii optymalizacji:
- Implicit bias gradient descent
- Rola regularyzacji w generalizacji
- Właściwości spektralne macierzy cech
Szczegóły techniczne
Nadparametryzacja jest kluczowa
Ustawienie wymaga $m \gg n$ (dużo więcej parametrów niż próbek). W reżimie niedoparametryzowanym nie ma miejsca na “śmieciowe” kierunki — model jest zmuszony generalizować od początku.
Separacja wartości własnych
Opóźnienie grokkingu zależy od luki spektralnej macierzy kowariancji cech. Duże luki między wartościami własnymi tworzą warunki, w których niektóre kierunki zbiegają szybko (dopasowanie danych treningowych), a inne wolno (generalizacja).
Weight decay jako niejawna selekcja cech
Weight decay nie tylko zapobiega przeučeniu — wykonuje niejawną selekcję cech, powoli usuwając komponenty, które nie przyczyniają się do dopasowania danych treningowych. W reżimie grokkingu ta selekcja następuje dużo później niż zapamiętywanie.
Ograniczenia
- Teoria liniowa: Główne dowody dotyczą regresji grzbietowej; wyniki na sieciach neuronowych są empiryczne
- Założenia rozkładu: Wymaga specyficznych właściwości rozkładu cech
- Stały design: Analiza skupia się na stałych danych treningowych, nie uczeniu online
- Efekty skończonej szerokości: Bardzo szerokie sieci mogą zachowywać się inaczej
Podsumowanie
Grokking — zjawisko opóźnionej generalizacji — wreszcie ma rygorystyczne wyjaśnienie:
- Nadparametryzowane modele mogą zapamiętywać dane treningowe w wielu kierunkach
- Losowa inicjalizacja umieszcza parametry w zaszumionych kierunkach ortogonalnych do danych
- Gradient descent szybko dopasowuje dane treningowe używając kierunków wyrównanych z danymi
- Weight decay powoli usuwa szum w nieużywanych kierunkach
- Generalizacja pojawia się gdy szum jest wystarczająco zredukowany
Opóźnienie grokkingu skaluje się jako $1/\lambda$ — jest całkowicie kontrolowane przez weight decay. Bez zmian architektury, bez tajemniczych emergentnych właściwości. Tylko interakcja szybkości zapamiętywania i szybkości regularyzacji.
Czasem najprostsze wyjaśnienie jest tym właściwym.
Linki
- Publikacja: arXiv:2601.19791