W uczeniu maszynowym spodziewamy się, że model albo się nauczy, albo przeucza. Czego się nie spodziewamy, to żeby model najpierw się przeuczył, a potem — dużo później, bez żadnych zmian — nagle zaczął dobrze generalizować. To zjawisko nazywa się grokking i intryguje badaczy od momentu odkrycia. Nowa publikacja wreszcie wyjaśnia dlaczego to się dzieje i dowodzi tego matematycznie — w najprostszym możliwym ustawieniu.

Czym jest grokking?

Grokking został po raz pierwszy zaobserwowany w 2022 roku na małych zadaniach algorytmicznych (jak arytmetyka modularna). Wzorzec jest uderzający:

  1. Model szybko osiąga niemal idealną dokładność na danych treningowych
  2. Dokładność testowa pozostaje kiepska przez długi czas
  3. Potem, pozornie znikąd, dokładność testowa nagle rośnie

Wygląda to jakby model najpierw “zapamiętywał”, a “rozumiał” dużo później. Strata treningowa mówi “skończyłem”, ale model ciągle się potajemnie poprawia.

To postawiło fundamentalne pytanie: czy grokking to głęboka tajemnica sieci neuronowych, czy ma proste wyjaśnienie?

Odpowiedź: Regresja grzbietowa wskazuje drogę

Autorzy dowodzą, że grokking występuje nawet w regresji grzbietowej (ridge regression) — najprostszym możliwym ustawieniu uczenia. Żadnych głębokich sieci, żadnych złożonych architektur. Tylko regresja liniowa z regularyzacją L2:

$$\min_\theta \frac{1}{n} |X\theta - y|^2 + \lambda |\theta|^2$$

gdzie $\lambda$ to parametr weight decay.

Jeśli grokking zachodzi tutaj, to nie chodzi o magię sieci neuronowych — chodzi o fundamentalną dynamikę gradient descent z regularyzacją.

Trzy fazy grokkingu

Artykuł formalnie dowodzi trzech odrębnych faz podczas treningu gradient descent:

Faza 1: Szybkie przeuczenie

Model szybko dopasowuje się do danych treningowych. Jak szybko? Kontrolowane przez najmniejszą niezerową wartość własną empirycznej macierzy cech $\Phi^\top \Phi$:

$$t_{\text{overfit}} \leq \frac{n \cdot \ln(6b^2|\theta^{(0)}|2^2 / \varepsilon)}{2\eta \cdot \lambda{\min}^+(\Phi^\top \Phi)}$$

Prościej: strata treningowa spada szybko, bo model ma wystarczająco parametrów, żeby zapamiętać dane.

Faza 2: Przedłużona słaba generalizacja

Tu jest klucz. Po przeučeniu model nauczył się prawidłowych odpowiedzi dla punktów treningowych. Ale jego parametry w kierunkach ortogonalnych do danych treningowych pozostają blisko początkowych (losowych) wartości.

Te “dodatkowe” kierunki nie wpływają na stratę treningową — model już pasuje do danych. Ale pogarszają generalizację, bo dodają szum do predykcji na nowych danych.

Faza 3: Późna generalizacja

Weight decay powoli zmniejsza wszystkie parametry, włącznie z tymi zaszumionymi ortogonalnymi komponentami. W końcu stają się na tyle małe, że model zaczyna dobrze generalizować.

Czas generalizacji jest ograniczony od dołu:

$$t_{\text{generalize}} \geq \frac{1}{4\eta\lambda} \cdot \ln\left(\frac{(m-n)\nu^2}{2} \cdot \left(\sqrt{\frac{c}{\lambda_{\min}(\Sigma)}} + |\theta^*|_2\right)^{-2}\right)$$

Krytyczny czynnik: skaluje się jako $1/\lambda$ — im mniejszy weight decay, tym dłuższe opóźnienie grokkingu.

Dlaczego to się dzieje?

Intuicja jest zaskakująco prosta:

  1. Nadparametryzacja ($m \gg n$): Model ma dużo więcej parametrów niż punktów danych
  2. Losowa inicjalizacja: Parametry startują z losowymi wartościami we wszystkich kierunkach
  3. Szybkie zapamiętywanie: Model szybko znajduje parametry pasujące do danych treningowych
  4. Wolna regularyzacja: Weight decay powoli usuwa “śmieci” w nieużywanych kierunkach

Przerwa między Fazą 1 a Fazą 3 to opóźnienie grokkingu. Istnieje, bo zapamiętywanie jest szybkie (zależy od danych), ale regularyzacja jest wolna (zależy od weight decay).

Kontrolowanie grokkingu

Najbardziej praktyczna obserwacja z artykułu: grokking jest kontrolowalny przez hiperparametry.

ParametrWpływ na grokking
Weight decay $\lambda$ ↑Krótsze opóźnienie (szybsza regularyzacja)
Weight decay $\lambda$ ↓Dłuższe opóźnienie (może być dowolnie długie)
Learning rate $\eta$ ↑Krótsze opóźnienie
Nadparametryzacja ↑Bardziej wyraźny grokking
Skala inicjalizacji ↑Bardziej wyraźny grokking

Możesz sprawić, że grokking zniknie — zwiększając weight decay. Albo że będzie dowolnie długi — zmniejszając go.

Poza regresją grzbietową

Teoria jest udowodniona dla regresji grzbietowej, ale autorzy walidują ją eksperymentalnie na sieciach neuronowych:

Sieci z losowymi cechami

Dwuwarstwowe sieci ReLU z zamrożoną warstwą ukrytą (de facto regresja grzbietowa w przestrzeni cech). Przewidywania teoretyczne zgadzają się precyzyjnie.

Pełne sieci neuronowe

Dwuwarstwowe sieci z treningiem obu warstw. Zachowanie grokkingu jakościowo zgadza się z przewidywaniami teoretycznymi — te same zależności od hiperparametrów.

To sugeruje, że mechanizm jest uniwersalny: nie chodzi o architekturę modelu, ale o dynamikę gradient descent z regularyzacją w ustawieniu nadparametryzowanym.

Co to oznacza

Grokking nie jest tajemnicą

Centralny przekaz artykułu: grokking nie jest wrodzoną wadą głębokiego uczenia, lecz konsekwencją konkretnych warunków treningowych.

Zachodzi, gdy:

  • Model jest nadparametryzowany
  • Weight decay jest mały
  • Istnieje luka między szybkością zapamiętywania a szybkością regularyzacji

Implikacje praktyczne

Jeśli obserwujesz grokking w praktyce:

  • Zwiększ weight decay — najprostszy fix
  • Zwiększ learning rate — przyspiesza obie fazy
  • Monitoruj stratę testową dłużej — model może jeszcze nie skończyć
  • Nie zatrzymuj za wcześnie — early stopping w Fazie 2 zabija generalizację

Implikacje teoretyczne

To pierwszy rygorystyczny dowód end-to-end grokkingu z ilościowymi granicami. Łączy grokking ze zrozumiałymi zjawiskami w teorii optymalizacji:

  • Implicit bias gradient descent
  • Rola regularyzacji w generalizacji
  • Właściwości spektralne macierzy cech

Szczegóły techniczne

Nadparametryzacja jest kluczowa

Ustawienie wymaga $m \gg n$ (dużo więcej parametrów niż próbek). W reżimie niedoparametryzowanym nie ma miejsca na “śmieciowe” kierunki — model jest zmuszony generalizować od początku.

Separacja wartości własnych

Opóźnienie grokkingu zależy od luki spektralnej macierzy kowariancji cech. Duże luki między wartościami własnymi tworzą warunki, w których niektóre kierunki zbiegają szybko (dopasowanie danych treningowych), a inne wolno (generalizacja).

Weight decay jako niejawna selekcja cech

Weight decay nie tylko zapobiega przeučeniu — wykonuje niejawną selekcję cech, powoli usuwając komponenty, które nie przyczyniają się do dopasowania danych treningowych. W reżimie grokkingu ta selekcja następuje dużo później niż zapamiętywanie.

Ograniczenia

  • Teoria liniowa: Główne dowody dotyczą regresji grzbietowej; wyniki na sieciach neuronowych są empiryczne
  • Założenia rozkładu: Wymaga specyficznych właściwości rozkładu cech
  • Stały design: Analiza skupia się na stałych danych treningowych, nie uczeniu online
  • Efekty skończonej szerokości: Bardzo szerokie sieci mogą zachowywać się inaczej

Podsumowanie

Grokking — zjawisko opóźnionej generalizacji — wreszcie ma rygorystyczne wyjaśnienie:

  1. Nadparametryzowane modele mogą zapamiętywać dane treningowe w wielu kierunkach
  2. Losowa inicjalizacja umieszcza parametry w zaszumionych kierunkach ortogonalnych do danych
  3. Gradient descent szybko dopasowuje dane treningowe używając kierunków wyrównanych z danymi
  4. Weight decay powoli usuwa szum w nieużywanych kierunkach
  5. Generalizacja pojawia się gdy szum jest wystarczająco zredukowany

Opóźnienie grokkingu skaluje się jako $1/\lambda$ — jest całkowicie kontrolowane przez weight decay. Bez zmian architektury, bez tajemniczych emergentnych właściwości. Tylko interakcja szybkości zapamiętywania i szybkości regularyzacji.

Czasem najprostsze wyjaśnienie jest tym właściwym.


Linki