To Grok Grokking: Dlaczego sieci neuronowe czasem rozumieją z opóźnieniem

W uczeniu maszynowym spodziewamy się, że model albo się nauczy, albo przeucza. Czego się nie spodziewamy, to żeby model najpierw się przeuczył, a potem — dużo później, bez żadnych zmian — nagle zaczął dobrze generalizować. To zjawisko nazywa się grokking i intryguje badaczy od momentu odkrycia. Nowa publikacja wreszcie wyjaśnia dlaczego to się dzieje i dowodzi tego matematycznie — w najprostszym możliwym ustawieniu.

Czym jest grokking?

Grokking został po raz pierwszy zaobserwowany w 2022 roku na małych zadaniach algorytmicznych (jak arytmetyka modularna). Wzorzec jest uderzający:

Model szybko osiąga niemal idealną dokładność na danych treningowych
Dokładność testowa pozostaje kiepska przez długi czas
Potem, pozornie znikąd, dokładność testowa nagle rośnie

Wygląda to jakby model najpierw “zapamiętywał”, a “rozumiał” dużo później. Strata treningowa mówi “skończyłem”, ale model ciągle się potajemnie poprawia.

To postawiło fundamentalne pytanie: czy grokking to głęboka tajemnica sieci neuronowych, czy ma proste wyjaśnienie?

Odpowiedź: Regresja grzbietowa wskazuje drogę

Autorzy dowodzą, że grokking występuje nawet w regresji grzbietowej (ridge regression) — najprostszym możliwym ustawieniu uczenia. Żadnych głębokich sieci, żadnych złożonych architektur. Tylko regresja liniowa z regularyzacją L2:

$$\min_\theta \frac{1}{n} |X\theta - y|^2 + \lambda |\theta|^2$$

gdzie $\lambda$ to parametr weight decay.

Jeśli grokking zachodzi tutaj, to nie chodzi o magię sieci neuronowych — chodzi o fundamentalną dynamikę gradient descent z regularyzacją.

Trzy fazy grokkingu

Artykuł formalnie dowodzi trzech odrębnych faz podczas treningu gradient descent:

Faza 1: Szybkie przeuczenie

Model szybko dopasowuje się do danych treningowych. Jak szybko? Kontrolowane przez najmniejszą niezerową wartość własną empirycznej macierzy cech $\Phi^\top \Phi$:

$$t_{\text{overfit}} \leq \frac{n \cdot \ln(6b^2|\theta^{(0)}|2^2 / \varepsilon)}{2\eta \cdot \lambda{\min}^+(\Phi^\top \Phi)}$$

Prościej: strata treningowa spada szybko, bo model ma wystarczająco parametrów, żeby zapamiętać dane.

Faza 2: Przedłużona słaba generalizacja

Tu jest klucz. Po przeučeniu model nauczył się prawidłowych odpowiedzi dla punktów treningowych. Ale jego parametry w kierunkach ortogonalnych do danych treningowych pozostają blisko początkowych (losowych) wartości.

Te “dodatkowe” kierunki nie wpływają na stratę treningową — model już pasuje do danych. Ale pogarszają generalizację, bo dodają szum do predykcji na nowych danych.

Faza 3: Późna generalizacja

Weight decay powoli zmniejsza wszystkie parametry, włącznie z tymi zaszumionymi ortogonalnymi komponentami. W końcu stają się na tyle małe, że model zaczyna dobrze generalizować.

Czas generalizacji jest ograniczony od dołu:

$$t_{\text{generalize}} \geq \frac{1}{4\eta\lambda} \cdot \ln\left(\frac{(m-n)\nu^2}{2} \cdot \left(\sqrt{\frac{c}{\lambda_{\min}(\Sigma)}} + |\theta^*|_2\right)^{-2}\right)$$

Krytyczny czynnik: skaluje się jako $1/\lambda$ — im mniejszy weight decay, tym dłuższe opóźnienie grokkingu.

Dlaczego to się dzieje?

Intuicja jest zaskakująco prosta:

Nadparametryzacja ($m \gg n$): Model ma dużo więcej parametrów niż punktów danych
Losowa inicjalizacja: Parametry startują z losowymi wartościami we wszystkich kierunkach
Szybkie zapamiętywanie: Model szybko znajduje parametry pasujące do danych treningowych
Wolna regularyzacja: Weight decay powoli usuwa “śmieci” w nieużywanych kierunkach

Przerwa między Fazą 1 a Fazą 3 to opóźnienie grokkingu. Istnieje, bo zapamiętywanie jest szybkie (zależy od danych), ale regularyzacja jest wolna (zależy od weight decay).

Kontrolowanie grokkingu

Najbardziej praktyczna obserwacja z artykułu: grokking jest kontrolowalny przez hiperparametry.

Parametr	Wpływ na grokking
Weight decay $\lambda$ ↑	Krótsze opóźnienie (szybsza regularyzacja)
Weight decay $\lambda$ ↓	Dłuższe opóźnienie (może być dowolnie długie)
Learning rate $\eta$ ↑	Krótsze opóźnienie
Nadparametryzacja ↑	Bardziej wyraźny grokking
Skala inicjalizacji ↑	Bardziej wyraźny grokking

Możesz sprawić, że grokking zniknie — zwiększając weight decay. Albo że będzie dowolnie długi — zmniejszając go.

Poza regresją grzbietową

Teoria jest udowodniona dla regresji grzbietowej, ale autorzy walidują ją eksperymentalnie na sieciach neuronowych:

Sieci z losowymi cechami

Dwuwarstwowe sieci ReLU z zamrożoną warstwą ukrytą (de facto regresja grzbietowa w przestrzeni cech). Przewidywania teoretyczne zgadzają się precyzyjnie.

Pełne sieci neuronowe

Dwuwarstwowe sieci z treningiem obu warstw. Zachowanie grokkingu jakościowo zgadza się z przewidywaniami teoretycznymi — te same zależności od hiperparametrów.

To sugeruje, że mechanizm jest uniwersalny: nie chodzi o architekturę modelu, ale o dynamikę gradient descent z regularyzacją w ustawieniu nadparametryzowanym.

Co to oznacza

Grokking nie jest tajemnicą

Centralny przekaz artykułu: grokking nie jest wrodzoną wadą głębokiego uczenia, lecz konsekwencją konkretnych warunków treningowych.

Zachodzi, gdy:

Model jest nadparametryzowany
Weight decay jest mały
Istnieje luka między szybkością zapamiętywania a szybkością regularyzacji

Implikacje praktyczne

Jeśli obserwujesz grokking w praktyce:

Zwiększ weight decay — najprostszy fix
Zwiększ learning rate — przyspiesza obie fazy
Monitoruj stratę testową dłużej — model może jeszcze nie skończyć
Nie zatrzymuj za wcześnie — early stopping w Fazie 2 zabija generalizację

Implikacje teoretyczne

To pierwszy rygorystyczny dowód end-to-end grokkingu z ilościowymi granicami. Łączy grokking ze zrozumiałymi zjawiskami w teorii optymalizacji:

Implicit bias gradient descent
Rola regularyzacji w generalizacji
Właściwości spektralne macierzy cech

Szczegóły techniczne

Nadparametryzacja jest kluczowa

Ustawienie wymaga $m \gg n$ (dużo więcej parametrów niż próbek). W reżimie niedoparametryzowanym nie ma miejsca na “śmieciowe” kierunki — model jest zmuszony generalizować od początku.

Separacja wartości własnych

Opóźnienie grokkingu zależy od luki spektralnej macierzy kowariancji cech. Duże luki między wartościami własnymi tworzą warunki, w których niektóre kierunki zbiegają szybko (dopasowanie danych treningowych), a inne wolno (generalizacja).

Weight decay jako niejawna selekcja cech

Weight decay nie tylko zapobiega przeučeniu — wykonuje niejawną selekcję cech, powoli usuwając komponenty, które nie przyczyniają się do dopasowania danych treningowych. W reżimie grokkingu ta selekcja następuje dużo później niż zapamiętywanie.

Ograniczenia

Teoria liniowa: Główne dowody dotyczą regresji grzbietowej; wyniki na sieciach neuronowych są empiryczne
Założenia rozkładu: Wymaga specyficznych właściwości rozkładu cech
Stały design: Analiza skupia się na stałych danych treningowych, nie uczeniu online
Efekty skończonej szerokości: Bardzo szerokie sieci mogą zachowywać się inaczej

Podsumowanie

Grokking — zjawisko opóźnionej generalizacji — wreszcie ma rygorystyczne wyjaśnienie:

Nadparametryzowane modele mogą zapamiętywać dane treningowe w wielu kierunkach
Losowa inicjalizacja umieszcza parametry w zaszumionych kierunkach ortogonalnych do danych
Gradient descent szybko dopasowuje dane treningowe używając kierunków wyrównanych z danymi
Weight decay powoli usuwa szum w nieużywanych kierunkach
Generalizacja pojawia się gdy szum jest wystarczająco zredukowany

Opóźnienie grokkingu skaluje się jako $1/\lambda$ — jest całkowicie kontrolowane przez weight decay. Bez zmian architektury, bez tajemniczych emergentnych właściwości. Tylko interakcja szybkości zapamiętywania i szybkości regularyzacji.

Czasem najprostsze wyjaśnienie jest tym właściwym.

Linki

Publikacja: arXiv:2601.19791

Czym jest grokking?#

Odpowiedź: Regresja grzbietowa wskazuje drogę#

Trzy fazy grokkingu#

Faza 1: Szybkie przeuczenie#

Faza 2: Przedłużona słaba generalizacja#

Faza 3: Późna generalizacja#

Dlaczego to się dzieje?#

Kontrolowanie grokkingu#

Poza regresją grzbietową#

Sieci z losowymi cechami#

Pełne sieci neuronowe#

Co to oznacza#

Grokking nie jest tajemnicą#

Implikacje praktyczne#

Implikacje teoretyczne#

Szczegóły techniczne#

Nadparametryzacja jest kluczowa#

Separacja wartości własnych#

Weight decay jako niejawna selekcja cech#

Ograniczenia#

Podsumowanie#

Linki#