Artykuł „Understanding the Evolution of the Neural Tangent Kernel at the Edge of Stability” autorstwa Kaiqi Jianga, Jeremy’ego Cohena i Yuanzhi Liego bada, jak podczas treningu głębokich sieci neuronowych zmienia się tzw. jądro tangenta nerwowego ($\mathrm{NTK}$), zwłaszcza w fazie zwanej krawędzią stabilności (Edge of Stability, EoS).
Co to jest NTK?
- $\mathrm{NTK}$ to macierz opisująca, jak mała zmiana wag w sieci wpływa na wyjścia dla poszczególnych przykładów treningowych.
- Pozwala traktować sieć neuronową jak metodę jądrową, co ułatwia analizę teoretyczną uczenia głębokiego.
Co to jest Edge of Stability?
- Przy dużej stawce uczenia $\eta$ największa wartość własna $\mathrm{NTK}$ (lub hesjanu funkcji straty) przekracza próg stabilności $2/\eta$, a następnie oscyluje wokół tej granicy.
- To zjawisko nosi nazwę Edge of Stability – łączy niestabilność z efektywnymi fazami nauki.
Główne odkrycia
Shift wyrównania (Alignment Shift)
Przy wyższej stawce $\eta$ jądro końcowe staje się silniej wyrównane z wektorem etykiet $y$. Mierzone jest to miarą Kernel Target Alignment (KTA).Związek z fazami EoS
- Gdy ostrość (sharpness) – czyli największa wartość własna – maleje, KTA rośnie skokowo.
- Gdy ostrość rośnie, tempo wzrostu KTA jest mniejsze lub KTA chwilowo spada.
Analiza teoretyczna w modelu liniowym
W uproszczonej, dwuwarstwowej sieci liniowej autorzy pokazują, że podczas spadku ostrości wzmacniane są komponenty zgodne z sygnałem treningowym $y$. Dowodzą, że w fazach EoS następuje przesunięcie masy wyrównania ku głównym wektorom własnym $\mathrm{NTK}$.Central Flows
Modelując spadek gradientu jako flow z karą za ostrość, wykazują, że domyślna trajektoria uczenia sprzyja wzrostowi Kernel Target Alignment.
Dlaczego to ważne?
- Pogłębia zrozumienie dynamiki gradient descent poza klasycznym reżimem małych kroków.
- Może prowadzić do nowych metod optymalizacji i regularyzacji, które wykorzystują fazę Edge of Stability do ulepszenia uczenia reprezentacji.
📎 Linki
- Na podstawie publikacji 📄 2507.12837