Niestabilna Moc: Jak Sharpness Napędza Uczenie Głębokich Sieci

Artykuł „Understanding the Evolution of the Neural Tangent Kernel at the Edge of Stability” autorstwa Kaiqi Jianga, Jeremy’ego Cohena i Yuanzhi Liego bada, jak podczas treningu głębokich sieci neuronowych zmienia się tzw. jądro tangenta nerwowego ($\mathrm{NTK}$), zwłaszcza w fazie zwanej krawędzią stabilności (Edge of Stability, EoS). Co to jest NTK? $\mathrm{NTK}$ to macierz opisująca, jak mała zmiana wag w sieci wpływa na wyjścia dla poszczególnych przykładów treningowych. Pozwala traktować sieć neuronową jak metodę jądrową, co ułatwia analizę teoretyczną uczenia głębokiego. Co to jest Edge of Stability? Przy dużej stawce uczenia $\eta$ największa wartość własna $\mathrm{NTK}$ (lub hesjanu funkcji straty) przekracza próg stabilności $2/\eta$, a następnie oscyluje wokół tej granicy. To zjawisko nosi nazwę Edge of Stability – łączy niestabilność z efektywnymi fazami nauki. Główne odkrycia Shift wyrównania (Alignment Shift) Przy wyższej stawce $\eta$ jądro końcowe staje się silniej wyrównane z wektorem etykiet $y$. Mierzone jest to miarą Kernel Target Alignment (KTA). ...

lipca 18, 2025