Grokking

W uczeniu maszynowym spodziewamy się, że model albo się nauczy, albo przeucza. Czego się nie spodziewamy, to żeby model najpierw się przeuczył, a potem — dużo później, bez żadnych zmian — nagle zaczął dobrze generalizować. To zjawisko nazywa się grokking i intryguje badaczy od momentu odkrycia. Nowa publikacja wreszcie wyjaśnia dlaczego to się dzieje i dowodzi tego matematycznie — w najprostszym możliwym ustawieniu. Czym jest grokking? Grokking został po raz pierwszy zaobserwowany w 2022 roku na małych zadaniach algorytmicznych (jak arytmetyka modularna). Wzorzec jest uderzający: ...