Standardowe sieci neuronowe, ucząc się nowych zadań, często zapominają wcześniejsze informacje – zjawisko zwane katastroficznym zapominaniem. W przeciwieństwie do nich, ludzki mózg zachowuje zdolność do integracji nowych i starych wspomnień dzięki działaniu dwóch komplementarnych systemów pamięci: hipokampa i kory mózgowej.
1. Cele publikacji
Autorzy dążą do skonstruowania modelu łączącego:
- Pattern separation: wyraźne rozróżnianie podobnych wspomnień,
- Pattern completion: odtwarzanie pełnych reprezentacji z fragmentarycznych danych,
aby umożliwić ciągłe uczenie bez utraty zdobytych umiejętności.
2. Problem
Katastroficzne zapominanie objawia się znacznym spadkiem wydajności na wcześniej nauczeniu się zadaniu po treningu na nowym zbiorze danych.
3. Teoria Complementary Learning Systems
Teoria CLS zakłada istnienie:
- Szybkiego systemu (hipokamp) do kodowania nowych zdarzeń z wysoką rozdzielczością (pattern separation),
- Wolnego systemu (kora) do długoterminowej konsolidacji i odtwarzania wspomnień (pattern completion).
4. Proponowany model
4.1. Variational Autoencoder (VAE)
VAE uczy się rozkładu ukrytej reprezentacji $z$ dla danych wejściowych $x$ poprzez maksymalizację dolnej granicy dowodu (ELBO):
$ \mathcal{L}(\theta, \phi; x) = $ $ {E}_{q_z|x} $
$ [\log p_\theta(x|z)]-D_{KL}(q_\phi(z|x)|p(z)) $
4.2. Modern Hopfield Network (MHN)
MHN działa jako pamięć asocjacyjna, przechowując $N$ wzorców ${w_i}$ i przywracając najbliższy wzorzec dla nowego wejścia poprzez minimalizację funkcji energii $E$.
4.3. Integracja VAE i MHN
- VAE generuje ciągłą przestrzeń reprezentacji,
- MHN przechowuje i odróżnia istotne wzorce,
co razem zapewnia zarówno generalizację, jak i separację.
5. Eksperymenty
Model oceniono na benchmarku Split-MNIST, dzieląc zbiór MNIST na pięć podzadań. Metryki:
- Średnia dokładność po wszystkich zadaniach,
- Wskaźnik zapominania.
6. Wyniki
Model osiągnął ~90% średniej dokładności, znacznie przewyższając tradycyjne podejścia bez mechanizmów CLS.
Integracja VAE i MHN prowadzi do:
- Minimalizacji zapominania,
- Skutecznej generalizacji,
- Możliwości dalszego rozszerzenia na bardziej złożone zadania.
8. Wnioski
Proponowana architektura stanowi obiecujący krok w kierunku sieci zdolnych do uczenia ciągłego, łącząc neurobiologiczne inspiracje z praktycznymi algorytmami.
📎 Linki
- Na podstawie publikacji 📄 2507.11393