Standardowe sieci neuronowe, ucząc się nowych zadań, często zapominają wcześniejsze informacje – zjawisko zwane katastroficznym zapominaniem. W przeciwieństwie do nich, ludzki mózg zachowuje zdolność do integracji nowych i starych wspomnień dzięki działaniu dwóch komplementarnych systemów pamięci: hipokampa i kory mózgowej.

1. Cele publikacji

Autorzy dążą do skonstruowania modelu łączącego:

  • Pattern separation: wyraźne rozróżnianie podobnych wspomnień,
  • Pattern completion: odtwarzanie pełnych reprezentacji z fragmentarycznych danych,

aby umożliwić ciągłe uczenie bez utraty zdobytych umiejętności.

2. Problem

Katastroficzne zapominanie objawia się znacznym spadkiem wydajności na wcześniej nauczeniu się zadaniu po treningu na nowym zbiorze danych.

3. Teoria Complementary Learning Systems

Teoria CLS zakłada istnienie:

  • Szybkiego systemu (hipokamp) do kodowania nowych zdarzeń z wysoką rozdzielczością (pattern separation),
  • Wolnego systemu (kora) do długoterminowej konsolidacji i odtwarzania wspomnień (pattern completion).

4. Proponowany model

4.1. Variational Autoencoder (VAE)

VAE uczy się rozkładu ukrytej reprezentacji $z$ dla danych wejściowych $x$ poprzez maksymalizację dolnej granicy dowodu (ELBO):

$ \mathcal{L}(\theta, \phi; x) = $ $ {E}_{q_z|x} $

$ [\log p_\theta(x|z)]-D_{KL}(q_\phi(z|x)|p(z)) $

4.2. Modern Hopfield Network (MHN)

MHN działa jako pamięć asocjacyjna, przechowując $N$ wzorców ${w_i}$ i przywracając najbliższy wzorzec dla nowego wejścia poprzez minimalizację funkcji energii $E$.

4.3. Integracja VAE i MHN

  • VAE generuje ciągłą przestrzeń reprezentacji,
  • MHN przechowuje i odróżnia istotne wzorce,
    co razem zapewnia zarówno generalizację, jak i separację.

5. Eksperymenty

Model oceniono na benchmarku Split-MNIST, dzieląc zbiór MNIST na pięć podzadań. Metryki:

  • Średnia dokładność po wszystkich zadaniach,
  • Wskaźnik zapominania.

6. Wyniki

Model osiągnął ~90% średniej dokładności, znacznie przewyższając tradycyjne podejścia bez mechanizmów CLS.

Integracja VAE i MHN prowadzi do:

  • Minimalizacji zapominania,
  • Skutecznej generalizacji,
  • Możliwości dalszego rozszerzenia na bardziej złożone zadania.

8. Wnioski

Proponowana architektura stanowi obiecujący krok w kierunku sieci zdolnych do uczenia ciągłego, łącząc neurobiologiczne inspiracje z praktycznymi algorytmami.


📎 Linki