Wyobraź sobie, że uczysz się grać w szachy. Opanowujesz wszystkie zasady, strategie, otwarcia. Stajesz się całkiem dobrym graczem. A teraz ktoś wprowadza nową figurę z zupełnie nowymi zasadami poruszania się. Czy ucząc się grać z tą nową figurą, zapominasz, jak poruszać się pionkiem czy skoczkiem? Oczywiście, że nie. Twój mózg potrafi integrować nową wiedzę, nie tracąc tej już nabytej. Niestety, dla wielu systemów sztucznej inteligencji jest to ogromne wyzwanie, znane jako “katastroficzne zapominanie”.

Sztuczna inteligencja, a w szczególności modele uczenia maszynowego, często trenowane są na ogromnym zbiorze danych za jednym razem. Gdy pojawiają się nowe dane, model musi być trenowany od nowa, na połączonym starym i nowym zbiorze, co jest czasochłonne i kosztowne. Próba “douczania” modelu tylko na nowych danych często prowadzi do sytuacji, w której model “zapomina”, czego nauczył się wcześniej.

Naukowcy Lecheng Kong, Theodore Vasiloudis, Seongjun Yun, Han Xie i Xiang Song w swojej publikacji “Dynamic Mixture-of-Experts for Incremental Graph Learning” (arXiv:2508.09974) proponują innowacyjne rozwiązanie tego problemu, szczególnie w kontekście danych grafowych.

Czym są dane grafowe?

Pomyśl o swojej sieci znajomych na Facebooku. Ty jesteś węzłem, Twoi znajomi to inne węzły, a połączenia między wami to krawędzie. To jest graf. Grafy są wszędzie: w sieciach społecznościowych, w systemach rekomendacji (np. Netflix polecający Ci filmy na podstawie tego, co oglądali ludzie o podobnym guście), w biologii (sieci interakcji białek) czy w logistyce (mapy połączeń drogowych). Analiza tych grafów pozwala na odkrywanie cennych informacji i wzorców.

Eksperci, którzy uczą się razem

Kluczem do rozwiązania zaproponowanego przez autorów jest koncepcja “Mieszaniny Ekspertów” (Mixture-of-Experts, MoE). Zamiast jednego, monolitycznego modelu, który musi umieć wszystko, tworzą oni grupę “ekspertów” - mniejszych, wyspecjalizowanych sieci neuronowych.

Gdy pojawiają się nowe dane (np. nowi użytkownicy i ich interakcje w sieci społecznościowej), system nie próbuje na siłę zmieniać dotychczasowych ekspertów. Zamiast tego… dodaje nowego eksperta! Ten nowy ekspert specjalizuje się w obsłudze właśnie tych nowych danych.

To trochę tak, jakby w firmie, zamiast przekwalifikowywać cały zespół do obsługi nowego typu klienta, zatrudnić nowego specjalistę, który się na tym zna.

Matematyka w służbie pamięci

Jak system wie, którego “eksperta” użyć w danym momencie? Używa do tego specjalnej “bramki” (gating network), która decyduje, którzy eksperci są najbardziej kompetentni do przetworzenia danych wejściowych. Wynik jest ważoną sumą predykcji poszczególnych ekspertów.

Można to zapisać w uproszczeniu jako:

$$ \text{Wynik} = \sum_{i=1}^{n} G(x)_i \cdot E_i(x) $$

Gdzie:

  • $n$ to liczba ekspertów.
  • $x$ to dane wejściowe.
  • $E_i(x)$ to wynik działania $i$-tego eksperta.
  • $G(x)_i$ to “waga” lub “zaufanie”, jakie bramka przypisuje $i$-temu ekspertowi dla danych $x$.

Co więcej, autorzy wprowadzają specjalną funkcję straty (regularization loss), która dba o to, by starsi eksperci nie tylko nie zapominali swojej wiedzy, ale też pomagali nowemu ekspertowi w nauce. To rodzaj pracy zespołowej między modelami.

Przykład z życia: System rekomendacji muzyki

Wyobraź sobie serwis streamingowy z muzyką, który uczy się Twojego gustu. Na początku słuchasz głównie rocka, więc system tworzy “eksperta od rocka”, który świetnie poleca Ci nowe zespoły. Po jakimś czasie odkrywasz jazz. Tradycyjny system, ucząc się o jazzie, mógłby “zapomnieć” o Twoich rockowych preferencjach.

Dzięki metodzie DyMoE (Dynamic Mixture-of-Experts), system zamiast modyfikować “eksperta od rocka”, stworzyłby nowego “eksperta od jazzu”. Gdy poprosisz o piosenkę, system-bramka zapyta: “Czy to jest bardziej rockowe czy jazzowe zapytanie?”. Na tej podstawie aktywuje odpowiedniego eksperta (lub obu, jeśli słuchasz fusion!). A co najważniejsze, w miarę dodawania kolejnych gatunków, system będzie dodawał kolejnych ekspertów, stając się coraz mądrzejszy bez “resetowania” swojej wiedzy.

Podsumowanie

Podejście zaproponowane w publikacji to ważny krok w kierunku tworzenia bardziej elastycznych i adaptacyjnych systemów AI. Pozwala ono na ciągłe uczenie się w dynamicznie zmieniającym się świecie, bez obawy o utratę cennej, wcześniej nabytej wiedzy. To technologia, która może zrewolucjonizować takie dziedziny jak systemy rekomendacji, analiza sieci społecznościowych czy odkrywanie leków.


Linki