Prognozowanie szeregów czasowych to jedno z najważniejszych zastosowań uczenia maszynowego — od przewidywania popytu, przez monitoring infrastruktury, po prognozowanie powodzi. Problem? Standardowe modele optymalizują się pod typowe przypadki. A to właśnie te nietypowe — ekstremalne zdarzenia — są często najważniejsze do przewidzenia. M²FMoE to model, który uczy się przewidywać jedno i drugie.

Problem: Ekstremalne zdarzenia łamią standardowe modele

Prognozowanie szeregów czasowych poczyniło ogromne postępy. Transformery, metody częstotliwościowe i architektury hybrydowe osiągają imponujące wyniki na benchmarkach. Ale jest haczyk.

Większość modeli optymalizuje średni błąd dla wszystkich kroków czasowych. To oznacza:

  • Uczą się wzorców, które działają przez większość czasu
  • Ekstremalne zdarzenia są rzadkie, więc mało wpływają na funkcję straty
  • Model “ignoruje” wartości odstające, żeby zminimalizować ogólny błąd

Rezultat? Gdy zbliża się powódź, model prognozuje “nieco powyżej normy” — bo to minimalizuje średni błąd. Ale nie obchodzi cię średni błąd, gdy woda przybiera.

Dlaczego to takie trudne?

Ekstremalne zdarzenia mają fundamentalnie inne cechy:

  • Rzadkie — może 1-5% wszystkich obserwacji
  • Rozkłady z ciężkimi ogonami — nie gaussowskie, nieprzewidywalne ze średnich
  • Inna dynamika — normalne fluktuacje podążają za wzorcami sezonowymi; ekstremalne zdarzenia za systemami burzowymi
  • Wysokie stawki — błędy podczas ekstremalnych zdarzeń kosztują o rzędy wielkości więcej

Tradycyjne rozwiązanie? Ręczne oznaczanie ekstremalnych zdarzeń i trenowanie wyspecjalizowanych modeli. Ale etykiety są drogie, subiektywne i często niedostępne w czasie rzeczywistym.

Rozwiązanie: Eksperci częstotliwościowi bez etykiet

M²FMoE (Multi-Resolution Multi-View Frequency Mixture-of-Experts) stosuje inne podejście. Zamiast etykietować ekstremalne zdarzenia, uczy się je rozpoznawać przez sygnatury częstotliwościowe.

Kluczowa obserwacja: ekstremalne zdarzenia wyglądają inaczej w domenie częstotliwości.

  • Normalne wzorce → silne składowe okresowe (dzienne, tygodniowe, sezonowe)
  • Ekstremalne zdarzenia → nagła energia w nietypowych pasmach częstotliwości

Przegląd architektury

M²FMoE łączy trzy moduły:

Wejście → [Multi-View Frequency MoE] → [Multi-Resolution Fusion] → [Temporal Gating] → Prognoza
                ↓                              ↓                         ↓
          Fourier + Wavelet              Grubo → Dokładnie         Długo vs Krótko
          Routing Ekspertów              Hierarchicznie              Balans

Moduł 1: Multi-View Frequency Mixture-of-Experts

To główna innowacja. Zamiast jednego monolitycznego modelu, M²FMoE używa wyspecjalizowanych ekspertów dla różnych pasm częstotliwości — i robi to z dwóch komplementarnych perspektyw.

Widok Fouriera

Transformata Fouriera rozkłada sygnał na czyste częstotliwości. Każdy ekspert specjalizuje się w paśmie:

  • Ekspert 1: Niskie częstotliwości (długoterminowe trendy)
  • Ekspert 2: Średnie częstotliwości (wzorce tygodniowe/dzienne)
  • Ekspert 3: Wysokie częstotliwości (szybkie fluktuacje)

Mechanizm routingu decyduje, który ekspert obsługuje dane wejście:

$$\alpha = \text{Softmax}(\tilde{G}(\tilde{M}))$$

gdzie $\tilde{M}$ to widmo amplitudowe, a $\tilde{G}$ to nauczona sieć bramkująca.

Widok falkowy (Wavelet)

Fourier ma ograniczenie: traci informację czasową. Nagły skok wygląda tak samo, niezależnie czy wydarzył się wczoraj czy miesiąc temu.

Falki zachowują zarówno częstotliwość, jak i lokalizację czasową. M²FMoE dodaje ekspertów falkowych, którzy mogą wykryć kiedy pojawiają się nietypowe częstotliwości — kluczowe dla ekstremalnych zdarzeń.

Wyrównanie między widokami

Tu jest sprytna część. Domeny Fouriera i falkowa używają różnych skal. Jak zapewnić, że eksperci patrzą na te same zjawiska?

Twierdzenie 1 ustanawia mapowanie między częstotliwością Fouriera $f$ a skalą falkową $a$:

$$a = \frac{\gamma}{f}$$

gdzie $\gamma$ to centralna częstotliwość falki. To zapewnia spójny podział widma w obu widokach.

Moduł 2: Multi-Resolution Adaptive Fusion

Nie wszystkie wzorce działają w tej samej skali. Trendy sezonowe potrzebują miesięcy kontekstu; nagłe skoki — godzin.

M²FMoE przetwarza sygnał w wielu rozdzielczościach:

  1. Gruba rozdzielczość — wychwytuje długoterminowe trendy
  2. Średnia rozdzielczość — wychwytuje cykle tygodniowe/dzienne
  3. Drobna rozdzielczość — wychwytuje szybkie zmiany

Są następnie hierarchicznie łączone od grubej do drobnej, pozwalając modelowi zbudować pełny obraz.

Moduł 3: Temporal Gating Integration

Ostatni moduł balansuje dwa typy informacji:

  • Długoterminowe trendy ($H_r$) — wolno zmieniające się linie bazowe
  • Cechy częstotliwościowe ($H_h$) — wykryte wzorce od ekspertów

Nauczony mechanizm bramkowania łączy je:

$$\text{Wyjście} = G \odot H_r + (1-G) \odot H_h$$

gdzie $G$ to bramka sigmoidalna. W normalnych okresach model polega bardziej na trendach. Podczas anomalii przesuwa wagę na cechy częstotliwościowe.

Trening: Funkcja straty

M²FMoE używa złożonej funkcji straty z trzema składnikami:

  1. Strata prognozowania (MSE) — standardowy błąd predykcji
  2. Strata różnorodności — zachęca ekspertów do specjalizacji w różnych pasmach
  3. Strata spójności — wyrównuje wyjścia ekspertów Fouriera i falkowych

$$\mathcal{L} = \mathcal{L}{\text{forecast}} + \lambda_1 \mathcal{L}{\text{diversity}} + \lambda_2 \mathcal{L}_{\text{consistency}}$$

Strata różnorodności jest kluczowa: bez niej wszyscy eksperci nauczyliby się tego samego.

Eksperymenty: Dane ze zbiorników w Kalifornii

Autorzy przetestowali M²FMoE na rzeczywistych danych hydrologicznych z pięciu zbiorników w hrabstwie Santa Clara w Kalifornii:

  • Almaden, Coyote, Lexington, Stevens Creek, Vasona
  • 28 lat godzinowych pomiarów poziomu wody (1991-2019)
  • Rozkłady z ciężkimi ogonami z wyraźnymi ekstremalnymi zdarzeniami

Modele bazowe (13 modeli)

KategoriaModele
Oparte na attentionCATS, TQNet, iTransformer
Domenowo-częstotliwościoweFreqMoE, Umixer
Liniowe/HybrydoweKAN, CycleNet, PatchTST, TimesNet, TimeMixer
Ekstremalne zdarzenia (z etykietami)DAN, MCANN

Wyniki: Prognoza 8-godzinna

DatasetM²FMoENajlepszy baselinePoprawa
Almaden7.9914.73 (FreqMoE)45.7%
Coyote48.8080.94 (iTransformer)39.7%
Lexington251.96386.99 (iTransformer)34.9%

Wyniki: Prognoza 72-godzinna

Dla dłuższych horyzontów M²FMoE osiąga:

  • 22.30% średniej poprawy względem najlepszych baseline’ów (bez etykiet ekstremalnych)
  • 9.19% poprawy względem metod używających etykiet ekstremalnych zdarzeń

To niezwykłe: M²FMoE bije modele, które mają dostęp do informacji, których sam nie posiada.

Istotność statystyczna

Wszystkie poprawy są statystycznie istotne (p < 0.05) według testu rang Wilcoxona.

Studia ablacyjne: Co się liczy?

Autorzy systematycznie usuwali komponenty, żeby zmierzyć ich znaczenie:

Usunięty komponentSpadek wydajności
Widok falkowyZnaczący
Fuzja wielorozdzielczościowaZnaczący
Bramkowanie czasoweUmiarkowany
Strata różnorodnościUmiarkowany

Kluczowe odkrycie: Eksperci falkowi aktywują się silniej podczas ekstremalnych zdarzeń, podczas gdy eksperci Fouriera obsługują regularne wzorce. Projekt z dwoma widokami jest niezbędny.

Liczba ekspertów

Ilu ekspertów jest optymalnych?

  • Za mało (1-2): Nie mogą się wystarczająco wyspecjalizować
  • Za dużo (5+): Narzut bez korzyści
  • Optimum: 3-4 ekspertów

Dlaczego to ważne

Dla praktyków

Jeśli prognozujesz szeregi czasowe z okazjonalnymi ekstremalnymi zdarzeniami (powodzie, skoki popytu, awarie sprzętu), M²FMoE oferuje:

  • Bez etykietowania — uczy się ekstremalnych wzorców automatycznie
  • Interpretowalny — możesz zobaczyć, którzy eksperci aktywują się kiedy
  • Praktyczne horyzonty — testowany na prognozach 8h i 72h

Dla badaczy

M²FMoE demonstruje:

  • Ekspertyza częstotliwościowa może zastąpić jawne etykiety zdarzeń
  • Multi-view (Fourier + Wavelet) bije podejścia z jednym widokiem
  • Mixture-of-Experts dobrze skaluje się dla szeregów czasowych

Ograniczenia

  • Dostrajanie domenowe: Okno lookback i liczba ekspertów mogą wymagać dostosowania
  • Koszt obliczeniowy: Droższy niż proste modele liniowe
  • Ewaluacja: Testowany głównie na danych hydrologicznych

Podsumowanie

M²FMoE pokazuje, że nie trzeba etykietować ekstremalnych zdarzeń, żeby je przewidywać. Łącząc:

  1. Dwa widoki częstotliwościowe (Fourier dla widma, falki dla lokalizacji)
  2. Wyspecjalizowanych ekspertów dla różnych pasm częstotliwości
  3. Fuzję wielorozdzielczościową dla różnych skal czasowych
  4. Bramkowanie czasowe dla adaptacyjnej kombinacji

…model uczy się rozpoznawać ekstremalne zdarzenia przez ich sygnatury częstotliwościowe. Na danych ze zbiorników w Kalifornii bije 13 baseline’ów, włącznie z metodami używającymi etykiet ekstremalnych zdarzeń.

Szersza lekcja: zamiast traktować rzadkie zdarzenia jako szum do zignorowania, możemy projektować architektury, które naturalnie uczą się je obsługiwać.


Linki