Prognozowanie szeregów czasowych to jedno z najważniejszych zastosowań uczenia maszynowego — od przewidywania popytu, przez monitoring infrastruktury, po prognozowanie powodzi. Problem? Standardowe modele optymalizują się pod typowe przypadki. A to właśnie te nietypowe — ekstremalne zdarzenia — są często najważniejsze do przewidzenia. M²FMoE to model, który uczy się przewidywać jedno i drugie.
Problem: Ekstremalne zdarzenia łamią standardowe modele
Prognozowanie szeregów czasowych poczyniło ogromne postępy. Transformery, metody częstotliwościowe i architektury hybrydowe osiągają imponujące wyniki na benchmarkach. Ale jest haczyk.
Większość modeli optymalizuje średni błąd dla wszystkich kroków czasowych. To oznacza:
- Uczą się wzorców, które działają przez większość czasu
- Ekstremalne zdarzenia są rzadkie, więc mało wpływają na funkcję straty
- Model “ignoruje” wartości odstające, żeby zminimalizować ogólny błąd
Rezultat? Gdy zbliża się powódź, model prognozuje “nieco powyżej normy” — bo to minimalizuje średni błąd. Ale nie obchodzi cię średni błąd, gdy woda przybiera.
Dlaczego to takie trudne?
Ekstremalne zdarzenia mają fundamentalnie inne cechy:
- Rzadkie — może 1-5% wszystkich obserwacji
- Rozkłady z ciężkimi ogonami — nie gaussowskie, nieprzewidywalne ze średnich
- Inna dynamika — normalne fluktuacje podążają za wzorcami sezonowymi; ekstremalne zdarzenia za systemami burzowymi
- Wysokie stawki — błędy podczas ekstremalnych zdarzeń kosztują o rzędy wielkości więcej
Tradycyjne rozwiązanie? Ręczne oznaczanie ekstremalnych zdarzeń i trenowanie wyspecjalizowanych modeli. Ale etykiety są drogie, subiektywne i często niedostępne w czasie rzeczywistym.
Rozwiązanie: Eksperci częstotliwościowi bez etykiet
M²FMoE (Multi-Resolution Multi-View Frequency Mixture-of-Experts) stosuje inne podejście. Zamiast etykietować ekstremalne zdarzenia, uczy się je rozpoznawać przez sygnatury częstotliwościowe.
Kluczowa obserwacja: ekstremalne zdarzenia wyglądają inaczej w domenie częstotliwości.
- Normalne wzorce → silne składowe okresowe (dzienne, tygodniowe, sezonowe)
- Ekstremalne zdarzenia → nagła energia w nietypowych pasmach częstotliwości
Przegląd architektury
M²FMoE łączy trzy moduły:
Wejście → [Multi-View Frequency MoE] → [Multi-Resolution Fusion] → [Temporal Gating] → Prognoza
↓ ↓ ↓
Fourier + Wavelet Grubo → Dokładnie Długo vs Krótko
Routing Ekspertów Hierarchicznie Balans
Moduł 1: Multi-View Frequency Mixture-of-Experts
To główna innowacja. Zamiast jednego monolitycznego modelu, M²FMoE używa wyspecjalizowanych ekspertów dla różnych pasm częstotliwości — i robi to z dwóch komplementarnych perspektyw.
Widok Fouriera
Transformata Fouriera rozkłada sygnał na czyste częstotliwości. Każdy ekspert specjalizuje się w paśmie:
- Ekspert 1: Niskie częstotliwości (długoterminowe trendy)
- Ekspert 2: Średnie częstotliwości (wzorce tygodniowe/dzienne)
- Ekspert 3: Wysokie częstotliwości (szybkie fluktuacje)
Mechanizm routingu decyduje, który ekspert obsługuje dane wejście:
$$\alpha = \text{Softmax}(\tilde{G}(\tilde{M}))$$
gdzie $\tilde{M}$ to widmo amplitudowe, a $\tilde{G}$ to nauczona sieć bramkująca.
Widok falkowy (Wavelet)
Fourier ma ograniczenie: traci informację czasową. Nagły skok wygląda tak samo, niezależnie czy wydarzył się wczoraj czy miesiąc temu.
Falki zachowują zarówno częstotliwość, jak i lokalizację czasową. M²FMoE dodaje ekspertów falkowych, którzy mogą wykryć kiedy pojawiają się nietypowe częstotliwości — kluczowe dla ekstremalnych zdarzeń.
Wyrównanie między widokami
Tu jest sprytna część. Domeny Fouriera i falkowa używają różnych skal. Jak zapewnić, że eksperci patrzą na te same zjawiska?
Twierdzenie 1 ustanawia mapowanie między częstotliwością Fouriera $f$ a skalą falkową $a$:
$$a = \frac{\gamma}{f}$$
gdzie $\gamma$ to centralna częstotliwość falki. To zapewnia spójny podział widma w obu widokach.
Moduł 2: Multi-Resolution Adaptive Fusion
Nie wszystkie wzorce działają w tej samej skali. Trendy sezonowe potrzebują miesięcy kontekstu; nagłe skoki — godzin.
M²FMoE przetwarza sygnał w wielu rozdzielczościach:
- Gruba rozdzielczość — wychwytuje długoterminowe trendy
- Średnia rozdzielczość — wychwytuje cykle tygodniowe/dzienne
- Drobna rozdzielczość — wychwytuje szybkie zmiany
Są następnie hierarchicznie łączone od grubej do drobnej, pozwalając modelowi zbudować pełny obraz.
Moduł 3: Temporal Gating Integration
Ostatni moduł balansuje dwa typy informacji:
- Długoterminowe trendy ($H_r$) — wolno zmieniające się linie bazowe
- Cechy częstotliwościowe ($H_h$) — wykryte wzorce od ekspertów
Nauczony mechanizm bramkowania łączy je:
$$\text{Wyjście} = G \odot H_r + (1-G) \odot H_h$$
gdzie $G$ to bramka sigmoidalna. W normalnych okresach model polega bardziej na trendach. Podczas anomalii przesuwa wagę na cechy częstotliwościowe.
Trening: Funkcja straty
M²FMoE używa złożonej funkcji straty z trzema składnikami:
- Strata prognozowania (MSE) — standardowy błąd predykcji
- Strata różnorodności — zachęca ekspertów do specjalizacji w różnych pasmach
- Strata spójności — wyrównuje wyjścia ekspertów Fouriera i falkowych
$$\mathcal{L} = \mathcal{L}{\text{forecast}} + \lambda_1 \mathcal{L}{\text{diversity}} + \lambda_2 \mathcal{L}_{\text{consistency}}$$
Strata różnorodności jest kluczowa: bez niej wszyscy eksperci nauczyliby się tego samego.
Eksperymenty: Dane ze zbiorników w Kalifornii
Autorzy przetestowali M²FMoE na rzeczywistych danych hydrologicznych z pięciu zbiorników w hrabstwie Santa Clara w Kalifornii:
- Almaden, Coyote, Lexington, Stevens Creek, Vasona
- 28 lat godzinowych pomiarów poziomu wody (1991-2019)
- Rozkłady z ciężkimi ogonami z wyraźnymi ekstremalnymi zdarzeniami
Modele bazowe (13 modeli)
| Kategoria | Modele |
|---|---|
| Oparte na attention | CATS, TQNet, iTransformer |
| Domenowo-częstotliwościowe | FreqMoE, Umixer |
| Liniowe/Hybrydowe | KAN, CycleNet, PatchTST, TimesNet, TimeMixer |
| Ekstremalne zdarzenia (z etykietami) | DAN, MCANN |
Wyniki: Prognoza 8-godzinna
| Dataset | M²FMoE | Najlepszy baseline | Poprawa |
|---|---|---|---|
| Almaden | 7.99 | 14.73 (FreqMoE) | 45.7% |
| Coyote | 48.80 | 80.94 (iTransformer) | 39.7% |
| Lexington | 251.96 | 386.99 (iTransformer) | 34.9% |
Wyniki: Prognoza 72-godzinna
Dla dłuższych horyzontów M²FMoE osiąga:
- 22.30% średniej poprawy względem najlepszych baseline’ów (bez etykiet ekstremalnych)
- 9.19% poprawy względem metod używających etykiet ekstremalnych zdarzeń
To niezwykłe: M²FMoE bije modele, które mają dostęp do informacji, których sam nie posiada.
Istotność statystyczna
Wszystkie poprawy są statystycznie istotne (p < 0.05) według testu rang Wilcoxona.
Studia ablacyjne: Co się liczy?
Autorzy systematycznie usuwali komponenty, żeby zmierzyć ich znaczenie:
| Usunięty komponent | Spadek wydajności |
|---|---|
| Widok falkowy | Znaczący |
| Fuzja wielorozdzielczościowa | Znaczący |
| Bramkowanie czasowe | Umiarkowany |
| Strata różnorodności | Umiarkowany |
Kluczowe odkrycie: Eksperci falkowi aktywują się silniej podczas ekstremalnych zdarzeń, podczas gdy eksperci Fouriera obsługują regularne wzorce. Projekt z dwoma widokami jest niezbędny.
Liczba ekspertów
Ilu ekspertów jest optymalnych?
- Za mało (1-2): Nie mogą się wystarczająco wyspecjalizować
- Za dużo (5+): Narzut bez korzyści
- Optimum: 3-4 ekspertów
Dlaczego to ważne
Dla praktyków
Jeśli prognozujesz szeregi czasowe z okazjonalnymi ekstremalnymi zdarzeniami (powodzie, skoki popytu, awarie sprzętu), M²FMoE oferuje:
- Bez etykietowania — uczy się ekstremalnych wzorców automatycznie
- Interpretowalny — możesz zobaczyć, którzy eksperci aktywują się kiedy
- Praktyczne horyzonty — testowany na prognozach 8h i 72h
Dla badaczy
M²FMoE demonstruje:
- Ekspertyza częstotliwościowa może zastąpić jawne etykiety zdarzeń
- Multi-view (Fourier + Wavelet) bije podejścia z jednym widokiem
- Mixture-of-Experts dobrze skaluje się dla szeregów czasowych
Ograniczenia
- Dostrajanie domenowe: Okno lookback i liczba ekspertów mogą wymagać dostosowania
- Koszt obliczeniowy: Droższy niż proste modele liniowe
- Ewaluacja: Testowany głównie na danych hydrologicznych
Podsumowanie
M²FMoE pokazuje, że nie trzeba etykietować ekstremalnych zdarzeń, żeby je przewidywać. Łącząc:
- Dwa widoki częstotliwościowe (Fourier dla widma, falki dla lokalizacji)
- Wyspecjalizowanych ekspertów dla różnych pasm częstotliwości
- Fuzję wielorozdzielczościową dla różnych skal czasowych
- Bramkowanie czasowe dla adaptacyjnej kombinacji
…model uczy się rozpoznawać ekstremalne zdarzenia przez ich sygnatury częstotliwościowe. Na danych ze zbiorników w Kalifornii bije 13 baseline’ów, włącznie z metodami używającymi etykiet ekstremalnych zdarzeń.
Szersza lekcja: zamiast traktować rzadkie zdarzenia jako szum do zignorowania, możemy projektować architektury, które naturalnie uczą się je obsługiwać.
Linki
- Publikacja: arXiv:2601.08631
- Zaakceptowana na: AAAI 2026