Wyobraź sobie, że twój komputer nie tylko analizuje wykresy giełdowe, ale też uczy się sam podejmować decyzje inwestycyjne – szybciej i sprytniej niż człowiek. A teraz dodaj do tego odrobinę fizyki kwantowej. Brzmi jak science fiction? A jednak – najnowsze badania pokazują, że połączenie uczenia ze wzmocnieniem (Reinforcement Learning), sieci neuronowych inspirowanych mechaniką kwantową i klasycznych danych finansowych może dać realną przewagę w tradingu.

Właśnie temu poświęcona jest publikacja zespołu z National Taiwan Normal University i Wells Fargo. Naukowcy stworzyli agenta handlowego, który korzysta z kwantowo-wzmocnionych sieci neuronowych, aby handlować parą walutową USD/TWD (dolar tajwański).


Idea w skrócie

Zacznijmy od analogii:

  • Handel walutami to trochę jak prowadzenie sklepu: kupujesz taniej, sprzedajesz drożej. Problem w tym, że ceny zmieniają się co sekundę, a przewidzenie, co się stanie jutro, jest niezwykle trudne.
  • Sztuczna inteligencja w tradingu to taki superinteligentny doradca, który patrzy na wykresy, uczy się z historii i proponuje: „kup teraz”, „sprzedaj teraz” albo „poczekaj”.
  • Uczenie ze wzmocnieniem (RL) przypomina tresurę psa: agent dostaje nagrody za dobre decyzje (zysk) i kary za złe (stratę). Z czasem uczy się podejmować coraz lepsze decyzje.
  • Kwantowe sieci neuronowe (QNN, QLSTM) to trochę jak dodatkowe zmysły – pozwalają wychwytywać subtelne wzorce w danych, których zwykły model mógłby nie zauważyć.

W badaniu połączono dwa elementy:

  1. QLSTM – specjalna sieć przewidująca krótkoterminowy trend (czy w najbliższych 5 dniach cena pójdzie w górę lub w dół o co najmniej 1.2%).
  2. QA3C – agent handlowy, który decyduje, czy kupić, sprzedać, czy czekać, korzystając z prognoz QLSTM i własnych obliczeń.

Efekt? W ciągu 5 lat testów (2020–2025) agent osiągnął 11.87% zysku przy maksymalnym obsunięciu kapitału tylko 0.92%. To znaczy, że zarabiał małymi krokami, ale bardzo stabilnie – lepiej niż wiele funduszy walutowych.

👉 W praktyce: taki system mógłby być używany np. do automatycznego inwestowania w waluty, akcje czy kryptowaluty, minimalizując ryzyko nagłych dużych strat.


Formalizacja i szczegóły techniczne

1. Architektura

Badacze zastosowali hybrydowe podejście:

  • QLSTM (Quantum LSTM) jako ekstraktor cech – wejściem były sekwencje 4 dni danych (open, high, low, close, MA5, MA10). Każdy punkt kodowano w obrotach kwantowych bramek $Ry(\theta)$. Wynik to predykcja binarna („up”/„down”), wykorzystywana dalej jako cecha wejściowa.
  • QA3C (Quantum Asynchronous Advantage Actor-Critic) – agent RL z trzema akcjami: hold, buy, sell. Stan obejmował 10 cech (m.in. QLSTM probs, cash ratio, PnL, odchylenia od MA20/MA60). Sieć polityki zawierała warstwę klasyczną + 8-qubitowy VQC.

2. Formalizacja problemu

Prognoza QLSTM

Każdy dzień $t$ ma etykietę:

$$ y_t = \begin{cases} 1 & \text{jeśli } \frac{y(t+5) - y(t)}{y(t)} > 0.012 \\ 0 & \text{jeśli } \frac{y(t+5) - y(t)}{y(t)} < -0.012 \\ \text{brak} & \text{w przeciwnym razie} \end{cases} $$

Trening: RMSprop, learning rate $5 \times 10^{-3}$, 50 epok, weighted cross-entropy. Test accuracy ≈ 71.5%.

QA3C – wybór akcji

Przestrzeń akcji:

$$ A = {0: \text{hold},; 1: \text{buy},; 2: \text{sell all}} $$

Wartość i polityka liczone przez wspólną sieć hybrydową:

$$ \pi_\theta(a|s_t), \quad V_\theta(s_t) $$

Aktualizacja oparta na wieloepizodowych trajektoriach ($n=30$) i funkcji straty:

$$ L = \delta^2 + \left(-\log \pi_\theta(a|s)\right)\delta - \beta H[\pi_\theta(\cdot|s)] $$

gdzie $\delta = R - V_\theta(s)$, a $H$ to entropia dla stabilizacji eksploracji.

3. Funkcja nagrody

Nagroda składa się z:

  • kosztu czasu ($ -0.02 $ dziennie),
  • nagród/kary za wejście zgodne/niezgodne z trendem,
  • nagrody za zyskowne wyjścia: $ +10 + 50 * PnL%} $,
  • kary za stratne wyjścia: $ -2 - 10 * PnL% $,
  • kary za trzymanie strat: $ -5 * (PnL%)^2 $.

Clipping: $r_t \in [-15, 30]$.

4. Wyniki

  • QA3C: 244 parametrów (32 kwantowe, 212 klasyczne).
  • A3C (klasyczne): 3332 parametrów.
  • Zysk: QA3C – 11.87%, A3C – 11.42%.
  • Max drawdown: oba 0.92%.
  • Win rate: QA3C 56.7% vs A3C 54.8%.

Podsumowanie

Publikacja pokazuje, że kwantowe sieci neuronowe nie są już tylko teorią, ale mogą poprawić działanie algorytmów inwestycyjnych nawet na klasycznych komputerach (w symulacji).

Najważniejsze wnioski:

Hybrydowe podejście (QLSTM + QA3C) pozwala na stabilniejsze i bardziej efektywne strategie.

Zysk 11.87% w 5 lat przy minimalnym ryzyku jest konkurencyjny wobec ETF-ów walutowych.

Zastosowanie wykracza poza forex – podobne modele mogą pomóc w zarządzaniu portfelem akcji, wycenie instrumentów pochodnych czy analizie ryzyka.

W przyszłości, gdy dostępne będą komputery kwantowe, efekty mogą być jeszcze silniejsze.

👉 Dlatego warto śledzić rozwój quantum machine learning (QML) – bo może okazać się, że już niedługo decyzje inwestycyjne będą podejmowane nie tylko przez AI, ale przez AI korzystającą z mocy kwantowej.


📎 Linki