Wyobraź sobie, że twój komputer nie tylko analizuje wykresy giełdowe, ale też uczy się sam podejmować decyzje inwestycyjne – szybciej i sprytniej niż człowiek. A teraz dodaj do tego odrobinę fizyki kwantowej. Brzmi jak science fiction? A jednak – najnowsze badania pokazują, że połączenie uczenia ze wzmocnieniem (Reinforcement Learning), sieci neuronowych inspirowanych mechaniką kwantową i klasycznych danych finansowych może dać realną przewagę w tradingu.
Właśnie temu poświęcona jest publikacja zespołu z National Taiwan Normal University i Wells Fargo. Naukowcy stworzyli agenta handlowego, który korzysta z kwantowo-wzmocnionych sieci neuronowych, aby handlować parą walutową USD/TWD (dolar tajwański).
Idea w skrócie
Zacznijmy od analogii:
- Handel walutami to trochę jak prowadzenie sklepu: kupujesz taniej, sprzedajesz drożej. Problem w tym, że ceny zmieniają się co sekundę, a przewidzenie, co się stanie jutro, jest niezwykle trudne.
- Sztuczna inteligencja w tradingu to taki superinteligentny doradca, który patrzy na wykresy, uczy się z historii i proponuje: „kup teraz”, „sprzedaj teraz” albo „poczekaj”.
- Uczenie ze wzmocnieniem (RL) przypomina tresurę psa: agent dostaje nagrody za dobre decyzje (zysk) i kary za złe (stratę). Z czasem uczy się podejmować coraz lepsze decyzje.
- Kwantowe sieci neuronowe (QNN, QLSTM) to trochę jak dodatkowe zmysły – pozwalają wychwytywać subtelne wzorce w danych, których zwykły model mógłby nie zauważyć.
W badaniu połączono dwa elementy:
- QLSTM – specjalna sieć przewidująca krótkoterminowy trend (czy w najbliższych 5 dniach cena pójdzie w górę lub w dół o co najmniej 1.2%).
- QA3C – agent handlowy, który decyduje, czy kupić, sprzedać, czy czekać, korzystając z prognoz QLSTM i własnych obliczeń.
Efekt? W ciągu 5 lat testów (2020–2025) agent osiągnął 11.87% zysku przy maksymalnym obsunięciu kapitału tylko 0.92%. To znaczy, że zarabiał małymi krokami, ale bardzo stabilnie – lepiej niż wiele funduszy walutowych.
👉 W praktyce: taki system mógłby być używany np. do automatycznego inwestowania w waluty, akcje czy kryptowaluty, minimalizując ryzyko nagłych dużych strat.
Formalizacja i szczegóły techniczne
1. Architektura
Badacze zastosowali hybrydowe podejście:
- QLSTM (Quantum LSTM) jako ekstraktor cech – wejściem były sekwencje 4 dni danych (open, high, low, close, MA5, MA10). Każdy punkt kodowano w obrotach kwantowych bramek $Ry(\theta)$. Wynik to predykcja binarna („up”/„down”), wykorzystywana dalej jako cecha wejściowa.
- QA3C (Quantum Asynchronous Advantage Actor-Critic) – agent RL z trzema akcjami: hold, buy, sell. Stan obejmował 10 cech (m.in. QLSTM probs, cash ratio, PnL, odchylenia od MA20/MA60). Sieć polityki zawierała warstwę klasyczną + 8-qubitowy VQC.
2. Formalizacja problemu
Prognoza QLSTM
Każdy dzień $t$ ma etykietę:
$$ y_t = \begin{cases} 1 & \text{jeśli } \frac{y(t+5) - y(t)}{y(t)} > 0.012 \\ 0 & \text{jeśli } \frac{y(t+5) - y(t)}{y(t)} < -0.012 \\ \text{brak} & \text{w przeciwnym razie} \end{cases} $$
Trening: RMSprop, learning rate $5 \times 10^{-3}$, 50 epok, weighted cross-entropy. Test accuracy ≈ 71.5%.
QA3C – wybór akcji
Przestrzeń akcji:
$$ A = {0: \text{hold},; 1: \text{buy},; 2: \text{sell all}} $$
Wartość i polityka liczone przez wspólną sieć hybrydową:
$$ \pi_\theta(a|s_t), \quad V_\theta(s_t) $$
Aktualizacja oparta na wieloepizodowych trajektoriach ($n=30$) i funkcji straty:
$$ L = \delta^2 + \left(-\log \pi_\theta(a|s)\right)\delta - \beta H[\pi_\theta(\cdot|s)] $$
gdzie $\delta = R - V_\theta(s)$, a $H$ to entropia dla stabilizacji eksploracji.
3. Funkcja nagrody
Nagroda składa się z:
- kosztu czasu ($ -0.02 $ dziennie),
- nagród/kary za wejście zgodne/niezgodne z trendem,
- nagrody za zyskowne wyjścia: $ +10 + 50 * PnL%} $,
- kary za stratne wyjścia: $ -2 - 10 * PnL% $,
- kary za trzymanie strat: $ -5 * (PnL%)^2 $.
Clipping: $r_t \in [-15, 30]$.
4. Wyniki
- QA3C: 244 parametrów (32 kwantowe, 212 klasyczne).
- A3C (klasyczne): 3332 parametrów.
- Zysk: QA3C – 11.87%, A3C – 11.42%.
- Max drawdown: oba 0.92%.
- Win rate: QA3C 56.7% vs A3C 54.8%.
Podsumowanie
Publikacja pokazuje, że kwantowe sieci neuronowe nie są już tylko teorią, ale mogą poprawić działanie algorytmów inwestycyjnych nawet na klasycznych komputerach (w symulacji).
Najważniejsze wnioski:
Hybrydowe podejście (QLSTM + QA3C) pozwala na stabilniejsze i bardziej efektywne strategie.
Zysk 11.87% w 5 lat przy minimalnym ryzyku jest konkurencyjny wobec ETF-ów walutowych.
Zastosowanie wykracza poza forex – podobne modele mogą pomóc w zarządzaniu portfelem akcji, wycenie instrumentów pochodnych czy analizie ryzyka.
W przyszłości, gdy dostępne będą komputery kwantowe, efekty mogą być jeszcze silniejsze.
👉 Dlatego warto śledzić rozwój quantum machine learning (QML) – bo może okazać się, że już niedługo decyzje inwestycyjne będą podejmowane nie tylko przez AI, ale przez AI korzystającą z mocy kwantowej.
📎 Linki
- Na podstawie publikacji 📄 2509.09176