Wyobraźcie sobie zespół programistów pracujących nad trudnym problemem. W klasycznym podejściu każdy pisze długiego maila z wyjaśnieniem swoich przemyśleń, następna osoba czyta, przetwarza, pisze odpowiedź - i tak w kółko. Teraz wyobraźcie sobie, że zamiast tego mają wspólną mentalną tablicę. Każdy szkicuje myśli w abstrakcyjnej notacji, następna osoba rafinuje, cały szkic przechodzi przez zespół wielokrotnie. Żadnego tłumaczenia na naturalny język i z powrotem. Żadnej utraty informacji.
Dokładnie to proponuje RecursiveMAS - praca “Recursive Multi-Agent Systems” (Yang, Zou, Pan et al., UIUC, Stanford, NVIDIA, MIT, kwiecień 2026). Autorzy traktują cały system wieloagentowy jako jedną rekurencyjną sieć neuronową, gdzie każdy agent jest warstwą w pętli, a komunikacja odbywa się wyłącznie w przestrzeni ukrytej. Efekt? +8.3% średniej dokładności, 2.4x przyspieszenie i 75.6% redukcji tokenów w porównaniu z klasycznymi systemami tekstowymi.
Motywacja: dlaczego tekstowa komunikacja agentów to wąskie gardło
Systemy wieloagentowe (MAS) oparte na dużych modelach językowych zyskały ogromną popularność. Agenty dyskutują, debatują, weryfikują nawzajem swoje odpowiedzi - i często osiągają wyniki lepsze niż pojedynczy model. Ale jest fundamentalny problem, którego większość prac stara się nie zauważać.
Bottleneck informacyjny
Każdy agent musi przetworzyć swoje wewnętrzne reprezentacje (bogate, wielowymiarowe wektory w przestrzeni ukrytej) na tekst - sekwencję tokenów z dyskretnego słownika. To klasyczny bottleneck informacyjny. Konwersja latent $\to$ text wymaga przejścia przez softmax o rozmiarze $O(|V|)$ dla każdego tokena. Przy słowniku rzędu 100k tokenów to ogromna strata informacji przy każdej wymianie wiadomości.
Pomyślcie o tym jak o kompresji stratnej. Agent “wie” coś bogatego i wielowymiarowego, ale musi to sprowadzić do liniowej sekwencji słów. Następny agent czyta te słowa i odbudowuje swoją wewnętrzną reprezentację - ale oryginalna informacja została już zniszczona.
Bottleneck optymalizacyjny
Tekst to bariera niediferencjowalna. Nie da się propagować gradientów przez dyskretne tokeny. Oznacza to, że systemy tekstowe nie mogą być optymalizowane end-to-end. Każdy agent jest trenowany osobno, a ich współpraca jest wynikiem heurystyk promptowych, nie uczenia.
Kluczowa obserwacja autorów: tekst jest nie tylko wolny - on fundamentalnie ogranicza to, czego system wieloagentowy może się nauczyć.
Kluczowy pomysł: MAS jako rekurencyjna sieć neuronowa
RecursiveMAS opiera się na zaskakująco eleganckiej analogii. Zacznijmy od podstaw.
Autoregresyjna generacja w przestrzeni ukrytej
Standardowy LLM generuje tokeny autoregresyjnie. Ale w środku modelu, na poziomie hidden state’ów, dzieje się coś bogatszego:
$$h_{t+1} = f_\theta([E_{\leq t}; h_t]) \tag{1}$$
gdzie:
- $h_t$ - ukryty stan (hidden state) w kroku $t$
- $E_{\leq t}$ - embedding’i wszystkich dotychczasowych tokenów
- $f_\theta$ - transformacja realizowana przez model z parametrami $\theta$
Interpretacja: Każdy krok generacji to aktualizacja bogatej, ciągłej reprezentacji - a tekst to tylko projekcja tej reprezentacji na dyskretny słownik.
Obliczenia rekurencyjne
Niedawne prace (COCONUT, Thinking Tokens) pokazały, że pojedynczy LLM może myśleć rekurencyjnie - zamiast generować kolejne tokeny, model wielokrotnie przetwarza swoje hidden state’y:
$$H^{(0)} = E, \quad H^{(r)} = f_\theta(H^{(r-1)}), \quad r = 1, \ldots, n \tag{2}$$
gdzie:
- $H^{(r)}$ - ukryte stany po $r$-tej iteracji rekurencji
- $E$ - początkowe embedding’i wejścia
- $n$ - liczba iteracji rekurencji
Interpretacja: Model “myśli” wielokrotnie nad tym samym problemem, pogłębiając swoją reprezentację z każdą iteracją, bez generowania pośrednich tokenów.
Od jednego modelu do wielu agentów
I tu pojawia się skok koncepcyjny RecursiveMAS. Jeśli jeden model może myśleć rekurencyjnie, co jeśli każda iteracja rekurencji to inny agent? Cały system wieloagentowy staje się jedną rekurencyjną siecią neuronową, gdzie:
- Każdy agent $S^{(i)}$ to “warstwa” w pętli
- Komunikacja odbywa się przez przekazywanie hidden state’ów
- System przetwarza problem wielokrotnie, pogłębiając rozumienie z każdym przejściem
Żadnego tekstu. Żadnego softmax’a. Żadnej bariery gradientowej.
Architektura: RecursiveLink
Ale jest problem praktyczny. Różne modele mają różne przestrzenie ukryte - różne wymiary, różne rozkłady aktywacji. Nie można po prostu wziąć hidden state’a z jednego modelu i wrzucić go do drugiego.
Rozwiązanie to RecursiveLink - lekki moduł adaptacyjny, który tłumaczy między przestrzeniami ukrytymi agentów. Autorzy wprowadzają dwa warianty.
Inner RecursiveLink
Dla agentów o tej samej wymiarowości hidden state’ów (np. dwa modele 3B z $d_h = 3072$):
$$\mathcal{R}_{\text{in}}(h) = h + W_2 \sigma(W_1 h) \tag{3}$$
gdzie:
- $h$ - hidden state z poprzedniego agenta
- $W_1 \in \mathbb{R}^{d_r \times d_h}$ - macierz projekcji w dół (bottleneck)
- $W_2 \in \mathbb{R}^{d_h \times d_r}$ - macierz projekcji w górę
- $\sigma$ - funkcja aktywacji (GELU)
- $d_r \ll d_h$ - wymiar bottleneck’u (rank)
Interpretacja: To residual adapter - dodaje małą korektę do oryginalnego hidden state’a, ucząc się tłumaczenia między “językami mentalnymi” dwóch modeli przy minimalnym koszcie parametrycznym.
Outer RecursiveLink
Dla agentów o różnej wymiarowości (np. model 1.5B z $d_h = 1536$ i model 7B z $d_h = 3584$):
$$\mathcal{R}_{\text{out}}(h) = W_3 h + W_2 \sigma(W_1 h) \tag{4}$$
gdzie:
- $W_3 \in \mathbb{R}^{d_{h’} \times d_h}$ - liniowa projekcja zmieniająca wymiarowość
- $W_1 \in \mathbb{R}^{d_r \times d_h}$, $W_2 \in \mathbb{R}^{d_{h’} \times d_r}$ - nieliniowa ścieżka adaptacyjna
- $\sigma$ - funkcja aktywacji (GELU)
- $d_h$ - wymiar wejściowy, $d_{h’}$ - wymiar wyjściowy
Interpretacja: Outer RecursiveLink łączy liniową transformację wymiarów z nieliniową adaptacją, pozwalając na komunikację między modelami o całkowicie różnych architekturach.
Skala parametrów
Cały RecursiveLink to zaledwie 0.31% trenowalnych parametrów - ok. 13.12M. Reszta modeli jest zamrożona. To drastycznie mniej niż pełny fine-tuning (Full-SFT), który wymaga trenowania wszystkich parametrów.
Trening: pętla wewnętrzna i zewnętrzna
Trening RecursiveMAS odbywa się w dwóch fazach - inner loop i outer loop - co jest kluczowe dla stabilności.
Inner Loop: wyrównanie przestrzeni ukrytych
Cel wewnętrznej pętli to nauczenie RecursiveLink tłumaczenia między przestrzeniami ukrytymi. Funkcja straty:
$$\mathcal{L}{\text{in}} = 1 - \cos(\mathcal{R}{\text{in}}(H), \text{Emb}_{\theta_i}(y)) \tag{5}$$
gdzie:
- $\mathcal{R}_{\text{in}}(H)$ - hidden state przetransformowany przez RecursiveLink
- $\text{Emb}_{\theta_i}(y)$ - embedding docelowej odpowiedzi w przestrzeni następnego agenta
- $\cos(\cdot, \cdot)$ - podobieństwo kosinusowe
Interpretacja: Minimalizujemy kąt między przetransformowanym hidden state’em a tym, jak następny agent sam zreprezentowałby poprawną odpowiedź. Im bliżej $\cos = 1$, tym lepsze tłumaczenie.
Outer Loop: optymalizacja end-to-end
Po wstępnym wyrównaniu, cały pipeline agentów jest trenowany end-to-end:
$$\mathcal{L}_{\text{out}} = \text{CE}(S^{(n)}(S^{(n-1)}(\cdots S^{(1)}(x))), y) \tag{6}$$
gdzie:
- $S^{(i)}$ - $i$-ty agent w sekwencji
- $x$ - wejście (pytanie/problem)
- $y$ - oczekiwana odpowiedź
- $\text{CE}$ - cross-entropy loss
Interpretacja: Optymalizujemy cały łańcuch agentów jako jedną sieć - gradient przepływa od końcowej odpowiedzi przez wszystkie RecursiveLink’i i agentów do samego początku. To jest niemożliwe w systemach tekstowych.
Dwufazowość ma sens
Inner loop zapewnia sensowną inicjalizację - bez niego outer loop nie miałby dobrego punktu startowego, a gradienty byłyby chaotyczne. Outer loop dopracowuje współpracę end-to-end, optymalizując to, co naprawdę się liczy: jakość finalnej odpowiedzi.
Analiza złożoności: dlaczego to jest szybsze
Autorzy formalizują przewagę w Proposition 3.1.
System tekstowy
$$\Theta\left(N\left(m|V|d_h + md_h^2 + msd_h\right)\right) \tag{7a}$$
RecursiveMAS
$$\Theta\left(N\left(md_h^2 + msd_h\right)\right) \tag{7b}$$
gdzie:
- $N$ - liczba agentów
- $m$ - liczba warstw transformera
- $|V|$ - rozmiar słownika
- $d_h$ - wymiar hidden state’ów
- $s$ - długość sekwencji
Interpretacja: RecursiveMAS eliminuje czynnik $m|V|d_h$ - koszt dekodowania i re-enkodowania tokenów przy każdej wymianie między agentami. Przy $|V| \approx 100\text{k}$ to dominujący składnik złożoności. Stąd 2.4x przyspieszenie w praktyce.
Stabilność gradientów: dlaczego to się w ogóle uczy
Ktoś mógłby zapytać: skoro przepuszczamy gradienty przez wiele agentów, czy nie będą one zanikać lub eksplodować? Autorzy odpowiadają na to w Theorem 4.1.
Gradient w systemie tekstowym
$$\left|\frac{\partial \ell}{\partial H_i^{(L)}}\right| = O(\epsilon) \tag{8a}$$
Gradient z RecursiveLink
$$\left|\frac{\partial \ell}{\partial H_i^{(L)}}\right| \geq \Omega!\left(1 - \sqrt{\frac{\log(1/\delta)}{d_h}}\right) \tag{8b}$$
gdzie:
- $\epsilon$ - mała wartość wynikająca z dyskretyzacji argmax (praktycznie zero)
- $\delta$ - parametr prawdopodobieństwa (pewność twierdzenia)
- $d_h$ - wymiar hidden state’ów
- $H_i^{(L)}$ - hidden state $i$-tego agenta w ostatniej warstwie
Interpretacja: W systemie tekstowym gradient przez barierę argmax praktycznie znika ($O(\epsilon)$). W RecursiveMAS gradient jest ograniczony od dołu przez wartość bliską 1 - rośnie z wymiarem $d_h$. Dla typowych wymiarów ($d_h \geq 1536$) to niemal pełna propagacja gradientu.
To jest fundamentalna różnica. Systemy tekstowe nie mogą się uczyć współpracy end-to-end, bo gradienty nie przepływają. RecursiveMAS może.
Cztery wzorce współpracy
RecursiveMAS nie ogranicza się do jednego schematu komunikacji. Autorzy testują cztery wzorce:
Sequential (sekwencyjny)
Agenty przetwarzają problem po kolei - wyjście jednego to wejście następnego. Klasyczny pipeline. Odpowiednik łańcucha myśli, ale z różnymi modelami.
Mixture (mieszanka)
Kilka agentów przetwarza ten sam problem równolegle, a wyniki są agregowane. Odpowiednik Mixture-of-Agents, ale w przestrzeni ukrytej zamiast tekstowej.
Distillation (destylacja)
Silniejszy model “uczy” słabszy przez hidden state’y. Zamiast generować dane treningowe, przekazuje wiedzę bezpośrednio w przestrzeni ukrytej.
Deliberation (deliberacja)
Agenty wielokrotnie wymieniają się hidden state’ami w pętli - odpowiednik debaty, ale bez tekstu. Najbardziej ekspresywny wzorzec, ale najdroższy obliczeniowo.
Wyniki: twarde liczby
Przejdźmy do tego, co najważniejsze - jak RecursiveMAS wypada na benchmarkach.
Główne wyniki (Sequential, 3 agenty, r=3)
| Benchmark | RecursiveMAS | Najlepszy baseline tekstowy | Różnica |
|---|---|---|---|
| MATH500 | 88.0% | 81.4% | +6.6 |
| AIME2025 | 86.7% | 73.3% | +13.4 |
| GPQA-D | 66.2% | 56.6% | +9.6 |
| LiveCodeBench | 42.9% | 38.2% | +4.7 |
| MedQA | 79.3% | 76.1% | +3.2 |
Średni zysk: +8.3% dokładności. Na AIME2025 (najtrudniejszym benchmarku matematycznym) zysk to aż +13.4 punktów procentowych.
Efektywność
- 2.4x przyspieszenie w porównaniu z systemami tekstowymi
- 75.6% redukcji tokenów przy $r=3$ (trzy iteracje rekurencji)
- Generowany tekst pośredni: zero - agenty nigdy nie produkują tokenów między sobą
Koszt treningu
| Metoda | Pamięć GPU | Koszt ($) |
|---|---|---|
| RecursiveMAS | 15.29 GB | $4.27 |
| Full-SFT | 41.40 GB | $9.67 |
RecursiveMAS jest 2.7x tańszy w pamięci i 2.3x tańszy w dolarach niż pełny fine-tuning. To dlatego, że trenujemy tylko 0.31% parametrów (moduły RecursiveLink), a reszta jest zamrożona.
Heterogeniczne zespoły
Jednym z najciekawszych wyników jest to, że RecursiveMAS działa z mieszankami różnych modeli. Zespoły Qwen2.5-3B + Llama-3.2-3B czy Qwen2.5-1.5B + Qwen2.5-7B osiągają lepsze wyniki niż homogeniczne konfiguracje. Outer RecursiveLink skutecznie tłumaczy między przestrzeniami ukrytymi modeli o różnych architekturach i wymiarowościach.
Dlaczego to działa - intuicja
Wróćmy do analogii z zespołem programistów. Są trzy powody, dla których wspólna tablica działa lepiej niż maile:
1. Brak straty informacji. Hidden state’y to bogate, ciągłe wektory. Tekst to dyskretna, kompresyjna reprezentacja. Przekazując hidden state’y, agenty dzielą się pełnią swojej “wiedzy” - nie tylko tym, co da się wyrazić słowami.
2. End-to-end optymalizacja. Cały zespół uczy się współpracować jako jeden system. Gradient mówi każdemu agentowi: “gdybyś zmienił swoją odpowiedź w ten sposób, końcowy wynik byłby lepszy”. W systemach tekstowych każdy agent jest samotną wyspą.
3. Eliminacja redundancji. Systemy tekstowe muszą dekodować hidden state $\to$ tokeny $\to$ re-enkodować tokeny $\to$ hidden state. To podwójne przejście przez softmax o rozmiarze $|V|$ przy każdej wymianie. RecursiveMAS to pomija - stąd 75.6% mniej tokenów i 2.4x przyspieszenie.
Ograniczenia
Trzeba uczciwie powiedzieć, czego RecursiveMAS nie robi:
- Skala modeli. Wszystkie eksperymenty dotyczą modeli <10B parametrów. Jak RecursiveLink zachowa się przy modelach 70B czy 405B? Nie wiemy.
- Dostęp do internali. Metoda wymaga dostępu do hidden state’ów modeli - nie zadziała z zamkniętymi API (GPT-4, Claude). To ogranicza zastosowanie do modeli open-source.
- Labeled data. Trening wymaga par (pytanie, odpowiedź). Dla zadań open-ended (kreatywne pisanie, brainstorming) nie ma jasnego sygnału nadzoru.
- Brak ewaluacji otwartej generacji. Wszystkie benchmarki to zadania z jednoznaczną odpowiedzią. Jak RecursiveMAS radzi sobie z generowaniem dłuższych tekstów, dialogów czy kodu? To pytanie otwarte.
- Skalowanie liczby agentów. Eksperymenty obejmują 2-4 agentów. Zachowanie przy 10+ agentach nie jest badane.
Podsumowanie
RecursiveMAS to konceptualnie piękna praca, która zmienia sposób myślenia o systemach wieloagentowych. Zamiast traktować agentów jako niezależne byty wymieniające się tekstem, proponuje patrzenie na cały system jako na jedną rekurencyjną sieć neuronową.
Kluczowe wnioski:
- Komunikacja w przestrzeni ukrytej eliminuje bottleneck informacyjny i optymalizacyjny tekstowych MAS
- RecursiveLink (0.31% parametrów) skutecznie tłumaczy między przestrzeniami ukrytymi różnych modeli
- Inner-outer loop training zapewnia stabilną optymalizację end-to-end
- +8.3% dokładności, 2.4x przyspieszenie, 75.6% redukcji tokenów - konkretne, mierzalne zyski
- Działa z heterogenicznymi zespołami modeli o różnych architekturach
Największe ograniczenie? Wymóg dostępu do hidden state’ów modeli. W świecie, gdzie wiele najsilniejszych modeli jest zamkniętych za API, to istotna bariera. Ale dla ekosystemu open-source - a ten rośnie szybko - RecursiveMAS otwiera fascynujący kierunek: nie uczmy agentów lepiej rozmawiać, uczmy je lepiej myśleć razem.
Źródła i materiały:
📄 Yang, X., Zou, J., Pan, R. et al. “Recursive Multi-Agent Systems” (2026). arXiv:2604.25917
📄 Strona projektu: recursivemas.github.io