Rekurencyjne systemy wieloagentowe: jak LLM-y uczą się współpracować w przestrzeni ukrytej

Wyobraźcie sobie zespół programistów pracujących nad trudnym problemem. W klasycznym podejściu każdy pisze długiego maila z wyjaśnieniem swoich przemyśleń, następna osoba czyta, przetwarza, pisze odpowiedź - i tak w kółko. Teraz wyobraźcie sobie, że zamiast tego mają wspólną mentalną tablicę. Każdy szkicuje myśli w abstrakcyjnej notacji, następna osoba rafinuje, cały szkic przechodzi przez zespół wielokrotnie. Żadnego tłumaczenia na naturalny język i z powrotem. Żadnej utraty informacji.

Dokładnie to proponuje RecursiveMAS - praca “Recursive Multi-Agent Systems” (Yang, Zou, Pan et al., UIUC, Stanford, NVIDIA, MIT, kwiecień 2026). Autorzy traktują cały system wieloagentowy jako jedną rekurencyjną sieć neuronową, gdzie każdy agent jest warstwą w pętli, a komunikacja odbywa się wyłącznie w przestrzeni ukrytej. Efekt? +8.3% średniej dokładności, 2.4x przyspieszenie i 75.6% redukcji tokenów w porównaniu z klasycznymi systemami tekstowymi.

Motywacja: dlaczego tekstowa komunikacja agentów to wąskie gardło

Systemy wieloagentowe (MAS) oparte na dużych modelach językowych zyskały ogromną popularność. Agenty dyskutują, debatują, weryfikują nawzajem swoje odpowiedzi - i często osiągają wyniki lepsze niż pojedynczy model. Ale jest fundamentalny problem, którego większość prac stara się nie zauważać.

Bottleneck informacyjny

Każdy agent musi przetworzyć swoje wewnętrzne reprezentacje (bogate, wielowymiarowe wektory w przestrzeni ukrytej) na tekst - sekwencję tokenów z dyskretnego słownika. To klasyczny bottleneck informacyjny. Konwersja latent $\to$ text wymaga przejścia przez softmax o rozmiarze $O(|V|)$ dla każdego tokena. Przy słowniku rzędu 100k tokenów to ogromna strata informacji przy każdej wymianie wiadomości.

Pomyślcie o tym jak o kompresji stratnej. Agent “wie” coś bogatego i wielowymiarowego, ale musi to sprowadzić do liniowej sekwencji słów. Następny agent czyta te słowa i odbudowuje swoją wewnętrzną reprezentację - ale oryginalna informacja została już zniszczona.

Bottleneck optymalizacyjny

Tekst to bariera niediferencjowalna. Nie da się propagować gradientów przez dyskretne tokeny. Oznacza to, że systemy tekstowe nie mogą być optymalizowane end-to-end. Każdy agent jest trenowany osobno, a ich współpraca jest wynikiem heurystyk promptowych, nie uczenia.

Kluczowa obserwacja autorów: tekst jest nie tylko wolny - on fundamentalnie ogranicza to, czego system wieloagentowy może się nauczyć.

Kluczowy pomysł: MAS jako rekurencyjna sieć neuronowa

RecursiveMAS opiera się na zaskakująco eleganckiej analogii. Zacznijmy od podstaw.

Autoregresyjna generacja w przestrzeni ukrytej

Standardowy LLM generuje tokeny autoregresyjnie. Ale w środku modelu, na poziomie hidden state’ów, dzieje się coś bogatszego:

$$h_{t+1} = f_\theta([E_{\leq t}; h_t]) \tag{1}$$

gdzie:

$h_t$ - ukryty stan (hidden state) w kroku $t$
$E_{\leq t}$ - embedding’i wszystkich dotychczasowych tokenów
$f_\theta$ - transformacja realizowana przez model z parametrami $\theta$

Interpretacja: Każdy krok generacji to aktualizacja bogatej, ciągłej reprezentacji - a tekst to tylko projekcja tej reprezentacji na dyskretny słownik.

Obliczenia rekurencyjne

Niedawne prace (COCONUT, Thinking Tokens) pokazały, że pojedynczy LLM może myśleć rekurencyjnie - zamiast generować kolejne tokeny, model wielokrotnie przetwarza swoje hidden state’y:

$$H^{(0)} = E, \quad H^{(r)} = f_\theta(H^{(r-1)}), \quad r = 1, \ldots, n \tag{2}$$

gdzie:

$H^{(r)}$ - ukryte stany po $r$-tej iteracji rekurencji
$E$ - początkowe embedding’i wejścia
$n$ - liczba iteracji rekurencji

Interpretacja: Model “myśli” wielokrotnie nad tym samym problemem, pogłębiając swoją reprezentację z każdą iteracją, bez generowania pośrednich tokenów.

Od jednego modelu do wielu agentów

I tu pojawia się skok koncepcyjny RecursiveMAS. Jeśli jeden model może myśleć rekurencyjnie, co jeśli każda iteracja rekurencji to inny agent? Cały system wieloagentowy staje się jedną rekurencyjną siecią neuronową, gdzie:

Każdy agent $S^{(i)}$ to “warstwa” w pętli
Komunikacja odbywa się przez przekazywanie hidden state’ów
System przetwarza problem wielokrotnie, pogłębiając rozumienie z każdym przejściem

Żadnego tekstu. Żadnego softmax’a. Żadnej bariery gradientowej.

Architektura: RecursiveLink

Ale jest problem praktyczny. Różne modele mają różne przestrzenie ukryte - różne wymiary, różne rozkłady aktywacji. Nie można po prostu wziąć hidden state’a z jednego modelu i wrzucić go do drugiego.

Rozwiązanie to RecursiveLink - lekki moduł adaptacyjny, który tłumaczy między przestrzeniami ukrytymi agentów. Autorzy wprowadzają dwa warianty.

Inner RecursiveLink

Dla agentów o tej samej wymiarowości hidden state’ów (np. dwa modele 3B z $d_h = 3072$):

$$\mathcal{R}_{\text{in}}(h) = h + W_2 \sigma(W_1 h) \tag{3}$$

gdzie:

$h$ - hidden state z poprzedniego agenta
$W_1 \in \mathbb{R}^{d_r \times d_h}$ - macierz projekcji w dół (bottleneck)
$W_2 \in \mathbb{R}^{d_h \times d_r}$ - macierz projekcji w górę
$\sigma$ - funkcja aktywacji (GELU)
$d_r \ll d_h$ - wymiar bottleneck’u (rank)

Interpretacja: To residual adapter - dodaje małą korektę do oryginalnego hidden state’a, ucząc się tłumaczenia między “językami mentalnymi” dwóch modeli przy minimalnym koszcie parametrycznym.

Outer RecursiveLink

Dla agentów o różnej wymiarowości (np. model 1.5B z $d_h = 1536$ i model 7B z $d_h = 3584$):

$$\mathcal{R}_{\text{out}}(h) = W_3 h + W_2 \sigma(W_1 h) \tag{4}$$

gdzie:

$W_3 \in \mathbb{R}^{d_{h'} \times d_h}$ - liniowa projekcja zmieniająca wymiarowość
$W_1 \in \mathbb{R}^{d_r \times d_h}$, $W_2 \in \mathbb{R}^{d_{h'} \times d_r}$ - nieliniowa ścieżka adaptacyjna
$\sigma$ - funkcja aktywacji (GELU)
$d_h$ - wymiar wejściowy, $d_{h'}$ - wymiar wyjściowy

Interpretacja: Outer RecursiveLink łączy liniową transformację wymiarów z nieliniową adaptacją, pozwalając na komunikację między modelami o całkowicie różnych architekturach.

Skala parametrów

Cały RecursiveLink to zaledwie 0.31% trenowalnych parametrów - ok. 13.12M. Reszta modeli jest zamrożona. To drastycznie mniej niż pełny fine-tuning (Full-SFT), który wymaga trenowania wszystkich parametrów.

Trening: pętla wewnętrzna i zewnętrzna

Trening RecursiveMAS odbywa się w dwóch fazach - inner loop i outer loop - co jest kluczowe dla stabilności.

Inner Loop: wyrównanie przestrzeni ukrytych

Cel wewnętrznej pętli to nauczenie RecursiveLink tłumaczenia między przestrzeniami ukrytymi. Funkcja straty:

$$\mathcal{L}_{\text{in}} = 1 - \cos(\mathcal{R}_{\text{in}}(H), \text{Emb}_{\theta_i}(y)) \tag{5}$$

gdzie:

$\mathcal{R}_{\text{in}}(H)$ - hidden state przetransformowany przez RecursiveLink
$\text{Emb}_{\theta_i}(y)$ - embedding docelowej odpowiedzi w przestrzeni następnego agenta
$\cos(\cdot, \cdot)$ - podobieństwo kosinusowe

Interpretacja: Minimalizujemy kąt między przetransformowanym hidden state’em a tym, jak następny agent sam zreprezentowałby poprawną odpowiedź. Im bliżej $\cos = 1$, tym lepsze tłumaczenie.

Outer Loop: optymalizacja end-to-end

Po wstępnym wyrównaniu, cały pipeline agentów jest trenowany end-to-end:

$$\mathcal{L}_{\text{out}} = \text{CE}(S^{(n)}(S^{(n-1)}(\cdots S^{(1)}(x))), y) \tag{6}$$

gdzie:

$S^{(i)}$ - $i$-ty agent w sekwencji
$x$ - wejście (pytanie/problem)
$y$ - oczekiwana odpowiedź
$\text{CE}$ - cross-entropy loss

Interpretacja: Optymalizujemy cały łańcuch agentów jako jedną sieć - gradient przepływa od końcowej odpowiedzi przez wszystkie RecursiveLink’i i agentów do samego początku. To jest niemożliwe w systemach tekstowych.

Dwufazowość ma sens

Inner loop zapewnia sensowną inicjalizację - bez niego outer loop nie miałby dobrego punktu startowego, a gradienty byłyby chaotyczne. Outer loop dopracowuje współpracę end-to-end, optymalizując to, co naprawdę się liczy: jakość finalnej odpowiedzi.

Analiza złożoności: dlaczego to jest szybsze

Autorzy formalizują przewagę w Proposition 3.1.

System tekstowy

$$\Theta\left(N\left(m|V|d_h + md_h^2 + msd_h\right)\right) \tag{7a}$$

RecursiveMAS

$$\Theta\left(N\left(md_h^2 + msd_h\right)\right) \tag{7b}$$

gdzie:

$N$ - liczba agentów
$m$ - liczba warstw transformera
$|V|$ - rozmiar słownika
$d_h$ - wymiar hidden state’ów
$s$ - długość sekwencji

Interpretacja: RecursiveMAS eliminuje czynnik $m|V|d_h$ - koszt dekodowania i re-enkodowania tokenów przy każdej wymianie między agentami. Przy $|V| \approx 100\text{k}$ to dominujący składnik złożoności. Stąd 2.4x przyspieszenie w praktyce.

Stabilność gradientów: dlaczego to się w ogóle uczy

Ktoś mógłby zapytać: skoro przepuszczamy gradienty przez wiele agentów, czy nie będą one zanikać lub eksplodować? Autorzy odpowiadają na to w Theorem 4.1.

Gradient w systemie tekstowym

$$\left\|\frac{\partial \ell}{\partial H_i^{(L)}}\right\| = O(\epsilon) \tag{8a}$$

Gradient z RecursiveLink

$$\left\|\frac{\partial \ell}{\partial H_i^{(L)}}\right\| \geq \Omega\!\left(1 - \sqrt{\frac{\log(1/\delta)}{d_h}}\right) \tag{8b}$$

gdzie:

$\epsilon$ - mała wartość wynikająca z dyskretyzacji argmax (praktycznie zero)
$\delta$ - parametr prawdopodobieństwa (pewność twierdzenia)
$d_h$ - wymiar hidden state’ów
$H_i^{(L)}$ - hidden state $i$-tego agenta w ostatniej warstwie

Interpretacja: W systemie tekstowym gradient przez barierę argmax praktycznie znika ($O(\epsilon)$). W RecursiveMAS gradient jest ograniczony od dołu przez wartość bliską 1 - rośnie z wymiarem $d_h$. Dla typowych wymiarów ($d_h \geq 1536$) to niemal pełna propagacja gradientu.

To jest fundamentalna różnica. Systemy tekstowe nie mogą się uczyć współpracy end-to-end, bo gradienty nie przepływają. RecursiveMAS może.

Cztery wzorce współpracy

RecursiveMAS nie ogranicza się do jednego schematu komunikacji. Autorzy testują cztery wzorce:

Sequential (sekwencyjny)

Agenty przetwarzają problem po kolei - wyjście jednego to wejście następnego. Klasyczny pipeline. Odpowiednik łańcucha myśli, ale z różnymi modelami.

Mixture (mieszanka)

Kilka agentów przetwarza ten sam problem równolegle, a wyniki są agregowane. Odpowiednik Mixture-of-Agents, ale w przestrzeni ukrytej zamiast tekstowej.

Distillation (destylacja)

Silniejszy model “uczy” słabszy przez hidden state’y. Zamiast generować dane treningowe, przekazuje wiedzę bezpośrednio w przestrzeni ukrytej.

Deliberation (deliberacja)

Agenty wielokrotnie wymieniają się hidden state’ami w pętli - odpowiednik debaty, ale bez tekstu. Najbardziej ekspresywny wzorzec, ale najdroższy obliczeniowo.

Wyniki: twarde liczby

Przejdźmy do tego, co najważniejsze - jak RecursiveMAS wypada na benchmarkach.

Główne wyniki (Sequential, 3 agenty, r=3)

Benchmark	RecursiveMAS	Najlepszy baseline tekstowy	Różnica
MATH500	88.0%	81.4%	+6.6
AIME2025	86.7%	73.3%	+13.4
GPQA-D	66.2%	56.6%	+9.6
LiveCodeBench	42.9%	38.2%	+4.7
MedQA	79.3%	76.1%	+3.2

Średni zysk: +8.3% dokładności. Na AIME2025 (najtrudniejszym benchmarku matematycznym) zysk to aż +13.4 punktów procentowych.

Efektywność

2.4x przyspieszenie w porównaniu z systemami tekstowymi
75.6% redukcji tokenów przy $r=3$ (trzy iteracje rekurencji)
Generowany tekst pośredni: zero - agenty nigdy nie produkują tokenów między sobą

Koszt treningu

Metoda	Pamięć GPU	Koszt ($)
RecursiveMAS	15.29 GB	$4.27
Full-SFT	41.40 GB	$9.67

RecursiveMAS jest 2.7x tańszy w pamięci i 2.3x tańszy w dolarach niż pełny fine-tuning. To dlatego, że trenujemy tylko 0.31% parametrów (moduły RecursiveLink), a reszta jest zamrożona.

Heterogeniczne zespoły

Jednym z najciekawszych wyników jest to, że RecursiveMAS działa z mieszankami różnych modeli. Zespoły Qwen2.5-3B + Llama-3.2-3B czy Qwen2.5-1.5B + Qwen2.5-7B osiągają lepsze wyniki niż homogeniczne konfiguracje. Outer RecursiveLink skutecznie tłumaczy między przestrzeniami ukrytymi modeli o różnych architekturach i wymiarowościach.

Dlaczego to działa - intuicja

Wróćmy do analogii z zespołem programistów. Są trzy powody, dla których wspólna tablica działa lepiej niż maile:

1. Brak straty informacji. Hidden state’y to bogate, ciągłe wektory. Tekst to dyskretna, kompresyjna reprezentacja. Przekazując hidden state’y, agenty dzielą się pełnią swojej “wiedzy” - nie tylko tym, co da się wyrazić słowami.

2. End-to-end optymalizacja. Cały zespół uczy się współpracować jako jeden system. Gradient mówi każdemu agentowi: “gdybyś zmienił swoją odpowiedź w ten sposób, końcowy wynik byłby lepszy”. W systemach tekstowych każdy agent jest samotną wyspą.

3. Eliminacja redundancji. Systemy tekstowe muszą dekodować hidden state $\to$ tokeny $\to$ re-enkodować tokeny $\to$ hidden state. To podwójne przejście przez softmax o rozmiarze $|V|$ przy każdej wymianie. RecursiveMAS to pomija - stąd 75.6% mniej tokenów i 2.4x przyspieszenie.

Ograniczenia

Trzeba uczciwie powiedzieć, czego RecursiveMAS nie robi:

Skala modeli. Wszystkie eksperymenty dotyczą modeli <10B parametrów. Jak RecursiveLink zachowa się przy modelach 70B czy 405B? Nie wiemy.
Dostęp do internali. Metoda wymaga dostępu do hidden state’ów modeli - nie zadziała z zamkniętymi API (GPT-4, Claude). To ogranicza zastosowanie do modeli open-source.
Labeled data. Trening wymaga par (pytanie, odpowiedź). Dla zadań open-ended (kreatywne pisanie, brainstorming) nie ma jasnego sygnału nadzoru.
Brak ewaluacji otwartej generacji. Wszystkie benchmarki to zadania z jednoznaczną odpowiedzią. Jak RecursiveMAS radzi sobie z generowaniem dłuższych tekstów, dialogów czy kodu? To pytanie otwarte.
Skalowanie liczby agentów. Eksperymenty obejmują 2-4 agentów. Zachowanie przy 10+ agentach nie jest badane.

Podsumowanie

RecursiveMAS to konceptualnie piękna praca, która zmienia sposób myślenia o systemach wieloagentowych. Zamiast traktować agentów jako niezależne byty wymieniające się tekstem, proponuje patrzenie na cały system jako na jedną rekurencyjną sieć neuronową.

Kluczowe wnioski:

Komunikacja w przestrzeni ukrytej eliminuje bottleneck informacyjny i optymalizacyjny tekstowych MAS
RecursiveLink (0.31% parametrów) skutecznie tłumaczy między przestrzeniami ukrytymi różnych modeli
Inner-outer loop training zapewnia stabilną optymalizację end-to-end
+8.3% dokładności, 2.4x przyspieszenie, 75.6% redukcji tokenów - konkretne, mierzalne zyski
Działa z heterogenicznymi zespołami modeli o różnych architekturach

Największe ograniczenie? Wymóg dostępu do hidden state’ów modeli. W świecie, gdzie wiele najsilniejszych modeli jest zamkniętych za API, to istotna bariera. Ale dla ekosystemu open-source - a ten rośnie szybko - RecursiveMAS otwiera fascynujący kierunek: nie uczmy agentów lepiej rozmawiać, uczmy je lepiej myśleć razem.

Źródła i materiały:

📄 Yang, X., Zou, J., Pan, R. et al. “Recursive Multi-Agent Systems” (2026). arXiv:2604.25917

📄 Strona projektu: recursivemas.github.io

Motywacja: dlaczego tekstowa komunikacja agentów to wąskie gardło#

Bottleneck informacyjny#

Bottleneck optymalizacyjny#

Kluczowy pomysł: MAS jako rekurencyjna sieć neuronowa#

Autoregresyjna generacja w przestrzeni ukrytej#

Obliczenia rekurencyjne#

Od jednego modelu do wielu agentów#

Architektura: RecursiveLink#

Inner RecursiveLink#

Outer RecursiveLink#

Skala parametrów#

Trening: pętla wewnętrzna i zewnętrzna#

Inner Loop: wyrównanie przestrzeni ukrytych#

Outer Loop: optymalizacja end-to-end#

Dwufazowość ma sens#

Analiza złożoności: dlaczego to jest szybsze#

System tekstowy#

RecursiveMAS#

Stabilność gradientów: dlaczego to się w ogóle uczy#

Gradient w systemie tekstowym#

Gradient z RecursiveLink#

Cztery wzorce współpracy#

Sequential (sekwencyjny)#

Mixture (mieszanka)#

Distillation (destylacja)#

Deliberation (deliberacja)#

Wyniki: twarde liczby#

Główne wyniki (Sequential, 3 agenty, r=3)#

Efektywność#

Koszt treningu#

Heterogeniczne zespoły#

Dlaczego to działa - intuicja#

Ograniczenia#

Podsumowanie#

Motywacja: dlaczego tekstowa komunikacja agentów to wąskie gardło

Bottleneck informacyjny

Bottleneck optymalizacyjny

Kluczowy pomysł: MAS jako rekurencyjna sieć neuronowa

Autoregresyjna generacja w przestrzeni ukrytej

Obliczenia rekurencyjne

Od jednego modelu do wielu agentów

Architektura: RecursiveLink

Inner RecursiveLink

Outer RecursiveLink

Skala parametrów

Trening: pętla wewnętrzna i zewnętrzna

Inner Loop: wyrównanie przestrzeni ukrytych

Outer Loop: optymalizacja end-to-end

Dwufazowość ma sens

Analiza złożoności: dlaczego to jest szybsze

System tekstowy

RecursiveMAS

Stabilność gradientów: dlaczego to się w ogóle uczy

Gradient w systemie tekstowym

Gradient z RecursiveLink

Cztery wzorce współpracy

Sequential (sekwencyjny)

Mixture (mieszanka)

Distillation (destylacja)

Deliberation (deliberacja)

Wyniki: twarde liczby

Główne wyniki (Sequential, 3 agenty, r=3)

Efektywność

Koszt treningu

Heterogeniczne zespoły

Dlaczego to działa - intuicja

Ograniczenia

Podsumowanie