Wyobraźcie sobie zespół programistów pracujących nad trudnym problemem. W klasycznym podejściu każdy pisze długiego maila z wyjaśnieniem swoich przemyśleń, następna osoba czyta, przetwarza, pisze odpowiedź - i tak w kółko. Teraz wyobraźcie sobie, że zamiast tego mają wspólną mentalną tablicę. Każdy szkicuje myśli w abstrakcyjnej notacji, następna osoba rafinuje, cały szkic przechodzi przez zespół wielokrotnie. Żadnego tłumaczenia na naturalny język i z powrotem. Żadnej utraty informacji.

Dokładnie to proponuje RecursiveMAS - praca “Recursive Multi-Agent Systems” (Yang, Zou, Pan et al., UIUC, Stanford, NVIDIA, MIT, kwiecień 2026). Autorzy traktują cały system wieloagentowy jako jedną rekurencyjną sieć neuronową, gdzie każdy agent jest warstwą w pętli, a komunikacja odbywa się wyłącznie w przestrzeni ukrytej. Efekt? +8.3% średniej dokładności, 2.4x przyspieszenie i 75.6% redukcji tokenów w porównaniu z klasycznymi systemami tekstowymi.


Motywacja: dlaczego tekstowa komunikacja agentów to wąskie gardło

Systemy wieloagentowe (MAS) oparte na dużych modelach językowych zyskały ogromną popularność. Agenty dyskutują, debatują, weryfikują nawzajem swoje odpowiedzi - i często osiągają wyniki lepsze niż pojedynczy model. Ale jest fundamentalny problem, którego większość prac stara się nie zauważać.

Bottleneck informacyjny

Każdy agent musi przetworzyć swoje wewnętrzne reprezentacje (bogate, wielowymiarowe wektory w przestrzeni ukrytej) na tekst - sekwencję tokenów z dyskretnego słownika. To klasyczny bottleneck informacyjny. Konwersja latent $\to$ text wymaga przejścia przez softmax o rozmiarze $O(|V|)$ dla każdego tokena. Przy słowniku rzędu 100k tokenów to ogromna strata informacji przy każdej wymianie wiadomości.

Pomyślcie o tym jak o kompresji stratnej. Agent “wie” coś bogatego i wielowymiarowego, ale musi to sprowadzić do liniowej sekwencji słów. Następny agent czyta te słowa i odbudowuje swoją wewnętrzną reprezentację - ale oryginalna informacja została już zniszczona.

Bottleneck optymalizacyjny

Tekst to bariera niediferencjowalna. Nie da się propagować gradientów przez dyskretne tokeny. Oznacza to, że systemy tekstowe nie mogą być optymalizowane end-to-end. Każdy agent jest trenowany osobno, a ich współpraca jest wynikiem heurystyk promptowych, nie uczenia.

Kluczowa obserwacja autorów: tekst jest nie tylko wolny - on fundamentalnie ogranicza to, czego system wieloagentowy może się nauczyć.


Kluczowy pomysł: MAS jako rekurencyjna sieć neuronowa

RecursiveMAS opiera się na zaskakująco eleganckiej analogii. Zacznijmy od podstaw.

Autoregresyjna generacja w przestrzeni ukrytej

Standardowy LLM generuje tokeny autoregresyjnie. Ale w środku modelu, na poziomie hidden state’ów, dzieje się coś bogatszego:

$$h_{t+1} = f_\theta([E_{\leq t}; h_t]) \tag{1}$$

gdzie:

  • $h_t$ - ukryty stan (hidden state) w kroku $t$
  • $E_{\leq t}$ - embedding’i wszystkich dotychczasowych tokenów
  • $f_\theta$ - transformacja realizowana przez model z parametrami $\theta$

Interpretacja: Każdy krok generacji to aktualizacja bogatej, ciągłej reprezentacji - a tekst to tylko projekcja tej reprezentacji na dyskretny słownik.

Obliczenia rekurencyjne

Niedawne prace (COCONUT, Thinking Tokens) pokazały, że pojedynczy LLM może myśleć rekurencyjnie - zamiast generować kolejne tokeny, model wielokrotnie przetwarza swoje hidden state’y:

$$H^{(0)} = E, \quad H^{(r)} = f_\theta(H^{(r-1)}), \quad r = 1, \ldots, n \tag{2}$$

gdzie:

  • $H^{(r)}$ - ukryte stany po $r$-tej iteracji rekurencji
  • $E$ - początkowe embedding’i wejścia
  • $n$ - liczba iteracji rekurencji

Interpretacja: Model “myśli” wielokrotnie nad tym samym problemem, pogłębiając swoją reprezentację z każdą iteracją, bez generowania pośrednich tokenów.

Od jednego modelu do wielu agentów

I tu pojawia się skok koncepcyjny RecursiveMAS. Jeśli jeden model może myśleć rekurencyjnie, co jeśli każda iteracja rekurencji to inny agent? Cały system wieloagentowy staje się jedną rekurencyjną siecią neuronową, gdzie:

  • Każdy agent $S^{(i)}$ to “warstwa” w pętli
  • Komunikacja odbywa się przez przekazywanie hidden state’ów
  • System przetwarza problem wielokrotnie, pogłębiając rozumienie z każdym przejściem

Żadnego tekstu. Żadnego softmax’a. Żadnej bariery gradientowej.


Ale jest problem praktyczny. Różne modele mają różne przestrzenie ukryte - różne wymiary, różne rozkłady aktywacji. Nie można po prostu wziąć hidden state’a z jednego modelu i wrzucić go do drugiego.

Rozwiązanie to RecursiveLink - lekki moduł adaptacyjny, który tłumaczy między przestrzeniami ukrytymi agentów. Autorzy wprowadzają dwa warianty.

Dla agentów o tej samej wymiarowości hidden state’ów (np. dwa modele 3B z $d_h = 3072$):

$$\mathcal{R}_{\text{in}}(h) = h + W_2 \sigma(W_1 h) \tag{3}$$

gdzie:

  • $h$ - hidden state z poprzedniego agenta
  • $W_1 \in \mathbb{R}^{d_r \times d_h}$ - macierz projekcji w dół (bottleneck)
  • $W_2 \in \mathbb{R}^{d_h \times d_r}$ - macierz projekcji w górę
  • $\sigma$ - funkcja aktywacji (GELU)
  • $d_r \ll d_h$ - wymiar bottleneck’u (rank)

Interpretacja: To residual adapter - dodaje małą korektę do oryginalnego hidden state’a, ucząc się tłumaczenia między “językami mentalnymi” dwóch modeli przy minimalnym koszcie parametrycznym.

Dla agentów o różnej wymiarowości (np. model 1.5B z $d_h = 1536$ i model 7B z $d_h = 3584$):

$$\mathcal{R}_{\text{out}}(h) = W_3 h + W_2 \sigma(W_1 h) \tag{4}$$

gdzie:

  • $W_3 \in \mathbb{R}^{d_{h’} \times d_h}$ - liniowa projekcja zmieniająca wymiarowość
  • $W_1 \in \mathbb{R}^{d_r \times d_h}$, $W_2 \in \mathbb{R}^{d_{h’} \times d_r}$ - nieliniowa ścieżka adaptacyjna
  • $\sigma$ - funkcja aktywacji (GELU)
  • $d_h$ - wymiar wejściowy, $d_{h’}$ - wymiar wyjściowy

Interpretacja: Outer RecursiveLink łączy liniową transformację wymiarów z nieliniową adaptacją, pozwalając na komunikację między modelami o całkowicie różnych architekturach.

Skala parametrów

Cały RecursiveLink to zaledwie 0.31% trenowalnych parametrów - ok. 13.12M. Reszta modeli jest zamrożona. To drastycznie mniej niż pełny fine-tuning (Full-SFT), który wymaga trenowania wszystkich parametrów.


Trening: pętla wewnętrzna i zewnętrzna

Trening RecursiveMAS odbywa się w dwóch fazach - inner loop i outer loop - co jest kluczowe dla stabilności.

Inner Loop: wyrównanie przestrzeni ukrytych

Cel wewnętrznej pętli to nauczenie RecursiveLink tłumaczenia między przestrzeniami ukrytymi. Funkcja straty:

$$\mathcal{L}{\text{in}} = 1 - \cos(\mathcal{R}{\text{in}}(H), \text{Emb}_{\theta_i}(y)) \tag{5}$$

gdzie:

  • $\mathcal{R}_{\text{in}}(H)$ - hidden state przetransformowany przez RecursiveLink
  • $\text{Emb}_{\theta_i}(y)$ - embedding docelowej odpowiedzi w przestrzeni następnego agenta
  • $\cos(\cdot, \cdot)$ - podobieństwo kosinusowe

Interpretacja: Minimalizujemy kąt między przetransformowanym hidden state’em a tym, jak następny agent sam zreprezentowałby poprawną odpowiedź. Im bliżej $\cos = 1$, tym lepsze tłumaczenie.

Outer Loop: optymalizacja end-to-end

Po wstępnym wyrównaniu, cały pipeline agentów jest trenowany end-to-end:

$$\mathcal{L}_{\text{out}} = \text{CE}(S^{(n)}(S^{(n-1)}(\cdots S^{(1)}(x))), y) \tag{6}$$

gdzie:

  • $S^{(i)}$ - $i$-ty agent w sekwencji
  • $x$ - wejście (pytanie/problem)
  • $y$ - oczekiwana odpowiedź
  • $\text{CE}$ - cross-entropy loss

Interpretacja: Optymalizujemy cały łańcuch agentów jako jedną sieć - gradient przepływa od końcowej odpowiedzi przez wszystkie RecursiveLink’i i agentów do samego początku. To jest niemożliwe w systemach tekstowych.

Dwufazowość ma sens

Inner loop zapewnia sensowną inicjalizację - bez niego outer loop nie miałby dobrego punktu startowego, a gradienty byłyby chaotyczne. Outer loop dopracowuje współpracę end-to-end, optymalizując to, co naprawdę się liczy: jakość finalnej odpowiedzi.


Analiza złożoności: dlaczego to jest szybsze

Autorzy formalizują przewagę w Proposition 3.1.

System tekstowy

$$\Theta\left(N\left(m|V|d_h + md_h^2 + msd_h\right)\right) \tag{7a}$$

RecursiveMAS

$$\Theta\left(N\left(md_h^2 + msd_h\right)\right) \tag{7b}$$

gdzie:

  • $N$ - liczba agentów
  • $m$ - liczba warstw transformera
  • $|V|$ - rozmiar słownika
  • $d_h$ - wymiar hidden state’ów
  • $s$ - długość sekwencji

Interpretacja: RecursiveMAS eliminuje czynnik $m|V|d_h$ - koszt dekodowania i re-enkodowania tokenów przy każdej wymianie między agentami. Przy $|V| \approx 100\text{k}$ to dominujący składnik złożoności. Stąd 2.4x przyspieszenie w praktyce.


Stabilność gradientów: dlaczego to się w ogóle uczy

Ktoś mógłby zapytać: skoro przepuszczamy gradienty przez wiele agentów, czy nie będą one zanikać lub eksplodować? Autorzy odpowiadają na to w Theorem 4.1.

Gradient w systemie tekstowym

$$\left|\frac{\partial \ell}{\partial H_i^{(L)}}\right| = O(\epsilon) \tag{8a}$$

$$\left|\frac{\partial \ell}{\partial H_i^{(L)}}\right| \geq \Omega!\left(1 - \sqrt{\frac{\log(1/\delta)}{d_h}}\right) \tag{8b}$$

gdzie:

  • $\epsilon$ - mała wartość wynikająca z dyskretyzacji argmax (praktycznie zero)
  • $\delta$ - parametr prawdopodobieństwa (pewność twierdzenia)
  • $d_h$ - wymiar hidden state’ów
  • $H_i^{(L)}$ - hidden state $i$-tego agenta w ostatniej warstwie

Interpretacja: W systemie tekstowym gradient przez barierę argmax praktycznie znika ($O(\epsilon)$). W RecursiveMAS gradient jest ograniczony od dołu przez wartość bliską 1 - rośnie z wymiarem $d_h$. Dla typowych wymiarów ($d_h \geq 1536$) to niemal pełna propagacja gradientu.

To jest fundamentalna różnica. Systemy tekstowe nie mogą się uczyć współpracy end-to-end, bo gradienty nie przepływają. RecursiveMAS może.


Cztery wzorce współpracy

RecursiveMAS nie ogranicza się do jednego schematu komunikacji. Autorzy testują cztery wzorce:

Sequential (sekwencyjny)

Agenty przetwarzają problem po kolei - wyjście jednego to wejście następnego. Klasyczny pipeline. Odpowiednik łańcucha myśli, ale z różnymi modelami.

Mixture (mieszanka)

Kilka agentów przetwarza ten sam problem równolegle, a wyniki są agregowane. Odpowiednik Mixture-of-Agents, ale w przestrzeni ukrytej zamiast tekstowej.

Distillation (destylacja)

Silniejszy model “uczy” słabszy przez hidden state’y. Zamiast generować dane treningowe, przekazuje wiedzę bezpośrednio w przestrzeni ukrytej.

Deliberation (deliberacja)

Agenty wielokrotnie wymieniają się hidden state’ami w pętli - odpowiednik debaty, ale bez tekstu. Najbardziej ekspresywny wzorzec, ale najdroższy obliczeniowo.


Wyniki: twarde liczby

Przejdźmy do tego, co najważniejsze - jak RecursiveMAS wypada na benchmarkach.

Główne wyniki (Sequential, 3 agenty, r=3)

BenchmarkRecursiveMASNajlepszy baseline tekstowyRóżnica
MATH50088.0%81.4%+6.6
AIME202586.7%73.3%+13.4
GPQA-D66.2%56.6%+9.6
LiveCodeBench42.9%38.2%+4.7
MedQA79.3%76.1%+3.2

Średni zysk: +8.3% dokładności. Na AIME2025 (najtrudniejszym benchmarku matematycznym) zysk to aż +13.4 punktów procentowych.

Efektywność

  • 2.4x przyspieszenie w porównaniu z systemami tekstowymi
  • 75.6% redukcji tokenów przy $r=3$ (trzy iteracje rekurencji)
  • Generowany tekst pośredni: zero - agenty nigdy nie produkują tokenów między sobą

Koszt treningu

MetodaPamięć GPUKoszt ($)
RecursiveMAS15.29 GB$4.27
Full-SFT41.40 GB$9.67

RecursiveMAS jest 2.7x tańszy w pamięci i 2.3x tańszy w dolarach niż pełny fine-tuning. To dlatego, że trenujemy tylko 0.31% parametrów (moduły RecursiveLink), a reszta jest zamrożona.

Heterogeniczne zespoły

Jednym z najciekawszych wyników jest to, że RecursiveMAS działa z mieszankami różnych modeli. Zespoły Qwen2.5-3B + Llama-3.2-3B czy Qwen2.5-1.5B + Qwen2.5-7B osiągają lepsze wyniki niż homogeniczne konfiguracje. Outer RecursiveLink skutecznie tłumaczy między przestrzeniami ukrytymi modeli o różnych architekturach i wymiarowościach.


Dlaczego to działa - intuicja

Wróćmy do analogii z zespołem programistów. Są trzy powody, dla których wspólna tablica działa lepiej niż maile:

1. Brak straty informacji. Hidden state’y to bogate, ciągłe wektory. Tekst to dyskretna, kompresyjna reprezentacja. Przekazując hidden state’y, agenty dzielą się pełnią swojej “wiedzy” - nie tylko tym, co da się wyrazić słowami.

2. End-to-end optymalizacja. Cały zespół uczy się współpracować jako jeden system. Gradient mówi każdemu agentowi: “gdybyś zmienił swoją odpowiedź w ten sposób, końcowy wynik byłby lepszy”. W systemach tekstowych każdy agent jest samotną wyspą.

3. Eliminacja redundancji. Systemy tekstowe muszą dekodować hidden state $\to$ tokeny $\to$ re-enkodować tokeny $\to$ hidden state. To podwójne przejście przez softmax o rozmiarze $|V|$ przy każdej wymianie. RecursiveMAS to pomija - stąd 75.6% mniej tokenów i 2.4x przyspieszenie.


Ograniczenia

Trzeba uczciwie powiedzieć, czego RecursiveMAS nie robi:

  • Skala modeli. Wszystkie eksperymenty dotyczą modeli <10B parametrów. Jak RecursiveLink zachowa się przy modelach 70B czy 405B? Nie wiemy.
  • Dostęp do internali. Metoda wymaga dostępu do hidden state’ów modeli - nie zadziała z zamkniętymi API (GPT-4, Claude). To ogranicza zastosowanie do modeli open-source.
  • Labeled data. Trening wymaga par (pytanie, odpowiedź). Dla zadań open-ended (kreatywne pisanie, brainstorming) nie ma jasnego sygnału nadzoru.
  • Brak ewaluacji otwartej generacji. Wszystkie benchmarki to zadania z jednoznaczną odpowiedzią. Jak RecursiveMAS radzi sobie z generowaniem dłuższych tekstów, dialogów czy kodu? To pytanie otwarte.
  • Skalowanie liczby agentów. Eksperymenty obejmują 2-4 agentów. Zachowanie przy 10+ agentach nie jest badane.

Podsumowanie

RecursiveMAS to konceptualnie piękna praca, która zmienia sposób myślenia o systemach wieloagentowych. Zamiast traktować agentów jako niezależne byty wymieniające się tekstem, proponuje patrzenie na cały system jako na jedną rekurencyjną sieć neuronową.

Kluczowe wnioski:

  • Komunikacja w przestrzeni ukrytej eliminuje bottleneck informacyjny i optymalizacyjny tekstowych MAS
  • RecursiveLink (0.31% parametrów) skutecznie tłumaczy między przestrzeniami ukrytymi różnych modeli
  • Inner-outer loop training zapewnia stabilną optymalizację end-to-end
  • +8.3% dokładności, 2.4x przyspieszenie, 75.6% redukcji tokenów - konkretne, mierzalne zyski
  • Działa z heterogenicznymi zespołami modeli o różnych architekturach

Największe ograniczenie? Wymóg dostępu do hidden state’ów modeli. W świecie, gdzie wiele najsilniejszych modeli jest zamkniętych za API, to istotna bariera. Ale dla ekosystemu open-source - a ten rośnie szybko - RecursiveMAS otwiera fascynujący kierunek: nie uczmy agentów lepiej rozmawiać, uczmy je lepiej myśleć razem.


Źródła i materiały:

📄 Yang, X., Zou, J., Pan, R. et al. “Recursive Multi-Agent Systems” (2026). arXiv:2604.25917

📄 Strona projektu: recursivemas.github.io