Czy zastanawialiście się kiedyś, dlaczego najnowsze modele sztucznej inteligencji, takie jak GPT-4 czy Claude 3 Opus, są tak ogromne? Mówimy o setkach miliardów, a nawet bilionach parametrów. To cyfrowe monstra wymagające ogromnych ilości energii i infrastruktur serwerowych rodem z centrum dowodzenia NASA.

Przez ostatnie lata AI rozwijała się zgodnie z zasadą: “Większy znaczy lepszy.”
Chcesz mądrzejszy model? Dodaj więcej warstw, więcej danych, więcej GPU.

Ale — co jeśli to ślepa uliczka?

Co jeśli zamiast jednego giganta, który próbuje wiedzieć wszystko, lepiej stworzyć zespół ekspertów, zwinnych i wyspecjalizowanych?

Taką wizję przedstawia publikacja z Purdue University:

“Experts are all you need: A Composable Framework for Large Language Model Inference” (arXiv:2511.22955).

Proponowana architektura Comp-LLM pozwala łączyć mniejsze modele w inteligentny, kompozytowalny system, który:

  • jest szybszy,
  • jest tańszy,
  • działa równolegle,
  • a jakością dorównuje gigantom.

Brzmi jak rewolucja? W tym artykule przechodzimy przez całość — od analogii po matematyczne i architektoniczne szczegóły.


Comp-LLM „po chłopsku”

Problem: Człowiek-Orkiestra vs Ekipa Remontowa

Wyobraź sobie generalny remont. Masz dwie opcje:

Opcja 1: Model Monolityczny (GPT-4, Llama-70B)

Zatrudniasz jednego fachowca od wszystkiego — Pana Mariana.

Umie wszystko: hydraulika, elektryka, malowanie, poezja, fizyka kwantowa.
Brzmi świetnie, ale:

  • robi wszystko powoli,
  • jest gigantyczny,
  • jego „mózg” jest pełen wiedzy, której akurat nie potrzebujesz,
  • aby naprawić kran, musi przeszukać cały „wszechświat wiedzy”.

To klasyczny LLM.


Opcja 2: System Agentowy (AutoGen, ReAct)

Zatrudniasz kierownika, który po kolei wzywa fachowców:

  1. Hydraulik przyjeżdża → robi → wyjeżdża.
  2. Elektryk przyjeżdża → robi → wyjeżdża.

Jakość dobra, ale trwa to bardzo długo. Każdy czeka na poprzedniego.

To klasyczne systemy agentowe – sekwencyjne.


Opcja 3: Comp-LLM — Nowy Paradygmat

Tu pojawia się innowacja.

Masz Super-Kierownika (Sub-query Generator).

Dostaje zadanie:
„Napraw kran i pomaluj salon.”

Jak działa?

  1. Rozbija zadanie na dwa podzestawy: hydraulika + malowanie.
  2. Sprawdza zależności — widzi, że to niezależne zadania.
  3. Równolegle wzywa hydraulika i malarkę.
  4. Otrzymuje dwie odpowiedzi.
  5. Łączy je w finalny raport.

Brzmi prosto?
To właśnie Comp-LLM: równoległość + specjalizacja + inteligentny routing.


Architektura i Techniczne Mięso

Comp-LLM opiera się na trzech filarach:

1. Sub-query Generator

Odpowiada za:

  • dekompozycję zapytania $Q$ na podzapytnia:
    $$ Q \rightarrow { q_1, q_2, \dots, q_n } $$
  • tworzenie grafu zależności (DAG),
  • routing do ekspertów.

Routing jest bez treningu (zero-shot), opiera się na embeddingach:

$$ \text{Expert}(q_i) = \arg\max_{E_j} \frac{v_{q_i} \cdot v_{E_j}}{|v_{q_i}| |v_{E_j}|} $$

Próg podobieństwa: 0.7.

To oznacza:

  • możesz dodać dowolny model jako eksperta,
  • nie musisz trenować całego systemu od nowa,
  • eksperci mogą pochodzić z różnych źródeł (Meta, Google, HF).

To jest prawdziwa kompozytowalność.


2. Query Executor (Równoległy Wykonawca)

Wykonuje podzapytania równolegle, zgodnie z DAG:

  • wyszukuje węzły o $in_degree = 0$,
  • wysyła je do ekspertów,
  • po zakończeniu zwalnia kolejne węzły.

Zysk czasowy mierzony w publikacji:

1.1× – 1.7× szybciej niż systemy sekwencyjne.


3. Response Aggregator (Agregator)

Łączy:

  • oryginalne zapytanie $Q$,
  • odpowiedzi ekspertów,
  • kontekst grafu zależności,

w jedną, logicznie spójną odpowiedź.


Dlaczego to działa?

Bo rozdziela kompetencje:

  • Router → inteligencja ogólna
  • Eksperci → wiedza domenowa
  • Agregator → logika końcowa

Monolityczne modele muszą robić to wszystko jednocześnie — i często zawodzą.


Wyniki z publikacji: Dane mówią same za siebie

Benchmark: MultiExpertQA-P

ModelParametryF1 Score
Llama-2 7B7B0.56
Llama-2 13B13B0.67
Llama-2 34B34B0.75
Llama-2 70B70B0.85
Comp-LLM~35B0.83

Wnioski:

  • Kompozyt ~35B prawie dorównuje 70B.
  • A jednocześnie miażdży monolityczne 34B.
  • Redukcja zasobów: 1.67× – 3.56× przy tej samej jakości.

Zastosowania w praktyce

1. Biznes (AI On-Premise)

Możesz mieć:

  • eksperta HR,
  • eksperta finansowego,
  • eksperta IT,

działających równolegle na tanim sprzęcie.


2. Medycyna

Eksperci:

  • kardiologiczny,
  • endokrynologiczny,
  • neurologiczny,

równolegle analizują pacjenta.
System jest przejrzysty (Explainable AI).


3. Edukacja

Pytanie: „Jak rewolucja przemysłowa wpłynęła na literaturę epoki wiktoriańskiej?”

System uruchamia:

  • eksperta od historii,
  • eksperta od literatury.

Odpowiedź jest interdyscyplinarna.


4. Edge AI — telefon jako „AI z wymiennym mózgiem”

Telefon ładuje dynamicznie:

  • eksperta kulinarnego,
  • eksperta nawigacyjnego,
  • eksperta muzycznego.

Comp-LLM daje ramy dla takiej architektury.


Podsumowanie: Dlaczego Comp-LLM jest ważny?

Bo pokazuje, że:

  • Architektura > Parametry
  • Synergia > Monolity
  • Moduły > Giganci

To wizja AI przyszłości:

  • modułowej,
  • kompozytowalnej,
  • efektywnej energetycznie,
  • otwartej.

Dodatek: Analiza Matematyczna (dla ekspertów)

1. Generowanie DAG

Sub-query Generator mapuje:

$$ f_{SG}: Q \rightarrow G(V, E) $$

gdzie:

  • $V = { s_1, \dots, s_k }$ — podzapytania,
  • $E = { (s_i, s_j) \mid s_i \text{ potrzebne dla } s_j }$.

Klasyczne CoT tworzy łańcuch:

$$ s_1 \rightarrow s_2 \rightarrow \dots \rightarrow s_k $$

Comp-LLM tworzy prawdziwy DAG, umożliwiający równoległość.


2. Harmonogramowanie

Zbiór gotowych zadań:

$$ C_t = { s \in V \setminus Completed \mid \forall p \in Parents(s),, p \in Completed } $$

Constraint pamięci GPU:

$$ \sum_{s \in S_t} M(Expert(s)) \le R_{total} $$

Rozwiązanie: heurystyka zachłanna (wariant RCPSP).


Linki