Czy zastanawialiście się kiedyś, dlaczego najnowsze modele sztucznej inteligencji, takie jak GPT-4 czy Claude 3 Opus, są tak ogromne? Mówimy o setkach miliardów, a nawet bilionach parametrów. To cyfrowe monstra wymagające ogromnych ilości energii i infrastruktur serwerowych rodem z centrum dowodzenia NASA.
Przez ostatnie lata AI rozwijała się zgodnie z zasadą: “Większy znaczy lepszy.”
Chcesz mądrzejszy model? Dodaj więcej warstw, więcej danych, więcej GPU.
Ale — co jeśli to ślepa uliczka?
Co jeśli zamiast jednego giganta, który próbuje wiedzieć wszystko, lepiej stworzyć zespół ekspertów, zwinnych i wyspecjalizowanych?
Taką wizję przedstawia publikacja z Purdue University:
“Experts are all you need: A Composable Framework for Large Language Model Inference” (arXiv:2511.22955).
Proponowana architektura Comp-LLM pozwala łączyć mniejsze modele w inteligentny, kompozytowalny system, który:
- jest szybszy,
- jest tańszy,
- działa równolegle,
- a jakością dorównuje gigantom.
Brzmi jak rewolucja? W tym artykule przechodzimy przez całość — od analogii po matematyczne i architektoniczne szczegóły.
Comp-LLM „po chłopsku”
Problem: Człowiek-Orkiestra vs Ekipa Remontowa
Wyobraź sobie generalny remont. Masz dwie opcje:
Opcja 1: Model Monolityczny (GPT-4, Llama-70B)
Zatrudniasz jednego fachowca od wszystkiego — Pana Mariana.
Umie wszystko: hydraulika, elektryka, malowanie, poezja, fizyka kwantowa.
Brzmi świetnie, ale:
- robi wszystko powoli,
- jest gigantyczny,
- jego „mózg” jest pełen wiedzy, której akurat nie potrzebujesz,
- aby naprawić kran, musi przeszukać cały „wszechświat wiedzy”.
To klasyczny LLM.
Opcja 2: System Agentowy (AutoGen, ReAct)
Zatrudniasz kierownika, który po kolei wzywa fachowców:
- Hydraulik przyjeżdża → robi → wyjeżdża.
- Elektryk przyjeżdża → robi → wyjeżdża.
Jakość dobra, ale trwa to bardzo długo. Każdy czeka na poprzedniego.
To klasyczne systemy agentowe – sekwencyjne.
Opcja 3: Comp-LLM — Nowy Paradygmat
Tu pojawia się innowacja.
Masz Super-Kierownika (Sub-query Generator).
Dostaje zadanie:
„Napraw kran i pomaluj salon.”
Jak działa?
- Rozbija zadanie na dwa podzestawy: hydraulika + malowanie.
- Sprawdza zależności — widzi, że to niezależne zadania.
- Równolegle wzywa hydraulika i malarkę.
- Otrzymuje dwie odpowiedzi.
- Łączy je w finalny raport.
Brzmi prosto?
To właśnie Comp-LLM: równoległość + specjalizacja + inteligentny routing.
Architektura i Techniczne Mięso
Comp-LLM opiera się na trzech filarach:
1. Sub-query Generator
Odpowiada za:
- dekompozycję zapytania $Q$ na podzapytnia:
$$ Q \rightarrow { q_1, q_2, \dots, q_n } $$ - tworzenie grafu zależności (DAG),
- routing do ekspertów.
Routing jest bez treningu (zero-shot), opiera się na embeddingach:
$$ \text{Expert}(q_i) = \arg\max_{E_j} \frac{v_{q_i} \cdot v_{E_j}}{|v_{q_i}| |v_{E_j}|} $$
Próg podobieństwa: 0.7.
To oznacza:
- możesz dodać dowolny model jako eksperta,
- nie musisz trenować całego systemu od nowa,
- eksperci mogą pochodzić z różnych źródeł (Meta, Google, HF).
To jest prawdziwa kompozytowalność.
2. Query Executor (Równoległy Wykonawca)
Wykonuje podzapytania równolegle, zgodnie z DAG:
- wyszukuje węzły o $in_degree = 0$,
- wysyła je do ekspertów,
- po zakończeniu zwalnia kolejne węzły.
Zysk czasowy mierzony w publikacji:
1.1× – 1.7× szybciej niż systemy sekwencyjne.
3. Response Aggregator (Agregator)
Łączy:
- oryginalne zapytanie $Q$,
- odpowiedzi ekspertów,
- kontekst grafu zależności,
w jedną, logicznie spójną odpowiedź.
Dlaczego to działa?
Bo rozdziela kompetencje:
- Router → inteligencja ogólna
- Eksperci → wiedza domenowa
- Agregator → logika końcowa
Monolityczne modele muszą robić to wszystko jednocześnie — i często zawodzą.
Wyniki z publikacji: Dane mówią same za siebie
Benchmark: MultiExpertQA-P
| Model | Parametry | F1 Score |
|---|---|---|
| Llama-2 7B | 7B | 0.56 |
| Llama-2 13B | 13B | 0.67 |
| Llama-2 34B | 34B | 0.75 |
| Llama-2 70B | 70B | 0.85 |
| Comp-LLM | ~35B | 0.83 |
Wnioski:
- Kompozyt ~35B prawie dorównuje 70B.
- A jednocześnie miażdży monolityczne 34B.
- Redukcja zasobów: 1.67× – 3.56× przy tej samej jakości.
Zastosowania w praktyce
1. Biznes (AI On-Premise)
Możesz mieć:
- eksperta HR,
- eksperta finansowego,
- eksperta IT,
działających równolegle na tanim sprzęcie.
2. Medycyna
Eksperci:
- kardiologiczny,
- endokrynologiczny,
- neurologiczny,
równolegle analizują pacjenta.
System jest przejrzysty (Explainable AI).
3. Edukacja
Pytanie: „Jak rewolucja przemysłowa wpłynęła na literaturę epoki wiktoriańskiej?”
System uruchamia:
- eksperta od historii,
- eksperta od literatury.
Odpowiedź jest interdyscyplinarna.
4. Edge AI — telefon jako „AI z wymiennym mózgiem”
Telefon ładuje dynamicznie:
- eksperta kulinarnego,
- eksperta nawigacyjnego,
- eksperta muzycznego.
Comp-LLM daje ramy dla takiej architektury.
Podsumowanie: Dlaczego Comp-LLM jest ważny?
Bo pokazuje, że:
- Architektura > Parametry
- Synergia > Monolity
- Moduły > Giganci
To wizja AI przyszłości:
- modułowej,
- kompozytowalnej,
- efektywnej energetycznie,
- otwartej.
Dodatek: Analiza Matematyczna (dla ekspertów)
1. Generowanie DAG
Sub-query Generator mapuje:
$$ f_{SG}: Q \rightarrow G(V, E) $$
gdzie:
- $V = { s_1, \dots, s_k }$ — podzapytania,
- $E = { (s_i, s_j) \mid s_i \text{ potrzebne dla } s_j }$.
Klasyczne CoT tworzy łańcuch:
$$ s_1 \rightarrow s_2 \rightarrow \dots \rightarrow s_k $$
Comp-LLM tworzy prawdziwy DAG, umożliwiający równoległość.
2. Harmonogramowanie
Zbiór gotowych zadań:
$$ C_t = { s \in V \setminus Completed \mid \forall p \in Parents(s),, p \in Completed } $$
Constraint pamięci GPU:
$$ \sum_{s \in S_t} M(Expert(s)) \le R_{total} $$
Rozwiązanie: heurystyka zachłanna (wariant RCPSP).
Linki
- Na podstawie publikacji 📄 arXiv:2511.22955 PDF