TAPS: Dlaczego dane treningowe modelu-draftu mają większe znaczenie niż jego architektura

Speculative decoding to jedna z najbardziej eleganckich sztuczek w inferencji LLM: mały, szybki model-draft model-draft Lekki model językowy, który szybko proponuje kandydujące tokeny. Większy model ‘weryfikator’ sprawdza te propozycje równolegle, akceptując poprawne i odrzucając błędne - przyspieszając generowanie bez zmiany jakości wyjścia. proponuje tokeny, a duży weryfikator weryfikator Pełnowymiarowy docelowy model językowy, który sprawdza propozycje draftu. Przetwarza wszystkich kandydatów w jednym przebiegu, akceptując te zgodne z własną dystrybucją - gwarantując identyczną jakość jak standardowe dekodowanie autoregresyjne. zatwierdza lub odrzuca je równolegle. Ta sama dystrybucja wyjściowa, mniej kosztownych przebiegów.

Ale jest pytanie, którego nikt nie zadawał: co się dzieje, gdy model-draft był trenowany na niewłaściwych danych?

Praca “TAPS: Task Aware Proposal Distributions for Speculative Sampling” (Zbib et al., KAUST i AUB, marzec 2026) pokazuje, że dane treningowe draftu mają takie samo znaczenie jak architektura. Draft trenowany na matematyce świetnie radzi sobie z matematyką, ale potyka się na czacie. Draft trenowany na czacie - odwrotnie. A sposób, w jaki łączy się specjalistów w czasie inferencji - nie w przestrzeni wag - decyduje o tym, czy uzyskamy to, co najlepsze z obu światów, czy to, co najgorsze.

Problem: jeden draft nie pasuje do wszystkiego

Większość dotychczasowych prac nad speculative decoding koncentruje się na ulepszeniach architektury - lepsze draftowanie na poziomie cech (EAGLE, EAGLE-2, EAGLE-3), dynamiczne drzewa, kaskadowe draftery, metody self-speculative. Ale prawie wszystkie modele-drafty trenuje się na tych samych szerokich korpusach, takich jak ShareGPT.

To tworzy martwy punkt. Jeśli draft jest trenowany na danych konwersacyjnych, a Twoje zadanie to rozumowanie matematyczne, dystrybucja propozycji dystrybucja propozycji Rozkład prawdopodobieństwa następnych tokenów produkowany przez model-draft. Gdy ta dystrybucja jest dobrze dopasowana do zachowania weryfikatora na danym zadaniu, więcej tokenów jest akceptowanych i inferencja jest szybsza. draftu będzie słabo dopasowana do zachowania weryfikatora. Algorytm speculative decoding wciąż jest bezstratny - dostajesz poprawną odpowiedź - ale długość akceptacji spada, a razem z nią przyspieszenie.

TAPS stawia pięć pytań badawczych:

Czy trening zadaniowy poprawia akceptację na dopasowanych zadaniach?
Czy mieszany trening odzyskuje odporność międzydomenową?
Jak łączyć wielu wyspecjalizowanych drafterów?
Jakie sygnały (confidence vs. entropia) są przydatne do routingu?
Jak głębokość spekulatywna wpływa na specjalizację zadaniową?

Setup eksperymentalny

Kontrolowany design to jedna z mocnych stron pracy. Wszystko jest ustalone poza dwoma zmiennymi: danymi treningowymi i strategią kompozycji.

Elementy stałe

Weryfikator: Meta-Llama-3-8B-Instruct
Architektura draftu: lekki dekoder w stylu LLaMA, jedna warstwa transformera, hidden size 4096, ~0.8B parametrów
Tokenizer: współdzielony między draftem a weryfikatorem
Trening: 20 epok, learning rate $3 \times 10^{-5}$, batch size 8

Zmienna: dane treningowe

MathInstruct (70k przykładów) - rozumowanie matematyczne
ShareGPT (70k przykładów) - dane konwersacyjne
Mixed 35k+35k - zbalansowana mieszanka, ta sama łączna liczba
Mixed 70k+70k - podwojona łączna liczba, obie domeny w pełni reprezentowane

Zmienna: backbone spekulatywny

Dwie najnowocześniejsze architektury testowane niezależnie:

EAGLE-2 EAGLE-2 Metoda speculative decoding, która przewiduje przyszłe ukryte cechy (nie tokeny bezpośrednio) i używa kontekstowo-zależnego dynamicznego drzewa do organizacji sekwencji kandydujących. - draftowanie na poziomie cech z dynamiczną konstrukcją drzewa
HASS HASS Harmonized Speculative Sampling - poprawia dopasowanie draft-target przez destylację Top-K i zharmonizowane wyrównanie kontekstu, trenując na niedoskonałych cechach draftu zamiast tylko na czystych cechach docelowych. - zharmonizowane reprezentacje z destylacją Top-K

Benchmarki

Benchmark	Domena	Przykłady
MT-Bench	Konwersacja	80
GSM8K	Matematyka szkolna	1 319
MATH-500	Matematyka konkursowa	500
SVAMP	Zadania tekstowe	300

Główna metryka: długość akceptacji - średnia liczba tokenów draftu zaakceptowanych na jedno wywołanie weryfikatora. Wyższa = lepsze dopasowanie = szybsza inferencja.

RQ1: Specjalizacja jest realna

Wyniki są jednoznaczne. Pod HASS przy temperaturze 0:

Trening draftu	MT-Bench	GSM8K	MATH-500	SVAMP
MathInstruct	2.90	5.02	5.35	3.13
ShareGPT	3.98	4.09	3.98	4.44

ShareGPT jest o 37% lepszy na MT-Bench. MathInstruct jest o 23% lepszy na GSM8K i 34% lepszy na MATH-500. Ten sam wzorzec utrzymuje się dla EAGLE-2.

To nie jest subtelna różnica. Draft trenowany na niewłaściwej domenie nie traci kilku punktów procentowych - on znacząco degraduje przewagę speculative decoding.

Wniosek: Jakość draftu zależy nie tylko od architektury, ale od dopasowania dystrybucji treningowej do docelowego obciążenia.

RQ2: Mieszany trening pomaga, ale nie dominuje

Czy można naprawić specjalizację przez mieszanie danych treningowych? Częściowo.

Pod HASS przy temperaturze 0, Mixed 70k+70k osiąga najwyższą średnią długość akceptacji (5.18 na wszystkich benchmarkach). Ale przy temperaturze 1 spada do 3.69 - poniżej 4.29 osiąganego przez Mixed 35k+35k.

Wzorzec powtarza się dla EAGLE-2: Mixed 70k+70k jest najsilniejszy przy temperaturze 0 (średnia 4.48), ale Mixed 35k+35k jest stabilniejszy przy temperaturze 1 (3.81 vs. 3.26).

Wniosek: Mieszany trening poszerza pokrycie, ale nie poprawia jednolicie we wszystkich temperaturach dekodowania. Nie eliminuje potrzeby dostrojenia mieszanki do reżimu dekodowania.

RQ3: Komponuj w czasie inferencji, nie w przestrzeni wag

To najbardziej praktycznie użyteczne odkrycie pracy. Gdy masz dwóch wyspecjalizowanych drafterów, jak ich połączyć?

Trzy strategie

1. Uśrednianie checkpointów - liniowa interpolacja w przestrzeni parametrów:

$$\theta_{merge} = \lambda \theta_{math} + (1 - \lambda) \theta_{chat}$$

Proste, ale destrukcyjne. Średnie długości akceptacji 2.59 (HASS) i 2.62 (EAGLE-2) - najgorsze wyniki w całej tabeli, konsekwentnie poniżej każdego jednodomendowego specjalisty.

2. Routing oparty na confidence - uruchom oba draftery, wybierz ten z wyższą średnią pewnością:

$$\mathcal{T}^* = \arg\max_{\mathcal{T} \in \{\mathcal{T}_{math}, \mathcal{T}_{chat}\}} \text{Score}(\mathcal{T}), \quad \text{Score}(\mathcal{T}) = \frac{1}{|\mathcal{T}|} \sum_{v \in \mathcal{T}} c(v)$$

Znaczący skok: 4.80 (HASS) i 4.63 (EAGLE-2) średniej długości akceptacji przy temperaturze 0.

3. Merged-tree verification - upakuj oba drzewa draftu pod wspólnym korzeniem z oddzielnymi maskami uwagi, zweryfikuj wszystkich kandydatów w jednym przebiegu:

Najlepszy wynik ogólnie: 5.11 (HASS) i 5.02 (EAGLE-2) przy temperaturze 0. To bije każdy jednodomendowy checkpoint i każdy wariant z mieszanymi danymi.

Tabela wyników (Temperatura 0)

Strategia	Metoda	MT-Bench	GSM8K	MATH-500	SVAMP	Średnia
Uśrednianie	HASS	2.29	2.80	3.12	2.13	2.59
Uśrednianie	EAGLE-2	2.07	2.53	2.57	2.50	2.42
Confidence Routing	HASS	3.93	5.01	5.37	4.89	4.80
Confidence Routing	EAGLE-2	3.63	4.91	5.25	4.71	4.63
Merged Trees	HASS	4.05	5.42	5.65	5.31	5.11
Merged Trees	EAGLE-2	3.93	5.32	5.63	5.25	5.03

Uśrednianie wag niszczy wiedzę specjalistów. Kompozycja w czasie inferencji ją zachowuje.

Wniosek: Trzymaj specjalistów osobno. Łącz ich propozycje, nie parametry.

RQ4: Confidence bije entropię w routingu

Zarówno confidence, jak i entropia to potencjalne sygnały do decydowania, któremu specjaliście zaufać. TAPS testuje oba na poziomie benchmarków używając EAGLE-2.

Routing na bazie confidence

Benchmark	Wybrany MathInstruct	Wybrany ShareGPT
MT-Bench	15 (18.8%)	65 (81.2%)
GSM8K	1 198 (90.8%)	121 (9.2%)
MATH-500	485 (97.0%)	15 (3.0%)
SVAMP	279 (93.0%)	21 (7.0%)

Routing na bazie confidence daje niemal idealną separację domen: specjalista matematyczny jest wybierany dla >90% przykładów matematycznych, specjalista konwersacyjny dla >80% konwersacji.

Routing na bazie entropii

Benchmark	Wybrany MathInstruct	Wybrany ShareGPT
MT-Bench	42 (52.5%)	38 (47.5%)
GSM8K	720 (54.6%)	599 (45.4%)
MATH-500	312 (62.4%)	188 (37.6%)
SVAMP	159 (53.0%)	141 (47.0%)

Routing entropijny jest niewiele lepszy od losowego. Wykrywa, że odrzucone tokeny mają wyższą entropię (przydatne jako diagnostyka), ale produkuje niemal zbalansowane podziały, które nie oddzielają domen.

Wniosek: Confidence to sygnał routingu. Entropia to sygnał diagnostyczny. Nie myl jednego z drugim.

RQ5: Głębokość ujawnia kompromis eksploracja-eksploatacja

Eleganckie odkrycie: jak specjalizacja wchodzi w interakcję z głębokością drzewa draftu.

Na płytkich głębokościach (1–2 tokeny) drafty z mieszanych danych często wypadają najlepiej. Szersze pokrycie oznacza więcej szans na wyprodukowanie akceptowalnego pierwszego tokenu - przewaga eksploracyjna.

Na głębszych poziomach (3–5 tokenów) specjalista dopasowany do zadania coraz bardziej dominuje, szczególnie na benchmarkach rozumowania. Utrzymanie zgodności z weryfikatorem wymaga bliskiego dopasowania dystrybucji - przewaga eksploatacyjna.

To tłumaczy, dlaczego merged-tree verification działa tak dobrze: zapewnia eksplorację (różnorodność od dwóch specjalistów) na płytkich poziomach, jednocześnie pozwalając lepiej dopasowanemu specjaliście napędzać głębszą akceptację.

Algorytm Merged-Tree

Najbardziej nowatorski wkład techniczny to procedura merged-tree verification:

Wygeneruj drzewa draftu $\mathcal{T}_{math}$ i $\mathcal{T}_{chat}$ z tego samego tokenu korzeniowego
Scal pod wspólnym korzeniem przez konkatenację węzłów i przemapowanie indeksów
Zbuduj maski uwagi zachowujące przodków - węzły z jednego poddrzewa nie mogą obserwować węzłów z drugiego
Przypisz identyfikatory pozycji według głębokości drzewa
Zweryfikuj całe scalone drzewo w jednym przebiegu weryfikatora
Wyodrębnij ścieżki kandydujące i zastosuj standardową akceptację spekulatywną
Zatwierdź zaakceptowany prefiks

Izolacja masek uwagi jest kluczowa: każde poddrzewo utrzymuje własną wewnętrzną hierarchię przodków, więc weryfikator ocenia propozycje każdego specjalisty na ich własnych warunkach. Różnorodność pochodzi z posiadania obu zestawów kandydatów, nie z krzyżowania ich obliczeń.

Praktyczne implikacje

Dla inżynierów inferencji

Jeśli Twoje obciążenie jest domenowo specyficzne (kodowanie, matematyka, prawo, medycyna), wytrenuj lub dostroij model-draft na dopasowanych danych domenowych. Backbone architektoniczny (EAGLE-2 vs. HASS) ma mniejsze znaczenie niż dopasowanie dystrybucji treningowej.

Dla wdrożeń wielodomenowych

Nie uśredniaj checkpointów. Zamiast tego:

Użyj confidence routing (niższy narzut, wymaga uruchomienia obu drafterów na prefiksie)
Użyj merged-tree verification (wyższa akceptacja, wymaga większego batcha weryfikatora ze scalonego drzewa)

Dla badaczy

Sekcja ograniczeń pracy jest odświeżająco uczciwa: jeden model docelowy, dwie domeny źródłowe, dwa backbony spekulatywne, cztery benchmarki. Polityka routingu jest celowo prosta (oparta na confidence, nie uczona). Ulepszenia latencji end-to-end z merged-tree verification nie są mierzone - długość akceptacji jest proxy. To wszystko jasne kierunki dalszych prac.

Ograniczenia

Jeden weryfikator (Llama-3-8B-Instruct) - niejasne, jak wyniki przenoszą się na większe lub inne architektury
Tylko dwie domeny - realne wdrożenia obejmują wiele więcej typów zadań
Brak latencji end-to-end - merged-tree verification zwiększa batch size weryfikatora; czy zysk w długości akceptacji kompensuje ten koszt, pozostaje otwartym pytaniem
Prosta polityka routingu - oparta na confidence, nie uczona; wyuczony router mógłby działać lepiej
Długość akceptacji ≠ przyspieszenie wall-clock - narzut uruchamiania wielu drafterów lub większych batchy weryfikacji nie jest uwzględniony

Podsumowanie

TAPS dostarcza prosty, ale ważny komunikat: speculative decoding to problem projektowania systemów, nie tylko problem architektoniczny. Model-draft nie jest stałym komponentem pomocniczym - to wybór projektowy, który powinien być dopasowany do docelowego obciążenia. Gdy istnieje wielu specjalistów, komponowanie ich w czasie inferencji (przez routing lub scaloną weryfikację) znacząco przewyższa łączenie w przestrzeni wag.

Praktyczny przepis: trenuj domenowo specyficzne drafty, trzymaj je osobno, łącz ich propozycje w czasie inferencji i używaj confidence (nie entropii) do routingu między nimi.

📎 Linki

Na podstawie publikacji 📄 2603.27027

Problem: jeden draft nie pasuje do wszystkiego#

Setup eksperymentalny#

Elementy stałe#

Zmienna: dane treningowe#

Zmienna: backbone spekulatywny#

Benchmarki#

RQ1: Specjalizacja jest realna#

RQ2: Mieszany trening pomaga, ale nie dominuje#

RQ3: Komponuj w czasie inferencji, nie w przestrzeni wag#

Trzy strategie#

Tabela wyników (Temperatura 0)#

RQ4: Confidence bije entropię w routingu#

Routing na bazie confidence#

Routing na bazie entropii#

RQ5: Głębokość ujawnia kompromis eksploracja-eksploatacja#

Algorytm Merged-Tree#

Praktyczne implikacje#

Dla inżynierów inferencji#

Dla wdrożeń wielodomenowych#

Dla badaczy#

Ograniczenia#

Podsumowanie#

📎 Linki#