TAPS: Dlaczego dane treningowe modelu-draftu mają większe znaczenie niż jego architektura

Speculative decoding to jedna z najbardziej eleganckich sztuczek w inferencji LLM: mały, szybki model-draft model-draft Lekki model językowy, który szybko proponuje kandydujące tokeny. Większy model ‘weryfikator’ sprawdza te propozycje równolegle, akceptując poprawne i odrzucając błędne - przyspieszając generowanie bez zmiany jakości wyjścia. proponuje tokeny, a duży weryfikator weryfikator Pełnowymiarowy docelowy model językowy, który sprawdza propozycje draftu. Przetwarza wszystkich kandydatów w jednym przebiegu, akceptując te zgodne z własną dystrybucją - gwarantując identyczną jakość jak standardowe dekodowanie autoregresyjne. zatwierdza lub odrzuca je równolegle. Ta sama dystrybucja wyjściowa, mniej kosztownych przebiegów. ...

marca 28, 2026