Trenowanie dużych modeli językowych wymaga astronomicznych ilości danych i mocy obliczeniowej. Ale co jeśli większość tych danych jest redundantna redundantna Dane redundantne to takie, które nie wnoszą nowej informacji do procesu uczenia — model już ‘zna’ zawarte w nich wzorce. ? Publikacja “OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration” przedstawia framework, który osiąga porównywalne wyniki przy 6x mniejszej liczbie tokenów tokenów Token to podstawowa jednostka tekstu w LLM — może to być słowo, część słowa lub znak. Model przetwarza tekst jako sekwencję tokenów. dzięki inteligentnemu wybieraniu, z czego model powinien się uczyć na każdym kroku.


Problem: Nie Wszystkie Dane Są Równe

Obecne pipeline’y trenowania LLM LLM Large Language Model — duży model językowy, sieć neuronowa z miliardami parametrów trenowana na ogromnych zbiorach tekstu. traktują selekcję danych jako jednorazowy etap preprocessingu: odfiltruj niskiej jakości treści, usuń duplikaty i podaj wszystko modelowi. Ale to statyczne podejście ignoruje kluczową obserwację: wartość próbki danych zmienia się w miarę uczenia się modelu.

Próbka, która jest wysoce informatywna na początku treningu, może być redundantna później. I odwrotnie — złożony przykład może być bezużyteczny początkowo, ale nieoceniony, gdy model rozwinie podstawowe umiejętności. OPUS rozwiązuje ten problem, czyniąc selekcję danych dynamiczną i świadomą iteracji.


Podstawy Matematyczne

Funkcja Straty

OPUS operuje na standardowym celu modelowania języka. Dla sekwencji z = (x₁, x₂, …, xₗ), negatywna log-likelihood negatywna log-likelihood Miara jak dobrze model przewiduje kolejne tokeny. Im niższa wartość, tym lepsze przewidywania. Używana jako funkcja straty w treningu LLM. na sekwencję wynosi:

$$\mathcal{L}(z; \theta) = -\frac{1}{L} \sum_{i=1}^{L} \log p_\theta(x_i | x_{<i})$$

Oczekiwana strata po rozkładzie danych Q to:

$$\mathcal{L}(\mathcal{Q}; \theta) := \mathbb{E}_{z \sim \mathcal{Q}}[\mathcal{L}(z; \theta)]$$

Definicja Użyteczności

Główną innowacją OPUS jest definiowanie użyteczności użyteczności W kontekście OPUS: miara tego, jak bardzo dana próbka przyczyni się do poprawy modelu w danej iteracji treningu. w przestrzeni aktualizacji indukowanej przez optymalizator optymalizator Algorytm odpowiedzialny za aktualizację wag sieci neuronowej na podstawie gradientów. Przykłady: SGD, Adam, AdamW. . Bazowa użyteczność wybranego batcha batcha Batch (partia) — podzbiór danych treningowych przetwarzany razem w jednej iteracji. Większe batche = stabilniejsze gradienty, ale więcej pamięci. S w iteracji t mierzy redukcję straty walidacyjnej:

$$U^{(t)}(\mathcal{S}) := \mathcal{L}(\mathcal{D}_{val}; \theta_t) - \mathcal{L}(\mathcal{D}_{val}; \theta_{t+1}(\mathcal{S}))$$

Do selekcji pojedynczych próbek OPUS oblicza użyteczność marginalną — o ile dodanie próbki z do bieżącego batcha B̂ₜ poprawia cel:

$$U_z^{(t)} := U^{(t)}(\hat{\mathcal{B}}_t \cup \{z\}) - U^{(t)}(\hat{\mathcal{B}}_t)$$


Framework OPUS

1. Prekondycjoner Indukowany przez Optymalizator

Różne optymalizatory indukują różne kierunki aktualizacji. OPUS ujmuje to poprzez ogólną formę aktualizacji:

$$\Delta\theta_t(\hat{\mathcal{B}}_t) = -\eta_t \sum_{z \in \hat{\mathcal{B}}_t} \mathbf{P}_t \nabla\mathcal{L}(z; \theta_t)$$

gdzie Pₜ to prekondycjoner prekondycjoner Macierz przekształcająca gradient przed aktualizacją wag. Różne optymalizatory używają różnych prekondycjonerów, co wpływa na kierunek i wielkość kroków. specyficzny dla optymalizatora, a ηₜ to learning rate learning rate Współczynnik uczenia — hiperparametr określający wielkość kroków podczas aktualizacji wag. Za duży = niestabilność, za mały = wolna zbieżność. .

Dla AdamW AdamW Popularny optymalizator łączący adaptacyjne learning rate’y z regularyzacją wag. Szeroko stosowany w treningu LLM. prekondycjoner przyjmuje formę:

$$\mathbf{P}_t^{AdamW} := C_t \cdot \text{Diag}\left(\frac{1}{\sqrt{\hat{v}_{t-1}} + \epsilon}\right)$$

gdzie Cₜ := αₜ(1-β₁)/(1-β₁ᵗ), a v̂ₜ₋₁ to skorygowany estymator drugiego momentu.

Dla optymalizatora Muon prekondycjoner dla warstwy ℓ to:

$$\mathbf{P}_{t,\ell}^{Muon} := \kappa_t \mathbf{S}_{t,\ell}$$

gdzie Sₜ,ₗ = aI + bAₜ,ₗ + cA²ₜ,ₗ jest wielomianem macierzy korelacji momentum.

2. Scoring z Wyrównaniem i Redundancją

Używając aproksymacji Taylora aproksymacji Taylora Metoda przybliżania funkcji za pomocą wielomianów. Aproksymacja pierwszego rzędu używa tylko pierwszej pochodnej, co upraszcza obliczenia kosztem dokładności. pierwszego rzędu wokół bieżących parametrów:

$$\mathcal{L}(\mathcal{D}_{val}; \tilde{\theta}_t + \Delta\theta_t(\{z\})) \approx \mathcal{L}(\mathcal{D}_{val}; \tilde{\theta}_t) + \nabla_\theta \mathcal{L}(\mathcal{D}_{val}; \tilde{\theta}_t)^\top \Delta\theta_t(\{z\})$$

Zlinearyzowany gradient gradient Wektor pochodnych cząstkowych funkcji straty względem parametrów. Wskazuje kierunek największego wzrostu straty — idziemy w przeciwnym kierunku. walidacyjny ewoluuje jako:

$$\nabla_\theta \mathcal{L}(\mathcal{D}_{val}; \tilde{\theta}_t) \approx \mathbf{g}_{val}^{(t)} + \mathbf{H}_{val}^{(t)} \Delta\theta_t(\hat{\mathcal{B}}_t)$$

Z izotropową aproksymacją Hessianu izotropową aproksymacją Hessianu Uproszczenie zakładające, że macierz drugich pochodnych (Hessian) jest proporcjonalna do macierzy jednostkowej. Dramatycznie redukuje złożoność obliczeniową. (Hᵥₐₗ ≈ I), końcowy wynik użyteczności rozkłada się na dwa interpretowalne składniki:

$$U_z^{(t)} \approx \underbrace{\eta_t \langle \mathbf{u}_z^{(t)}, \mathbf{g}_{proxy}^{(t)} \rangle}_{\text{Wyrównanie}} - \underbrace{\eta_t^2 \langle \mathbf{u}_z^{(t)}, \mathbf{G}^{(t)} \rangle}_{\text{Kara za Redundancję}}$$

gdzie:

  • uᵢ⁽ᵗ⁾ = Pₜ∇L(z; θₜ) to aktualizacja indukowana przez optymalizator dla próbki z
  • gₚᵣₒₓᵧ⁽ᵗ⁾ to kierunek gradientu proxy (z danych walidacyjnych)
  • G⁽ᵗ⁾ := Σⱼ uⱼ⁽ᵗ⁾ to skumulowany kierunek efektywny (suma po próbkach w batchu)

Składnik wyrównania nagradza próbki, które poruszają się w tym samym kierunku co cel walidacyjny. Kara za redundancję zniechęca do wybierania próbek podobnych do tych już znajdujących się w batchu.


Efektywne Obliczenia: Ghost Gradients + CountSketch

Faktoryzacja Ghost Gradient

Obliczanie pełnych gradientów dla każdego kandydata byłoby prohibicyjnie kosztowne. OPUS wykorzystuje strukturę warstw liniowych, gdzie gradient per-sample można sfaktoryzować jako iloczyn zewnętrzny iloczyn zewnętrzny Operacja na dwóch wektorach dająca macierz. Dla wektorów a i b, iloczyn zewnętrzny a⊗b to macierz gdzie element (i,j) = aᵢ·bⱼ. :

$$\nabla_{\mathbf{W}_r}\mathcal{L}(z; \theta_t) = \mathbf{a}_r^{(z)} \otimes \mathbf{b}_r^{(z)}$$

gdzie aᵣ⁽ᶻ⁾ to aktywacja wejściowa, a bᵣ⁽ᶻ⁾ to propagowany wstecznie sygnał błędu. Ta “duchowa” reprezentacja unika materializacji pełnego tensora gradientu.

Kompresja CountSketch

Aby obsłużyć wysokowymiarowe przestrzenie parametrów, OPUS stosuje projekcję CountSketch CountSketch Randomizowana struktura danych kompresująca wysokowymiarowe wektory przy zachowaniu przybliżonych iloczynów skalarnych. Używa funkcji haszujących do efektywnej projekcji. . Niejawna zesketchowana cecha dla warstwy r to:

$$\phi^{(t,r)}(z) = \Pi_r(\mathbf{P}_{t,r}(\mathbf{a}_r^{(z)} \otimes \mathbf{b}_r^{(z)}))$$

gdzie Πᵣ to operator projekcji CountSketch.

Użyteczność można wtedy aproksymować efektywnie:

$$U_z^{(t)} \approx \eta_t \sum_{r \in \mathcal{R}} \langle \phi^{(t,r)}(z), \psi_{proxy}^{(t,r)} \rangle - \eta_t^2 \sum_{r \in \mathcal{R}} \langle \phi^{(t,r)}(z), \Phi^{(t,r)} \rangle$$

gdzie Φ⁽ᵗ’ʳ⁾ = Σⱼ φ⁽ᵗ’ʳ⁾(zⱼ) to bieżąca historia sketcha.

To redukuje narzut do zaledwie 4.7% obliczeń treningowych.


Próbkowanie Boltzmanna dla Różnorodności

Zachłanna selekcja próbek o najwyższej użyteczności prowadziłaby do kolapsu modowego kolapsu modowego Sytuacja gdy model skupia się na wąskim podzbiorze danych, tracąc zdolność generalizacji. W selekcji danych: wybieranie tylko podobnych próbek. . OPUS używa miękkiej selekcji probabilistycznej opartej na rozkładzie Boltzmanna rozkładzie Boltzmanna Rozkład prawdopodobieństwa z fizyki statystycznej. Wyższe ’energie’ (tu: użyteczności) mają wyższe prawdopodobieństwo, ale nie deterministycznie. :

$$p_z^{(t)} \propto \exp\left(\frac{U_z^{(t)}}{\tau}\right)$$

Temperatura Temperatura Parametr kontrolujący ‘ostrość’ rozkładu. Niska temperatura = prawie deterministyczny wybór najlepszych; wysoka = bardziej losowy wybór. τ > 0 kontroluje kompromis eksploracja-eksploatacja:

  • Niskie τ: Prawie deterministyczna selekcja najlepszych próbek
  • Wysokie τ: Bardziej równomierne próbkowanie, większa różnorodność

Przegląd Architektury

┌─────────────────────────────────────────────────────────┐
│                    Pipeline OPUS                         │
├─────────────────────────────────────────────────────────┤
│                                                          │
│  Pula Danych ──► Ghost Gradient ──► CountSketch ──►     │
│                   Faktoryzacja      Kompresja            │
│                                                          │
│                      │                                   │
│                      ▼                                   │
│         ┌─────────────────────────┐                      │
│         │  Scoring Użyteczności:  │                      │
│         │  U = Wyrównanie -       │                      │
│         │      Kara za Redundancję│                      │
│         └─────────────────────────┘                      │
│                      │                                   │
│                      ▼                                   │
│        Próbkowanie Boltzmanna ──► Batch Treningowy       │
│                                                          │
└─────────────────────────────────────────────────────────┘

Wyniki Eksperymentalne

Eksperymenty na Skali GPT-2

Na zbiorach FineWeb z GPT-2 Large i GPT-2 XL:

  • OPUS konsekwentnie przewyższał przemysłowe baseline’y
  • Dorównywał lub przewyższał trening na pełnych danych przy mniejszej liczbie tokenów
  • Pokazywał stabilne ulepszenia w różnych rozmiarach modeli

Adaptacja Domenowa Qwen3-8B

Najbardziej uderzający wynik z publikacji:

“In continued pre-training of Qwen3-8B-Base on SciencePedia, OPUS achieves superior performance using only 0.5B tokens compared to full training with 3B tokens”

MetodaUżyte TokenyWydajność
Pełny trening3B tokenówBaseline
Selekcja OPUS0.5B tokenówLepsza

To reprezentuje 6-krotną poprawę efektywności — te same lub lepsze wyniki przy jednej szóstej danych.

Właściwości Skalowania

Korzyści OPUS rosną wraz z:

  • Większymi rozmiarami modeli
  • Dłuższymi przebiegami treningowymi
  • Bardziej heterogenicznymi źródłami danych

Dlaczego To Ma Znaczenie

Dla Praktyków

  • Niższe koszty: 6x mniej tokenów oznacza 6x mniej obliczeń za te same wyniki
  • Szybsza iteracja: Testuj hipotezy i trenuj nowe modele szybciej
  • Lepsze wykorzystanie ograniczonych danych: Szczególnie wartościowe dla aplikacji domenowych

Dla Badań

  • Pryncypialny framework: Przejście od heurystycznego filtrowania do selekcji opartej na optymalizacji
  • Podstawy teoretyczne: Użyteczność w przestrzeni aktualizacji dostarcza jasnego celu
  • Uogólnialne podejście: Działa z różnymi optymalizatorami (AdamW, Muon, itd.) i architekturami modeli

Dla Dziedziny

Selekcja danych staje się nową granicą efektywności LLM. W miarę jak surowe skalowanie napotyka malejące zwroty, mądrzejsze wykorzystanie danych staje się kluczowe. OPUS dostarcza plan na tę przyszłość.


Podsumowanie

OPUS demonstruje, że inteligentna, dynamiczna selekcja danych może dramatycznie poprawić efektywność trenowania LLM. Kluczowe obserwacje matematyczne to:

  1. Użyteczność w przestrzeni aktualizacji: Scoring uwzględniający wyrównanie z celem i karę za redundancję
  2. Ghost + CountSketch: Efektywne obliczenia przez faktoryzację gradientów i sketching
  3. Próbkowanie Boltzmanna: Utrzymywanie różnorodności przez probabilistyczną selekcję

Rezultat: 6-krotne zyski efektywności przy zaledwie 4.7% narzutu obliczeniowego.


Linki