Pretrening

Trenowanie dużych modeli językowych wymaga astronomicznych ilości danych i mocy obliczeniowej. Ale co jeśli większość tych danych jest redundantna redundantna Dane redundantne to takie, które nie wnoszą nowej informacji do procesu uczenia — model już ‘zna’ zawarte w nich wzorce. ? Publikacja “OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration” przedstawia framework, który osiąga porównywalne wyniki przy 6x mniejszej liczbie tokenów tokenów Token to podstawowa jednostka tekstu w LLM — może to być słowo, część słowa lub znak. Model przetwarza tekst jako sekwencję tokenów. dzięki inteligentnemu wybieraniu, z czego model powinien się uczyć na każdym kroku. ...