W artykule “PinFM: Foundation Model for User Activity Sequences at a Billion‑scale Visual Discovery Platform” autorzy przedstawiają $>$20mld‑parametrowy transformator trenowany na sekwencjach działań użytkowników platformy Pinterest. Celem jest stworzenie uniwersalnego modelu sekwencji, który może zostać wykorzystany w różnych zadaniach rekomendacyjnych, takich jak ranking treści, podobne piny czy personalizowane kanały.
Kontekst i motywacja
Systemy rekomendacyjne w serwisach społecznościowych tradycyjnie opierają się na modelach specjalizowanych do konkretnych zadań. Rosnąca liczba danych i różnorodność sygnałów użytkownika wymaga jednak podejścia uogólnionego, opartego na pre‑trainingu i fine‑tuningu. PinFM powstał, aby:
- Wykorzystać bogate historie interakcji (wyświetlenia, kliknięcia, zapisy) do lepszego modelowania preferencji użytkownika.
- Zmniejszyć koszty utrzymania wielu modeli wyspecjalizowanych.
- Przyspieszyć wprowadzanie nowych funkcji rekomendacyjnych.
Architektura modelu
PinFM bazuje na transformatorze z mechanizmem cross‑attention typu Deduplicated Cross‑Attention Transformer (DCAT). Kluczowe cechy:
- Wejście: sekwencja par $ (item_id, action_type) $ o długości $T$, kodowanych w wektorach.
- Cross‑attention: zamiast pełnej kwadratycznej uwagi, DCAT agreguje tylko unikalne reprezentacje, co obniża koszt obliczeń z $O(T^2)$ do $O(TU)$, gdzie $U$ to liczba unikalnych tokenów w sekwencji.
Mechanizm self‑attention definiuje się wzorem:
$$ \text{Attention}(Q,K,V) = \mathrm{softmax}\bigl(\frac{QK^\top}{\sqrt{d}}\bigr)V, $$
gdzie $Q,K,V\in \mathbb{R}^{T\times d}$.
Optymalizacje wydajności
Aby sprostać wymaganiom niskich opóźnień i dużej przepustowości, zespół wprowadził:
- Kwantyzację embeddingów do 4 bitów (int4) – zmniejszenie zużycia pamięci o 75% względem float32 przy minimalnej utracie jakości.
- Mapowanie sekwencji – inteligentne grupowanie sąsiednich tokenów, co redukuje liczbę zapytań cross‑attention.
- Pipeline asynchroniczny – równoległe wykonywanie obliczeń dla różnych warstw modelu.
Wyniki i wnioski
Testy A/B na 100mln użytkowników wykazały:
- +600% przepustowości przy zachowaniu dotychczasowej infrastruktury.
- +20% zaangażowania użytkowników w rekomendacjach trafiających do nowych, nieznanych wcześniej przedmiotów.
- Redukcja kosztów operacyjnych o 30% dzięki konsolidacji wielu modeli w jeden fundament.
Podsumowanie i przyszłe kierunki
PinFM pokazuje, że duże modele sekwencji są praktyczne w środowisku produkcyjnym. Dzięki nowatorskim optymalizacjom można je wdrożyć na platformie obsługującej miliardy zdarzeń dziennie. W przyszłości autorzy planują rozszerzyć podejście o multimodalne sygnały (obrazy, tekst) oraz adaptacyjne uczenie online.
📎 Linki
- Na podstawie publikacji 📄 2507.12704