W artykule “PinFM: Foundation Model for User Activity Sequences at a Billion‑scale Visual Discovery Platform” autorzy przedstawiają $>$20mld‑parametrowy transformator trenowany na sekwencjach działań użytkowników platformy Pinterest. Celem jest stworzenie uniwersalnego modelu sekwencji, który może zostać wykorzystany w różnych zadaniach rekomendacyjnych, takich jak ranking treści, podobne piny czy personalizowane kanały.

Kontekst i motywacja

Systemy rekomendacyjne w serwisach społecznościowych tradycyjnie opierają się na modelach specjalizowanych do konkretnych zadań. Rosnąca liczba danych i różnorodność sygnałów użytkownika wymaga jednak podejścia uogólnionego, opartego na pre‑trainingu i fine‑tuningu. PinFM powstał, aby:

  • Wykorzystać bogate historie interakcji (wyświetlenia, kliknięcia, zapisy) do lepszego modelowania preferencji użytkownika.
  • Zmniejszyć koszty utrzymania wielu modeli wyspecjalizowanych.
  • Przyspieszyć wprowadzanie nowych funkcji rekomendacyjnych.

Architektura modelu

PinFM bazuje na transformatorze z mechanizmem cross‑attention typu Deduplicated Cross‑Attention Transformer (DCAT). Kluczowe cechy:

  • Wejście: sekwencja par $ (item_id, action_type) $ o długości $T$, kodowanych w wektorach.
  • Cross‑attention: zamiast pełnej kwadratycznej uwagi, DCAT agreguje tylko unikalne reprezentacje, co obniża koszt obliczeń z $O(T^2)$ do $O(TU)$, gdzie $U$ to liczba unikalnych tokenów w sekwencji.

Mechanizm self‑attention definiuje się wzorem:

$$ \text{Attention}(Q,K,V) = \mathrm{softmax}\bigl(\frac{QK^\top}{\sqrt{d}}\bigr)V, $$

gdzie $Q,K,V\in \mathbb{R}^{T\times d}$.

Optymalizacje wydajności

Aby sprostać wymaganiom niskich opóźnień i dużej przepustowości, zespół wprowadził:

  1. Kwantyzację embeddingów do 4 bitów (int4) – zmniejszenie zużycia pamięci o 75% względem float32 przy minimalnej utracie jakości.
  2. Mapowanie sekwencji – inteligentne grupowanie sąsiednich tokenów, co redukuje liczbę zapytań cross‑attention.
  3. Pipeline asynchroniczny – równoległe wykonywanie obliczeń dla różnych warstw modelu.

Wyniki i wnioski

Testy A/B na 100mln użytkowników wykazały:

  • +600% przepustowości przy zachowaniu dotychczasowej infrastruktury.
  • +20% zaangażowania użytkowników w rekomendacjach trafiających do nowych, nieznanych wcześniej przedmiotów.
  • Redukcja kosztów operacyjnych o 30% dzięki konsolidacji wielu modeli w jeden fundament.

Podsumowanie i przyszłe kierunki

PinFM pokazuje, że duże modele sekwencji są praktyczne w środowisku produkcyjnym. Dzięki nowatorskim optymalizacjom można je wdrożyć na platformie obsługującej miliardy zdarzeń dziennie. W przyszłości autorzy planują rozszerzyć podejście o multimodalne sygnały (obrazy, tekst) oraz adaptacyjne uczenie online.


📎 Linki