Czy można poprawić skuteczność systemu reklamowego o prawie 10% tylko dzięki lepszemu dobieraniu wag w funkcji rankingowej?
Okazuje się, że tak – i właśnie o tym jest publikacja Deep Reinforcement Learning for Ranking Utility Tuning in the Ad Recommender System at Pinterest (arXiv:2509.05292).

Tradycyjnie ranking reklam opiera się na funkcji utility, czyli liniowej kombinacji przewidywań różnych modeli, np. CTR (click-through rate), szansy zakupu, czy innych wskaźników biznesowych.
Problem? Wagi tych predyktorów były dotąd dostrajane ręcznie przez zespoły inżynierskie. To:

  • daje prostą i transparentną interpretację,
  • ale jest nieefektywne, mało elastyczne i niepersonalizowane.

Pinterest proponuje nową metodę: DRL-PUT (Deep Reinforcement Learning for Personalized Utility Tuning).


Idea

System traktuje problem wyboru wag w funkcji utility jako zadanie uczenia ze wzmocnieniem (RL):

  • stan opisuje kontekst zapytania reklamowego (użytkownik, kontekst sesji, cechy reklamy),
  • akcja to wybór odpowiednich wag lub hiperparametrów rankingowych,
  • nagroda odzwierciedla biznesowy cel, np. CTR, LC-CTR, czy złożone funkcje mieszane.

Dzięki temu zamiast ręcznego dostrajania – model sam uczy się jak najlepiej dostosować ranking w danym momencie i dla danego użytkownika.


Architektura DRL-PUT

Całość oparta jest o policy learning (uczenie polityki), a nie o klasyczne szacowanie funkcji wartości $Q(s, a)$.

1. Reprezentacja stanu

Stan $s$ opisuje:

  • cechy użytkownika,
  • kontekst sesji (np. czas, typ urządzenia),
  • charakterystyki zapytań reklamowych.

W praktyce: duży wektor cech, który trafia do sieci neuronowej.

2. Polityka (Policy Network)

Model to głęboka sieć neuronowa $ \pi_\theta(a|s) $, która bezpośrednio przewiduje optymalne parametry utility.
Nie uczymy więc wartości akcji $Q(s,a)$, tylko od razu wybieramy akcję.

  • Wejście: reprezentacja stanu $s$,
  • Wyjście: wektor wag $w$, które definiują funkcję rankingową:
    $$ U(x) = \sum_i w_i \cdot f_i(x), $$ gdzie $f_i(x)$ to różne predyktory (np. CTR, konwersja, długość kliknięcia).

3. Definicja nagrody

Pinterest testował różne funkcje nagrody:

  • CTR (click-through rate),
  • LC-CTR (long click-through rate),
  • mieszane metryki biznesowe.

Nagroda $R$ jest obliczana offline z logów online – dzięki temu nie trzeba prowadzić kosztownego treningu online.

4. Trening

Zastosowano uczenie bezpośredniej polityki (direct policy learning):

  • zamiast szacować $Q(s,a)$ (co bywa niestabilne i wymaga wielu danych),
  • model uczy się minimalizować stratę opartą na tym, jak dobrze przewiduje akcje maksymalizujące nagrodę w danych logach.

Wyniki

Testy A/B w systemie reklamowym Pinterest pokazały:

  • CTR wzrosło o 9,7%,
  • LC-CTR o 7,7%,
  • w porównaniu do ręcznie dostrojonej funkcji utility.

Dla systemu, w którym każda setna procenta przekłada się na miliony dolarów – to ogromny skok jakości.


Dlaczego to działa?

  1. Personalizacja – różni użytkownicy i konteksty dostają różne wagi utility.
  2. Elastyczność – system adaptuje się do sezonowych zmian i nowych kampanii.
  3. Brak ręcznego tuningu – inżynierowie nie muszą spędzać tygodni na ustawianiu parametrów.

Aspekt matematyczny

Zadanie można formalnie zapisać jako proces decyzyjny Markowa (MDP):

  • $s_t$ – stan (cechy użytkownika i kontekstu),
  • $a_t$ – akcja (zestaw wag utility),
  • $r_t$ – nagroda (CTR/LC-CTR),
  • $\pi_\theta$ – polityka.

Celem jest maksymalizacja oczekiwanej sumy nagród: $$ J(\theta) = E_{\pi_\theta} [\sum_{t=0}^T \gamma^t r_t], $$ gdzie $\gamma$ to współczynnik dyskontowania.
DRL-PUT korzysta z gradientów polityki, aby aktualizować $\theta$: $$ \nabla_\theta J(\theta) \approx \frac{1}{N} \sum_{i=1}^N \nabla_\theta \log \pi_\theta(a_i|s_i) R_i. $$


Podsumowanie

Publikacja pokazuje, że:

  • uczenie ze wzmocnieniem może być praktycznie użyte do strojenia rankingów w systemach reklamowych,
  • podejście DRL-PUT przewyższa ręczne metody,
  • nawet w gigantycznych systemach jak Pinterest możliwa jest szybka i skuteczna adaptacja wag utility.

To świetny przykład, jak połączenie teorii RL z realnym problemem biznesowym daje wymierne efekty.


📎 Linki