Czy można poprawić skuteczność systemu reklamowego o prawie 10% tylko dzięki lepszemu dobieraniu wag w funkcji rankingowej?
Okazuje się, że tak – i właśnie o tym jest publikacja Deep Reinforcement Learning for Ranking Utility Tuning in the Ad Recommender System at Pinterest (arXiv:2509.05292).
Tradycyjnie ranking reklam opiera się na funkcji utility, czyli liniowej kombinacji przewidywań różnych modeli, np. CTR (click-through rate), szansy zakupu, czy innych wskaźników biznesowych.
Problem? Wagi tych predyktorów były dotąd dostrajane ręcznie przez zespoły inżynierskie. To:
- daje prostą i transparentną interpretację,
- ale jest nieefektywne, mało elastyczne i niepersonalizowane.
Pinterest proponuje nową metodę: DRL-PUT (Deep Reinforcement Learning for Personalized Utility Tuning).
Idea
System traktuje problem wyboru wag w funkcji utility jako zadanie uczenia ze wzmocnieniem (RL):
- stan opisuje kontekst zapytania reklamowego (użytkownik, kontekst sesji, cechy reklamy),
- akcja to wybór odpowiednich wag lub hiperparametrów rankingowych,
- nagroda odzwierciedla biznesowy cel, np. CTR, LC-CTR, czy złożone funkcje mieszane.
Dzięki temu zamiast ręcznego dostrajania – model sam uczy się jak najlepiej dostosować ranking w danym momencie i dla danego użytkownika.
Architektura DRL-PUT
Całość oparta jest o policy learning (uczenie polityki), a nie o klasyczne szacowanie funkcji wartości $Q(s, a)$.
1. Reprezentacja stanu
Stan $s$ opisuje:
- cechy użytkownika,
- kontekst sesji (np. czas, typ urządzenia),
- charakterystyki zapytań reklamowych.
W praktyce: duży wektor cech, który trafia do sieci neuronowej.
2. Polityka (Policy Network)
Model to głęboka sieć neuronowa $ \pi_\theta(a|s) $, która bezpośrednio przewiduje optymalne parametry utility.
Nie uczymy więc wartości akcji $Q(s,a)$, tylko od razu wybieramy akcję.
- Wejście: reprezentacja stanu $s$,
- Wyjście: wektor wag $w$, które definiują funkcję rankingową:
$$ U(x) = \sum_i w_i \cdot f_i(x), $$ gdzie $f_i(x)$ to różne predyktory (np. CTR, konwersja, długość kliknięcia).
3. Definicja nagrody
Pinterest testował różne funkcje nagrody:
- CTR (click-through rate),
- LC-CTR (long click-through rate),
- mieszane metryki biznesowe.
Nagroda $R$ jest obliczana offline z logów online – dzięki temu nie trzeba prowadzić kosztownego treningu online.
4. Trening
Zastosowano uczenie bezpośredniej polityki (direct policy learning):
- zamiast szacować $Q(s,a)$ (co bywa niestabilne i wymaga wielu danych),
- model uczy się minimalizować stratę opartą na tym, jak dobrze przewiduje akcje maksymalizujące nagrodę w danych logach.
Wyniki
Testy A/B w systemie reklamowym Pinterest pokazały:
- CTR wzrosło o 9,7%,
- LC-CTR o 7,7%,
- w porównaniu do ręcznie dostrojonej funkcji utility.
Dla systemu, w którym każda setna procenta przekłada się na miliony dolarów – to ogromny skok jakości.
Dlaczego to działa?
- Personalizacja – różni użytkownicy i konteksty dostają różne wagi utility.
- Elastyczność – system adaptuje się do sezonowych zmian i nowych kampanii.
- Brak ręcznego tuningu – inżynierowie nie muszą spędzać tygodni na ustawianiu parametrów.
Aspekt matematyczny
Zadanie można formalnie zapisać jako proces decyzyjny Markowa (MDP):
- $s_t$ – stan (cechy użytkownika i kontekstu),
- $a_t$ – akcja (zestaw wag utility),
- $r_t$ – nagroda (CTR/LC-CTR),
- $\pi_\theta$ – polityka.
Celem jest maksymalizacja oczekiwanej sumy nagród:
$$
J(\theta) = E_{\pi_\theta} [\sum_{t=0}^T \gamma^t r_t],
$$
gdzie $\gamma$ to współczynnik dyskontowania.
DRL-PUT korzysta z gradientów polityki, aby aktualizować $\theta$:
$$
\nabla_\theta J(\theta) \approx \frac{1}{N} \sum_{i=1}^N \nabla_\theta \log \pi_\theta(a_i|s_i) R_i.
$$
Podsumowanie
Publikacja pokazuje, że:
- uczenie ze wzmocnieniem może być praktycznie użyte do strojenia rankingów w systemach reklamowych,
- podejście DRL-PUT przewyższa ręczne metody,
- nawet w gigantycznych systemach jak Pinterest możliwa jest szybka i skuteczna adaptacja wag utility.
To świetny przykład, jak połączenie teorii RL z realnym problemem biznesowym daje wymierne efekty.
📎 Linki
- Na podstawie publikacji 📄 2509.05292