Czy można poprawić skuteczność systemu reklamowego o prawie 10% tylko dzięki lepszemu dobieraniu wag w funkcji rankingowej?
Okazuje się, że tak – i właśnie o tym jest publikacja Deep Reinforcement Learning for Ranking Utility Tuning in the Ad Recommender System at Pinterest (arXiv:2509.05292).

Tradycyjnie ranking reklam opiera się na funkcji utility, czyli liniowej kombinacji przewidywań różnych modeli, np. CTR (click-through rate), szansy zakupu, czy innych wskaźników biznesowych.
Problem? Wagi tych predyktorów były dotąd dostrajane ręcznie przez zespoły inżynierskie. To:

daje prostą i transparentną interpretację,
ale jest nieefektywne, mało elastyczne i niepersonalizowane.

Pinterest proponuje nową metodę: DRL-PUT (Deep Reinforcement Learning for Personalized Utility Tuning).

Idea

System traktuje problem wyboru wag w funkcji utility jako zadanie uczenia ze wzmocnieniem (RL):

stan opisuje kontekst zapytania reklamowego (użytkownik, kontekst sesji, cechy reklamy),
akcja to wybór odpowiednich wag lub hiperparametrów rankingowych,
nagroda odzwierciedla biznesowy cel, np. CTR, LC-CTR, czy złożone funkcje mieszane.

Dzięki temu zamiast ręcznego dostrajania – model sam uczy się jak najlepiej dostosować ranking w danym momencie i dla danego użytkownika.

Architektura DRL-PUT

Całość oparta jest o policy learning (uczenie polityki), a nie o klasyczne szacowanie funkcji wartości $Q(s, a)$.

1. Reprezentacja stanu

Stan $s$ opisuje:

cechy użytkownika,
kontekst sesji (np. czas, typ urządzenia),
charakterystyki zapytań reklamowych.

W praktyce: duży wektor cech, który trafia do sieci neuronowej.

2. Polityka (Policy Network)

Model to głęboka sieć neuronowa $ \pi_\theta(a|s) $, która bezpośrednio przewiduje optymalne parametry utility.
Nie uczymy więc wartości akcji $Q(s,a)$, tylko od razu wybieramy akcję.

Wejście: reprezentacja stanu $s$,
Wyjście: wektor wag $w$, które definiują funkcję rankingową:
$$ U(x) = \sum_i w_i \cdot f_i(x), $$ gdzie $f_i(x)$ to różne predyktory (np. CTR, konwersja, długość kliknięcia).

3. Definicja nagrody

Pinterest testował różne funkcje nagrody:

CTR (click-through rate),
LC-CTR (long click-through rate),
mieszane metryki biznesowe.

Nagroda $R$ jest obliczana offline z logów online – dzięki temu nie trzeba prowadzić kosztownego treningu online.

4. Trening

Zastosowano uczenie bezpośredniej polityki (direct policy learning):

zamiast szacować $Q(s,a)$ (co bywa niestabilne i wymaga wielu danych),
model uczy się minimalizować stratę opartą na tym, jak dobrze przewiduje akcje maksymalizujące nagrodę w danych logach.

Wyniki

Testy A/B w systemie reklamowym Pinterest pokazały:

CTR wzrosło o 9,7%,
LC-CTR o 7,7%,
w porównaniu do ręcznie dostrojonej funkcji utility.

Dla systemu, w którym każda setna procenta przekłada się na miliony dolarów – to ogromny skok jakości.

Dlaczego to działa?

Personalizacja – różni użytkownicy i konteksty dostają różne wagi utility.
Elastyczność – system adaptuje się do sezonowych zmian i nowych kampanii.
Brak ręcznego tuningu – inżynierowie nie muszą spędzać tygodni na ustawianiu parametrów.

Aspekt matematyczny

Zadanie można formalnie zapisać jako proces decyzyjny Markowa (MDP):

$s_t$ – stan (cechy użytkownika i kontekstu),
$a_t$ – akcja (zestaw wag utility),
$r_t$ – nagroda (CTR/LC-CTR),
$\pi_\theta$ – polityka.

Celem jest maksymalizacja oczekiwanej sumy nagród: $$ J(\theta) = E_{\pi_\theta} [\sum_{t=0}^T \gamma^t r_t], $$ gdzie $\gamma$ to współczynnik dyskontowania.
DRL-PUT korzysta z gradientów polityki, aby aktualizować $\theta$: $$ \nabla_\theta J(\theta) \approx \frac{1}{N} \sum_{i=1}^N \nabla_\theta \log \pi_\theta(a_i|s_i) R_i. $$

Podsumowanie

Publikacja pokazuje, że:

uczenie ze wzmocnieniem może być praktycznie użyte do strojenia rankingów w systemach reklamowych,
podejście DRL-PUT przewyższa ręczne metody,
nawet w gigantycznych systemach jak Pinterest możliwa jest szybka i skuteczna adaptacja wag utility.

To świetny przykład, jak połączenie teorii RL z realnym problemem biznesowym daje wymierne efekty.

📎 Linki

Na podstawie publikacji 📄 2509.05292

Idea#

Architektura DRL-PUT#

1. Reprezentacja stanu#

2. Polityka (Policy Network)#

3. Definicja nagrody#

4. Trening#

Wyniki#

Dlaczego to działa?#

Aspekt matematyczny#

Podsumowanie#

📎 Linki#