Współczesne systemy rozpoznawania emocji coraz częściej sięgają po dane z wielu źródeł – od sygnałów fizjologicznych (np. rytm serca, przewodność skóry) po obraz z kamery rejestrującej mimikę twarzy. Celem jest odzwierciedlenie bogactwa ludzkich odczuć, gdzie często współistnieje kilka emocji jednocześnie. Tradycyjne metody skupiały się jednak na jednoznacznym przypisaniu jednej emocji do próbki (np. „radość” lub „smutek”).
Publikacja “HeLo: Heterogeneous Multi-Modal Fusion with Label Correlation for Emotion Distribution Learning” proponuje kompletnie nowe podejście – uczenie rozkładu emocji, w którym model przewiduje, z jakim prawdopodobieństwem występują każda z podstawowych emocji.
1. Dla zobrazowania…
Wyobraźmy sobie, że chcemy przewidzieć, jak bardzo jesteśmy:
- Zaskoczeni,
- Szczęśliwi,
- Zmartwieni,
- Zrelaksowani.
Zamiast mówić „To zdjęcie wygląda na wesołe” i przypisywać jedną etykietę, chcemy powiedzieć:
„Jest w nim w 60% radości, 30% zaskoczenia i 10% smutku.”
Do tego używamy dwóch źródeł informacji:
- Mimikę twarzy – analizowaną przez sieć neuronową, która wyciąga cechy wizualne,
- Sygnały fizjologiczne (np. tętno) – analizowane przez prostą sieć MLP.
Model “patrzy” na obie reprezentacje jednocześnie i uczy się, które cechy mówią o radości, a które o zaskoczeniu. Dodatkowo, rozumie, że niektóre emocje idą w parze (np. radość i zaskoczenie), a inne rzadziej występują razem (np. smutek i zadowolenie).
2. Kluczowe moduły HeLo
2.1. Fuzja przez Cross‐Attention
- Query: wektory z sygnałów fizjologicznych,
- Key/Value: wektory z analiz obrazu twarzy,
- Mechanizm uwagi pozwala „sparować” poszczególne fragmenty obu reprezentacji, by uzyskać wspólny wektor multimodalny.
2.2. Badanie heterogeniczności (Optimal Transport)
- Reprezentacje z każdej modalności traktujemy jak rozkłady punktów w przestrzeni.
- Definiujemy koszt przesunięcia między każdą parą punktów i rozwiązujemy problem optimum transportu przy pomocy iteracji Sinkhorna.
- Wynikiem jest macierz wag, która wskazuje, jak silnie powinniśmy łączyć dane źródło A z danym źródłem B.
2.3. Osadzanie etykiet z korelacjami
- Każdej emocji przypisujemy wektor etykiety w tej samej przestrzeni co multimodalny wektor.
- Uczymy je tak, by odzwierciedlały korelacje obserwowane w zbiorze treningowym.
- Wprowadzamy karę (stratę), która minimalizuje różnicę między macierzą korelacji wektorów a korelacją empiryczną.
2.4. Label‐Correlation‐Driven Attention
- Teraz to wektory etykiet są Query, a multimodalny wektor Key/Value.
- Każda etykieta „zwraca uwagę” na te części multimodalnego wektora, które są dla niej istotne.
- Ostatecznie otrzymujemy macierz $K×d$, w której każdy wiersz mówi o jednej emocji.
3. Matematyczne podstawy i straty modelu
Optymalny transport
$$ \min_{\pi\in U(\mu,\nu)} \langle \pi, C\rangle - \varepsilon H(\pi) \quad\text{gdzie}\quad C_{ij} = |p_i - b_j|^2, $$ a iteracje Sinkhorna obliczają przybliżenie $π^*$.Strata korelacji etykiet
$$ \mathcal{L}_{corr} = \bigl|\mathrm{softmax}(L L^T) - R\bigr|_F^2, $$ gdzie $R$ to korelacja empiryczna.Łączna funkcja celu
$ \mathcal{L}=\mathrm{EMD}(Y,Y_{gt})+ \lambda_{OT}\mathcal{L}_{OT}+ $$ \lambda_{corr} \mathcal{L}_{corr} $
4. Kierunki rozwoju
- Dodanie kolejnych modalności (audio, tekst)
- Badanie wpływu korelacji etykiet w różnych kulturach
- Zastosowania w robotyce społecznej – przyjazne avatary, asystenci emocjonalni
- Optymalizacja obliczeniowa – lżejsze moduły OT na urządzenia mobilne
📎 Linki
- Na podstawie publikacji 📄 2507.06821