W świecie sztucznej inteligencji dane są paliwem, które napędza modele do nauki. Ale co, jeśli to paliwo jest zanieczyszczone? Błędnie oznaczone dane, zwane szumem w etykietach, to ogromny problem, który może sprawić, że nawet najlepszy algorytm nauczy się kompletnych bzdur. Publikacja “ε-Softmax: Approximating One-Hot Vectors for Mitigating Label Noise”, przyjęta na prestiżową konferencję NeurIPS 2024, proponuje eleganckie rozwiązanie tego problemu.

Problem: Gdy model ślepo ufa etykietom

Wyobraźmy sobie, że uczymy model rozpoznawać zwierzęta. Pokazujemy mu zdjęcie uroczego kota. W tradycyjnym podejściu dajemy mu absolutnie pewną informację, tzw. wektor one-hot:

[Kot: 100%, Pies: 0%, Ptak: 0%]

Model dostaje twardy komunikat: “To jest kot. Koniec kropka. Naucz się tego.”

A teraz wyobraźmy sobie, że ktoś się pomylił i to samo zdjęcie kota oznaczył jako “pies”. Model otrzymuje absurdalne polecenie: “To, co widzisz (kota), jest w 100% psem”. To wprowadza chaos. Model jest karany za swoją prawidłową intuicję i na siłę próbuje znaleźć w kocie cechy psa, psując swoją dotychczasową wiedzę.

Rozwiązanie: ε-Softmax, czyli zdrowy sceptycyzm

I tu właśnie wkracza ε-Softmax ($ \epsilon $-Softmax). Zamiast bezkrytycznie przyjmować etykietę, metoda ta “zmiękcza” ją, wprowadzając odrobinę niepewności.

Błędna etykieta “pies” dla zdjęcia kota nie jest już absolutna. Zamiast tego cel dla modelu wygląda mniej więcej tak:

[Kot: 5%, Pies: 90%, Ptak: 5%]

Komunikat dla modelu brzmi teraz: “Według danych, to jest bardzo prawdopodobnie pies, ale zachowajmy mały margines na błąd”.

Dzięki temu, gdy naturalną odpowiedzią modelu jest “widzę kota”, kara za niezgodność z etykietą jest znacznie mniejsza. Algorytm nie musi drastycznie zmieniać swojej wiedzy z powodu jednego błędnego przykładu. To tak, jakby mądry nauczyciel powiedział: “W podręczniku jest błąd, nie bierz tego za pewnik”.

Co znajdziemy w publikacji?

Autorzy, Jialiang Wang i współpracownicy, nie tylko przedstawili teorię. Przeprowadzili szeroko zakrojone eksperymenty, które pokazały, że ich metoda przewyższa istniejące rozwiązania w radzeniu sobie zarówno z syntetycznym (celowo wprowadzonym), jak i rzeczywistym szumem w danych.

Co więcej, udostępnili kod swojej pracy, co pozwala społeczności na weryfikację i implementację ich rozwiązania we własnych projektach.

Dlaczego to ważne?

W czasach, gdy budujemy coraz większe modele na gigantycznych zbiorach danych (często z internetu), ryzyko “zanieczyszczonych” etykiet jest ogromne. Metody takie jak ε-Softmax to kluczowy krok w stronę tworzenia bardziej solidnych i niezawodnych systemów AI, które potrafią uczyć się efektywnie nawet z niedoskonałych danych.


Na podstawie publikacji 📄 arXiv:2508.02387