Współczesne modele uczenia maszynowego, od systemów rozpoznawania obrazu po wielkie modele językowe, osiągnęły imponujące zdolności. Jednak ich siła bywa zwodnicza. Jednym z największych wyzwań w dziedzinie AI jest ich podatność na ataki adwersarialne (ang. adversarial attacks). Są to celowo spreparowane, niewielkie zaburzenia danych wejściowych (np. zmiana kilku pikseli w obrazie), które są niezauważalne dla człowieka, ale potrafią całkowicie zmylić model, prowadząc do błędnych i często absurdalnych decyzji.

Do tej pory walka z tym problemem koncentrowała się na dwóch głównych frontach:

  1. Obrona empiryczna: Metody takie jak trening adwersarialny, które “uczą” model odporności na znane typy ataków. Są skuteczne w praktyce, ale nie dają formalnej gwarancji bezpieczeństwa.
  2. Certyfikaty lokalne: Techniki formalnej weryfikacji, które potrafią matematycznie udowodnić, że dla pojedynczego, konkretnego punktu danych (np. jednego obrazka) żadne zaburzenie w określonym promieniu nie zmieni jego klasyfikacji.

Problem z certyfikatami lokalnymi, mimo ich matematycznej mocy, polega na ich… lokalności. Dają one gwarancję dla jednego punktu, ale nie mówią nic o zachowaniu modelu w szerszej perspektywie. Odpowiedź na pytanie “Jak odporny jest cały model?” pozostawała nieuchwytna. [cite_start]Publikacja autorstwa Wenchuan Mu i Kwan Hui Lim, zatytułowana “Get Global Guarantees: On the Probabilistic Nature of Perturbation Robustness”[cite: 2, 45], proponuje fundamentalną zmianę perspektywy, która pozwala uzyskać właśnie takie globalne gwarancje.


Od Gwarancji Lokalnych do Globalnych: Nowy Paradygmat

[cite_start]Autorzy pracy [cite: 2] słusznie zauważają, że certyfikowanie każdego pojedynczego punktu w zbiorze testowym jest niepraktyczne i obliczeniowo zabójcze. Co więcej, nawet gdybyśmy to zrobili, otrzymalibyśmy jedynie zbiór indywidualnych wyników, a nie jedną, spójną metrykę opisującą cały model.

Kluczowa idea przedstawiona w artykule polega na przeformułowaniu problemu:

  • Zamiast pytać: “Czy ten konkretny obrazek jest odporny na zaburzenia o promieniu $\epsilon$?”
  • Pytamy: “Jakie jest prawdopodobieństwo, że losowo wybrany obrazek z całego rozkładu danych będzie nieodporny na zaburzenia o promieniu $\epsilon$?”

To pozornie prosta zmiana ma ogromne konsekwencje. Problem weryfikacji odporności zostaje przekształcony w problem estymacji statystycznej. Zamiast szukać deterministycznego dowodu dla każdego punktu, dążymy do oszacowania globalnego wskaźnika zawodności z określoną pewnością statystyczną.


Matematyczne Fundamenty Proponowanego Podejścia

Aby zrozumieć sedno metody, musimy zdefiniować kilka pojęć.

1. Definicja Odporności

Niech $f$ będzie naszym klasyfikatorem (np. siecią neuronową), a $x$ daną wejściową. Model jest lokalnie odporny w punkcie $x$ na zaburzenia o promieniu $\epsilon$, jeśli dla każdego zaburzonego punktu $x’$ znajdującego się w kuli $\mathcal{B}(x, \epsilon)$ (np. w oparciu o metrykę $L_p$), predykcja modelu pozostaje taka sama: $$ \forall x’ \in \mathcal{B}(x, \epsilon) : f(x’) = f(x) $$

2. Globalna Miara Podatności

Autorzy definiują kluczową wielkość, którą chcą oszacować – globalne prawdopodobieństwo błędnej predykcji pod wpływem zaburzenia ($p$). Jest to prawdopodobieństwo, że dla losowego punktu $x$ pochodzącego z rozkładu danych $\mathcal{D}$, istnieje w jego otoczeniu o promieniu $\epsilon$ co najmniej jeden punkt adwersarialny: $$ p = \mathbb{P}_{x \sim \mathcal{D}}(\exists x’ \in \mathcal{B}(x, \epsilon) : f(x’) \neq f(x)) $$ Ta pojedyncza liczba, $p \in [0, 1]$, stanowi globalną, holistyczną miarę odporności całego modelu. Im niższa jej wartość, tym model jest bezpieczniejszy.

3. Estymacja i Gwarancje Statystyczne

Oczywiście, dokładne wyliczenie $p$ jest niemożliwe, ponieważ wymagałoby to analizy całego, często nieskończonego rozkładu danych $\mathcal{D}$. Zamiast tego, autorzy proponują prostą i elegancką procedurę statystyczną:

  1. Pobranie próbki: Z naszego zbioru danych losujemy próbkę $n$ punktów.
  2. Weryfikacja lokalna: Dla każdego z $n$ punktów używamy istniejącego certyfikatora (narzędzia do weryfikacji lokalnej), aby sprawdzić, czy jest on odporny. Wynikiem dla każdego punktu jest odpowiedź binarna: “odporny” (0) lub “nieodporny” (1).
  3. Obliczenie proporcji: Zliczamy, ile punktów w próbce okazało się nieodpornych (oznaczmy tę liczbę jako $k$). Estymatorem globalnego prawdopodobieństwa $p$ jest proporcja z próbki: $\hat{p} = k/n$.
  4. Przedział ufności: $\hat{p}$ to tylko estymacja punktowa. Aby uzyskać formalną gwarancję, autorzy wykorzystują klasyczne narzędzia statystyczne do skonstruowania przedziału ufności dla $p$. W pracy sugerują użycie dokładnego przedziału Cloppera-Pearsona, który dla danego poziomu ufności $1-\alpha$ (np. 99%) dostarcza dolną ($p_L$) i górną ($p_U$) granicę, w której z dużym prawdopodobieństwem znajduje się prawdziwa wartość $p$.

Ostatecznym rezultatem nie jest więc jedna liczba, ale stwierdzenie postaci: “Z 99% ufnością możemy zagwarantować, że globalne prawdopodobieństwo podatności na ataki tego modelu wynosi nie więcej niż $p_U$”.


Znaczenie i Kluczowe Wnioski

Podejście zaproponowane w tej publikacji ma kilka fundamentalnych zalet:

  • Efektywność Obliczeniowa: Zamiast certyfikować dziesiątki tysięcy punktów testowych, wystarczy przeanalizować znacznie mniejszą, losową próbkę (np. kilkaset punktów), aby uzyskać wiarygodne statystycznie gwarancje.
  • Holistyczna Ocena: Po raz pierwszy otrzymujemy jedną, intuicyjną metrykę, która charakteryzuje całościową odporność modelu, a nie tylko jego zachowanie w izolowanych punktach.
  • Uczciwe Porównywanie Modeli: Metoda ta pozwala na obiektywne i rygorystyczne porównywanie różnych architektur i technik obronnych. Model, dla którego uzyskamy ciaśniejszy przedział ufności z niższą górną granicą, jest w sposób mierzalny lepszy.
  • Uniwersalność: Podejście to jest agnostyczne względem użytego lokalnego certyfikatora. Można je zastosować z dowolną istniejącą metodą weryfikacji, wykorzystując jej mocne strony.

Praca ta stanowi ważny krok w kierunku budowy bardziej wiarygodnych i bezpiecznych systemów AI. Przenosząc ciężar z deterministycznego dowodzenia na rzecz statystycznego gwarantowania, otwiera drogę do praktycznej i skalowalnej oceny odporności modeli, co jest kluczowe dla ich wdrażania w krytycznych zastosowaniach.


📎 Linki