Systematyzacja Wiedzy: Minimalizacja Danych w Uczeniu Maszynowym

Współczesne systemy oparte na uczeniu maszynowym (ML) są wszechobecne, od oceny zdolności kredytowej po wykrywanie oszustw. Panuje przekonanie, że im więcej danych, tym lepszy model. Jednak to “datocentryczne” podejście stoi w bezpośredniej sprzeczności z fundamentalną zasadą prawną: minimalizacją danych (DM). Zasada ta, zapisana w kluczowych regulacjach, takich jak RODO (GDPR) w Europie i CPRA w Kalifornii, nakazuje, aby zbierać i przetwarzać tylko te dane osobowe, które są “adekwatne, stosowne oraz ograniczone do tego, co niezbędne do celów, w których są przetwarzane”.

Naruszenia tej zasady mają realne konsekwencje, włączając w to kary finansowe sięgające setek milionów dolarów. Mimo to, praktycy ML często stają przed dylematem: jak pogodzić wymogi prawne z techniczną potrzebą posiadania dużych zbiorów danych? Co więcej, wiele istniejących technik w dziedzinie prywatności i bezpieczeństwa ML, takich jak selekcja cech czy uczenie federacyjne, realizuje cele minimalizacji danych, ale rzadko jest to jawnie komunikowane. Prowadzi to do chaosu terminologicznego i niepewności co do zgodności z prawem.

Artykuł “SoK: Data Minimization in Machine Learning” autorstwa Robina Staaba i współpracowników ma na celu uporządkowanie tej wiedzy, wprowadzając kompleksowe ramy dla Minimalizacji Danych w Uczeniu Maszynowym (DMML).

Zunifikowane Ramy (Framework) dla DMML

Głównym wkładem pracy jest stworzenie ujednoliconego frameworku, który systematyzuje podejście do minimalizacji danych w całym cyklu życia modelu ML. Składa się on z kilku kluczowych elementów:

1. Aktorzy w Procesie

Framework definiuje trzy główne role w procesie przetwarzania danych:

Właściciel Danych (Klient): Osoba lub podmiot, który dostarcza swoje dane (np. pacjent w systemie szpitalnym).
Zbierający Dane (Kolektor): Podmiot, który gromadzi dane od Klientów (np. szpital).
Dostawca Usługi (Serwer): Podmiot, który trenuje model ML na danych otrzymanych od Kolektora i wykonuje na nim operacje (np. dostawca usług chmurowych).

Przykład: Szpital (Kolektor) zbiera dane medyczne od pacjentów (Klientów), aby wytrenować model przewidujący ryzyko choroby. Ponieważ nie posiada własnych zasobów obliczeniowych, zleca trenowanie modelu i późniejsze predykcje zewnętrznej firmie chmurowej (Serwer).

2. Potok Przetwarzania Danych (Pipeline)

Dane przepływają przez system zarówno w fazie treningu, jak i inferencji (użycia modelu). Na każdym etapie mogą być poddawane transformacjom, które minimalizują ilość informacji. Framework identyfikuje również punkty, w których dane mogą zostać przechwycone przez adwersarza (osobę atakującą).

3. Rodzaje i Techniki Minimalizacji Danych

Minimalizacja danych nie jest monolitycznym pojęciem. Autorzy wyróżniają kilka jej głównych typów, które można zilustrować na przykładzie naszego szpitala:

Minimalizacja Horyzontalna (Usuwanie Rekordów): Polega na zmniejszeniu liczby zbieranych rekordów (pacjentów).
- Przykład (Selekcja Danych): Zamiast używać danych wszystkich pacjentów, szpital wykorzystuje techniki selekcji danych (np. coreset) do wybrania mniejszego, ale reprezentatywnego podzbioru, który wystarczy do wytrenowania skutecznego modelu. Dane pacjentów spoza tego podzbioru nie są w ogóle przetwarzane w tym celu.
Minimalizacja Wertykalna (Redukcja Informacji w Rekordzie): Polega na zmniejszeniu szczegółowości informacji w ramach pojedynczego rekordu (danych jednego pacjenta). Można to osiągnąć na trzy sposoby:
- Tłumienie (Suppression): Całkowite usunięcie pewnych atrybutów.
  - Przykład (Selekcja Cech): Szpital stwierdza, że atrybut “nazwisko” nie jest potrzebny do predykcji choroby. Ta cecha jest więc usuwana ze zbioru danych przed wysłaniem go do Serwera.
- Generalizacja (Uogólnienie): Zmniejszenie precyzji danych.
  - Przykład (k-Anonimowość): Zamiast zbierać dokładny wiek pacjenta (np. 47 lat), szpital zapisuje jedynie przedział wiekowy (np. “40-50 lat”). To utrudnia reidentyfikację.
- Transformacja (Przekształcenie): Zastosowanie nieodwracalnej lub trudnej do odwrócenia transformacji, która ukrywa oryginalne dane.
  - Przykład (Uczenie Federacyjne): Zamiast wysyłać surowe dane z urządzeń medycznych pacjentów do centralnej bazy danych, model jest trenowany lokalnie na tych urządzeniach. Do Kolektora wysyłane są jedynie zagregowane aktualizacje modelu (gradienty), a nie prywatne dane pacjentów.

4. Kiedy i Gdzie? Minimalizacja Pre-Hoc vs. Post-Hoc

Kluczowe znaczenie ma moment, w którym dane są minimalizowane:

Pre-Hoc (przed zebraniem): Dane są minimalizowane na urządzeniu Klienta, zanim opuszczą jego kontrolę. To podejście jest znacznie lepsze z perspektywy prywatności. Przykładem jest wspomniane uczenie federacyjne, gdzie surowe dane nigdy nie są wysyłane do Kolektora.
Post-Hoc (po zebraniu): Kolektor najpierw zbiera pełne dane, a dopiero potem je minimalizuje. Wymaga to zaufania do Kolektora. Przykładem są techniki publikowania danych z zachowaniem prywatności (PPDP), gdzie szpital zbiera pełne kartoteki, a następnie je anonimizuje (np. poprzez generalizację wieku) przed udostępnieniem ich dalej.

Wnioski dla Praktyków i Badaczy

Artykuł “SoK: Data Minimization in Machine Learning” dostarcza niezwykle potrzebnego języka i struktury do dyskusji na temat minimalizacji danych w AI. Dzięki przedstawionemu frameworkowi:

Praktycy mogą świadomie dobierać techniki ML, rozumiejąc ich wpływ na prywatność i zgodność z RODO. Mogą jasno zidentyfikować, w którym punkcie swojego systemu i przeciwko jakim zagrożeniom chcą zastosować minimalizację.
Badacze otrzymują ujednoliconą perspektywę, która łączy pozornie odległe dziedziny, takie jak uczenie federacyjne, prywatność różnicowa i selekcja cech, pod wspólnym parasolem minimalizacji danych.
Regulatorzy zyskują wgląd w techniczne możliwości i ograniczenia, co może pomóc w tworzeniu bardziej precyzyjnych wytycznych dotyczących wdrażania zasad minimalizacji danych w praktyce.

W dobie rosnącej świadomości na temat prywatności, integracja zasad minimalizacji danych w samym sercu procesów ML nie jest już opcją, a koniecznością. Ta praca stanowi kluczowy krok w kierunku operacjonalizacji tych zasad w świecie rzeczywistym.

📎 Linki

Na podstawie publikacji 📄 2508.10836

Zunifikowane Ramy (Framework) dla DMML#

1. Aktorzy w Procesie#

2. Potok Przetwarzania Danych (Pipeline)#

3. Rodzaje i Techniki Minimalizacji Danych#

4. Kiedy i Gdzie? Minimalizacja Pre-Hoc vs. Post-Hoc#

Wnioski dla Praktyków i Badaczy#

📎 Linki#