Wyobraź sobie, że analizujesz dane z czujników. Nagle jeden z nich pokazuje -999°C. To tzw. outlier — odstający punkt, który potrafi całkowicie zafałszować analizę.
🧩 Czym jest faktoryzacja?
Faktoryzacja macierzy to technika pozwalająca rozłożyć dane $X$ na dwa nieujemne składniki: $$ X \approx WH $$
Gdzie $W$ zawiera „cechy”, a $H$ mówi ile której cechy potrzeba.
💡 Problem
Standardowe metody, takie jak NMF (Non-negative Matrix Factorization), są wrażliwe na błędy i wartości odstające. Gdy dane są „brudne”, analiza bywa bezużyteczna.
✨ Rozwiązanie: Target Polish
„Polish” (ang.) oznacza polerować, poprawiać. Autorzy proponują metodę, która delikatnie koryguje dane $X$ zanim dokona ich rozkładu.
Jak to działa?
- Obliczamy wstępną faktoryzację: $\hat{X} = WH$
- Porównujemy $X$ z $\hat{X}$
- Jeżeli dane zbyt mocno odbiegają, są „polerowane” — np. przez klamrowanie: $$ X’ = \text{clip}(X, \hat{X} - \delta, \hat{X} + \delta) $$
- Proces jest powtarzany.
📊 Czy działa?
Tak! Metoda jest:
- odporna na szum,
- skuteczna zarówno dla macierzy, jak i tensorów,
- łatwa do wdrożenia.
🧩 Podsumowanie
Target Polish to sposób na „odporne” uczenie maszynowe. Polerujemy dane zamiast ślepo wierzyć każdej wartości.
📎 Linki
- Na podstawie publikacji 📄 2507.10484