Uczenie Maszynowe

Jak nauczyć AI radzić sobie z błędami? Poznaj ε-Softmax

W świecie sztucznej inteligencji dane są paliwem, które napędza modele do nauki. Ale co, jeśli to paliwo jest zanieczyszczone? Błędnie oznaczone dane, zwane szumem w etykietach, to ogromny problem, który może sprawić, że nawet najlepszy algorytm nauczy się kompletnych bzdur. Publikacja “ε-Softmax: Approximating One-Hot Vectors for Mitigating Label Noise”, przyjęta na prestiżową konferencję NeurIPS 2024, proponuje eleganckie rozwiązanie tego problemu. Problem: Gdy model ślepo ufa etykietom Wyobraźmy sobie, że uczymy model rozpoznawać zwierzęta. Pokazujemy mu zdjęcie uroczego kota. W tradycyjnym podejściu dajemy mu absolutnie pewną informację, tzw. wektor one-hot: ...

Prosta i Efektywna Metoda Kwantyfikacji Niepewności

W dziedzinie uczenia maszynowego, zdolność modelu do oceny własnej pewności jest kluczowa dla jego niezawodności, zwłaszcza w zastosowaniach o wysokim ryzyku, takich jak medycyna czy autonomiczne pojazdy. Publikacja z arXiv o numerze 2508.00754, zatytułowana “A Simple and Effective Method for Uncertainty Quantification and OOD Detection”, autorstwa Yaxin Ma, Benjamina Colburna i Jose C. Principe, wprowadza innowacyjne i wydajne podejście do tego problemu. Artykuł skupia się na dwóch powiązanych ze sobą zagadnieniach: kwantyfikacji niepewności oraz wykrywaniu próbek spoza rozkładu (Out-of-Distribution, OOD). ...

Deep Learning do prognozowania rekrutacji w badaniach klinicznych z oszacowaniem niepewności

Rekrutacja uczestników to jeden z kluczowych ograniczników w rozwoju leków: aż 80% badań nie osiąga celów rekrutacyjnych, a opóźnienia mogą kosztować nawet 8 mln USD dziennie. Autorzy proponują multimodalny model głębokiego uczenia, który przewiduje liczbę pacjentów oraz oszacowuje niepewność przewidywań. Wyzwania w prognozowaniu rekrutacji Dotychczas stosowano: Modele deterministyczne (XGBoost, LightGBM) dające estymatę punktową, nie uwzględniające zmienności. Modele stochastyczne (procesy Poissona, Poisson–Gamma) zwracające przedziały ufności, ale słabo skalujące się przy złożonych danych. Architektura modelu Dane wejściowe ...

Aktywna selekcja modeli oparta na konsensusie – CODA

Artykuł „Consensus-Driven Active Model Selection” przedstawia metodę CODA, która umożliwia wybór najlepszego modelu ML spośród wielu kandydatów przy użyciu minimalnej liczby etykiet. CODA wykorzystuje zgodność i rozbieżność między modelami, by określić, które dane warto oznaczyć. 🚀 Kluczowe koncepcje Aktywna selekcja modeli: zamiast pełnego zbioru walidacyjnego, CODA wybiera punkty danych, których etykiety przyniosą najwięcej informacji. Modelowanie konsensusu: wykorzystuje zmodyfikowany model Dawid-Skene z wnioskowaniem Bayesowskim do oceny wydajności modeli. Rozkład PBest: opisuje bieżące przekonanie, który model jest najlepszy; aktualizowany po każdej nowej etykiecie. 🧪 Jak działa CODA? Zbierane są predykcje modeli na nieoznaczonych danych. Obliczany jest konsensus etykiety na podstawie predykcji wszystkich modeli. Każdy model dostaje priory rozkładu błędów (macierz pomyłek) typu Dirichleta: $$ \theta_{k, c, c’} = \frac{\beta_{c, c’} + \alpha \hat{M}_{k, c, c’}}{T} $$ CODA aktualizuje rozkład prawdopodobieństwa najlepszego modelu: $$ PBest(h_k) = \int_0^1 f_k(x) \prod_{l \ne k} F_l(x) dx $$ Kolejny punkt do etykietowania wybierany jest poprzez maksymalizację oczekiwanej informacji: $$ EIG(x_i) = H(PBest) - \sum_c \hat{\pi}(c \mid x_i) H(PBest^c) $$ 📊 Wyniki CODA wygrywa z konkurencją w 18 z 26 zadań benchmarkowych. Osiąga wybór optymalnego modelu przy do 70% mniejszej liczbie etykiet. Szczególnie skuteczna w zadaniach wieloklasowych (np. DomainNet, WILDS). ❗ Ograniczenia W zadaniach binarnych z dużą nierównowagą danych CODA może działać słabiej (np. CivilComments, CoLA). Skuteczność zależy od trafności konsensusu między modelami. 🔮 Kierunki rozwoju Lepsze priory, np. z wiedzy eksperckiej lub cech nienadzorowanych. Rozszerzenie na zadania inne niż klasyfikacja. Integracja z frameworkami active learning/testing. Linki Na podstawie publikacji 📄 arXiv:2507.23771 PDF

Efektywna i geometrycznie inteligentna: Liniowa pamięć i uwaga inwariantna SE(2)

W wielu codziennych sytuacjach—jak przewidywanie trajektorii samochodów na zatłoczonym skrzyżowaniu, koordynacja floty robotów dostawczych, czy symulacja ruchu pieszych—ważne jest nie tylko gdzie się coś znajduje, ale także jak jest obrócone lub skierowane. Tę informację opisuje geometria SE(2): pozycja w 2D oraz kierunek (heading). Tradycyjne modele typu Transformer, które uwzględniają inwariancję względem translacji i rotacji (SE(2)), muszą porównywać pozycję i orientację każdej pary obiektów. Dla $n$ obiektów daje to złożoność pamięciową $O(n^2)$ – co staje się niepraktyczne przy dużej liczbie agentów. ...

Niestabilna Moc: Jak Sharpness Napędza Uczenie Głębokich Sieci

Artykuł „Understanding the Evolution of the Neural Tangent Kernel at the Edge of Stability” autorstwa Kaiqi Jianga, Jeremy’ego Cohena i Yuanzhi Liego bada, jak podczas treningu głębokich sieci neuronowych zmienia się tzw. jądro tangenta nerwowego ($\mathrm{NTK}$), zwłaszcza w fazie zwanej krawędzią stabilności (Edge of Stability, EoS). Co to jest NTK? $\mathrm{NTK}$ to macierz opisująca, jak mała zmiana wag w sieci wpływa na wyjścia dla poszczególnych przykładów treningowych. Pozwala traktować sieć neuronową jak metodę jądrową, co ułatwia analizę teoretyczną uczenia głębokiego. Co to jest Edge of Stability? Przy dużej stawce uczenia $\eta$ największa wartość własna $\mathrm{NTK}$ (lub hesjanu funkcji straty) przekracza próg stabilności $2/\eta$, a następnie oscyluje wokół tej granicy. To zjawisko nosi nazwę Edge of Stability – łączy niestabilność z efektywnymi fazami nauki. Główne odkrycia Shift wyrównania (Alignment Shift) Przy wyższej stawce $\eta$ jądro końcowe staje się silniej wyrównane z wektorem etykiet $y$. Mierzone jest to miarą Kernel Target Alignment (KTA). ...

RiemannLoRA: Zunifikowane ramy Riemanna dla bezdyskusyjnej optymalizacji LoRA

W ostatnich latach Low‑Rank Adaptation (LoRA) stało się kluczową techniką efektywnego parametrycznie dostrajania dużych modeli językowych (LLM) oraz modeli dyfuzyjnych. Dzięki wprowadzeniu macierzy o niskim rzędzie, LoRA znacznie redukuje zapotrzebowanie na pamięć i moc obliczeniową. Jednak w praktyce napotykamy dwa główne problemy: Niejednoznaczna inicjalizacja: Różne pary macierzy ($A, B$) mogą dawać ten sam przyrost wagi $\Delta W = A,B^\top$, co prowadzi do niestabilnych startów. Redundancja parametrów: Bez kanonicznej reprezentacji gradienty mogą krążyć wśród równoważnych faktoryzacji. RiemannLoRA prezentuje geometryczną metodę, która usuwa te niejasności i przyspiesza oraz stabilizuje fine‑tuning. ...

Target Polish: Jak „polerować” dane i wydobywać z nich prawdę

Wyobraź sobie, że analizujesz dane z czujników. Nagle jeden z nich pokazuje -999°C. To tzw. outlier — odstający punkt, który potrafi całkowicie zafałszować analizę. 🧩 Czym jest faktoryzacja? Faktoryzacja macierzy to technika pozwalająca rozłożyć dane $X$ na dwa nieujemne składniki: $$ X \approx WH $$ Gdzie $W$ zawiera „cechy”, a $H$ mówi ile której cechy potrzeba. 💡 Problem Standardowe metody, takie jak NMF (Non-negative Matrix Factorization), są wrażliwe na błędy i wartości odstające. Gdy dane są „brudne”, analiza bywa bezużyteczna. ...