MLLog.dev

Prosta i Efektywna Metoda Kwantyfikacji Niepewności

W dziedzinie uczenia maszynowego, zdolność modelu do oceny własnej pewności jest kluczowa dla jego niezawodności, zwłaszcza w zastosowaniach o wysokim ryzyku, takich jak medycyna czy autonomiczne pojazdy. Publikacja z arXiv o numerze 2508.00754, zatytułowana “A Simple and Effective Method for Uncertainty Quantification and OOD Detection”, autorstwa Yaxin Ma, Benjamina Colburna i Jose C. Principe, wprowadza innowacyjne i wydajne podejście do tego problemu. Artykuł skupia się na dwóch powiązanych ze sobą zagadnieniach: kwantyfikacji niepewności oraz wykrywaniu próbek spoza rozkładu (Out-of-Distribution, OOD). ...

Deep Learning do prognozowania rekrutacji w badaniach klinicznych z oszacowaniem niepewności

Rekrutacja uczestników to jeden z kluczowych ograniczników w rozwoju leków: aż 80% badań nie osiąga celów rekrutacyjnych, a opóźnienia mogą kosztować nawet 8 mln USD dziennie. Autorzy proponują multimodalny model głębokiego uczenia, który przewiduje liczbę pacjentów oraz oszacowuje niepewność przewidywań. Wyzwania w prognozowaniu rekrutacji Dotychczas stosowano: Modele deterministyczne (XGBoost, LightGBM) dające estymatę punktową, nie uwzględniające zmienności. Modele stochastyczne (procesy Poissona, Poisson–Gamma) zwracające przedziały ufności, ale słabo skalujące się przy złożonych danych. Architektura modelu Dane wejściowe ...

Aktywna selekcja modeli oparta na konsensusie – CODA

Artykuł „Consensus-Driven Active Model Selection” przedstawia metodę CODA, która umożliwia wybór najlepszego modelu ML spośród wielu kandydatów przy użyciu minimalnej liczby etykiet. CODA wykorzystuje zgodność i rozbieżność między modelami, by określić, które dane warto oznaczyć. 🚀 Kluczowe koncepcje Aktywna selekcja modeli: zamiast pełnego zbioru walidacyjnego, CODA wybiera punkty danych, których etykiety przyniosą najwięcej informacji. Modelowanie konsensusu: wykorzystuje zmodyfikowany model Dawid-Skene z wnioskowaniem Bayesowskim do oceny wydajności modeli. Rozkład PBest: opisuje bieżące przekonanie, który model jest najlepszy; aktualizowany po każdej nowej etykiecie. 🧪 Jak działa CODA? Zbierane są predykcje modeli na nieoznaczonych danych. Obliczany jest konsensus etykiety na podstawie predykcji wszystkich modeli. Każdy model dostaje priory rozkładu błędów (macierz pomyłek) typu Dirichleta: $$ \theta_{k, c, c'} = \frac{\beta_{c, c'} + \alpha \hat{M}_{k, c, c'}}{T} $$ CODA aktualizuje rozkład prawdopodobieństwa najlepszego modelu: $$ PBest(h_k) = \int_0^1 f_k(x) \prod_{l \ne k} F_l(x) dx $$ Kolejny punkt do etykietowania wybierany jest poprzez maksymalizację oczekiwanej informacji: $$ EIG(x_i) = H(PBest) - \sum_c \hat{\pi}(c \mid x_i) H(PBest^c) $$ 📊 Wyniki CODA wygrywa z konkurencją w 18 z 26 zadań benchmarkowych. Osiąga wybór optymalnego modelu przy do 70% mniejszej liczbie etykiet. Szczególnie skuteczna w zadaniach wieloklasowych (np. DomainNet, WILDS). ❗ Ograniczenia W zadaniach binarnych z dużą nierównowagą danych CODA może działać słabiej (np. CivilComments, CoLA). Skuteczność zależy od trafności konsensusu między modelami. 🔮 Kierunki rozwoju Lepsze priory, np. z wiedzy eksperckiej lub cech nienadzorowanych. Rozszerzenie na zadania inne niż klasyfikacja. Integracja z frameworkami active learning/testing. Linki Na podstawie publikacji 📄 arXiv:2507.23771 PDF

RLVMR: Wzmocnione Uczenie z Weryfikowalnymi Nagradzającymi Meta‑Rozumowaniem

Artykuł przedstawia RLVMR, innowacyjną metodę wzmocnionego uczenia (RL), która wprowadza weryfikowalne nagrody meta‑rozumowania wzmacniające zdolność działania na długich horyzontach czasowych. Agent generuje wewnętrzne sygnały wyjaśniające, które są oceniane pod względem weryfikowalności, co zwiększa odporność i jakość planowania :contentReference[oaicite:4]{index=4}. Wkład Formalizacja nagród meta‑rozumowania: agenci otrzymują dodatkowe sygnały nagród za weryfikowalność łańcuchów rozumowania. Protokół weryfikacji: pomocnicze ślady rozumowania są sprawdzalne i służą ocenie uzasadnień. Walidacja empiryczna na zadaniach RL z długim horyzontem – RLVMR przewyższa standardowe podejścia RL :contentReference[oaicite:5]{index=5}. Metoda Agent generuje łańcuch rozumowania $r = (r_1,\dots,r_T)$ wraz z akcjami $a_t$. Całkowita nagroda wynosi: ...

Jak sztuczna inteligencja może ujawnić pochodzenie miodu — spojrzenie na mineralne odciski palców

Zastanawiałeś się kiedyś, czy ten drogi słoik “miodu akacjowego” rzeczywiście pochodzi z akacji? Albo czy etykieta mówi prawdę o kraju pochodzenia? Nowa publikacja pokazuje, że uczenie maszynowe i analiza minerałów mogą to sprawdzić — bez żadnego mikroskopu. Skąd pomysł? Gdy pszczoły produkują miód, przemycają do niego śladowe ilości pierwiastków z roślin i gleby. Te mineralne odciski palców — jak wapń, magnez czy cynk — różnią się zależnie od środowiska. To jak chemiczny podpis, który pozwala odczytać pochodzenie miodu. ...

Bezpieczne uczenie struktury grafów: różnicowa prywatność w otwartych danych grafowych

W erze danych grafowych – takich jak sieci społecznościowe, grafy powiązań biznesowych czy mapy wiedzy – coraz częściej pojawia się potrzeba ich publikacji w celach badawczych lub inżynierskich. Ale co jeśli struktura takiego grafu sama w sobie zawiera dane wrażliwe? Nawet bez ujawniania treści, sam fakt istnienia krawędzi (np. relacji między użytkownikami) może prowadzić do naruszenia prywatności. Tradycyjne podejścia do różnicowej prywatności (DP, ang. Differential Privacy) koncentrują się na ochronie danych podczas uczenia modeli. W tej publikacji autorzy idą o krok dalej — chronią prywatność podczas publikacji danych grafowych. Proponują eleganckie podejście oparte na Gaussian Differential Privacy (GDP), które pozwala na uczenie struktury grafu w sposób zapewniający gwarancje prywatności. ...

Optymalizacja pracy call center za pomocą uczenia ze wzmocnieniem: PPO kontra Value Iteration

Czy można usprawnić pracę call center za pomocą sztucznej inteligencji? Artykuł „Optimising Call Centre Operations using Reinforcement Learning: Value Iteration versus Proximal Policy Optimisation” autorstwa Kwong Ho Li i Wathsala Karunarathne pokazuje, że tak — i to z dużym sukcesem. Autorzy badają dwa podejścia do uczenia ze wzmocnieniem (RL) w kontekście optymalizacji procesu kierowania połączeń: klasyczne Value Iteration (VI) i nowoczesne Proximal Policy Optimisation (PPO). Czym jest uczenie ze wzmocnieniem? Uczenie ze wzmocnieniem to dziedzina AI, w której agent podejmuje decyzje w środowisku, otrzymując nagrody za dobre działania. Celem jest maksymalizacja sumy nagród — w praktyce: optymalizacja decyzji. ...

Efektywna i geometrycznie inteligentna: Liniowa pamięć i uwaga inwariantna SE(2)

W wielu codziennych sytuacjach—jak przewidywanie trajektorii samochodów na zatłoczonym skrzyżowaniu, koordynacja floty robotów dostawczych, czy symulacja ruchu pieszych—ważne jest nie tylko gdzie się coś znajduje, ale także jak jest obrócone lub skierowane. Tę informację opisuje geometria SE(2): pozycja w 2D oraz kierunek (heading). Tradycyjne modele typu Transformer, które uwzględniają inwariancję względem translacji i rotacji (SE(2)), muszą porównywać pozycję i orientację każdej pary obiektów. Dla $n$ obiektów daje to złożoność pamięciową $O(n^2)$ – co staje się niepraktyczne przy dużej liczbie agentów. ...

Lekki silnik AI do wykrywania raka skóry w urządzeniach ubieralnych

Rak skóry to jeden z najczęściej występujących nowotworów – wczesne wykrycie znacznie poprawia rokowania. Niestety, wiele osób nie ma dostępu do dermatologa ani zaawansowanych narzędzi diagnostycznych. Ta praca rozwiązuje ten problem, przenosząc AI do tanich urządzeń ubieralnych. Co zrobili autorzy? Wykorzystali MobileNetV2: To mała sieć neuronowa zoptymalizowana pod urządzenia mobilne. Dzięki transfer learning nauczono ją rozróżniać zmiany skórne: rak skóry vs inne. Zmniejszyli i zoptymalizowali model: Za pomocą NVIDIA TensorRT skompresowano MobileNetV2 dla platformy Jetson Orin Nano – zmniejszono rozmiar modelu do ~41% oryginału, przyspieszono działanie i znacznie zredukowano zużycie energii, szczególnie w precyzji INT8 (spadek nawet o 93%). ...

SOPHIA: wzmacnianie wolnomyślenia w dużych modelach wizualno‑językowych

W ostatnich latach duże modele wizualno‑językowe (Large Vision‑Language Models, LVLM) potrafią łączyć rozumienie obrazów i tekstu, ale mają trudności z długimi, wieloetapowymi wnioskowaniami. Artykuł „SOPHIA: Semi‑Off‑Policy Reinforcement Learning for Slow‑Thinking in LVLMs” przedstawia nową metodę, która znacząco poprawia ich zdolność do tzw. wolnomyślenia (slow‑thinking reasoning). Czym jest wolnomyślenie? Wolnomyślenie to długi, przejrzysty proces rozumowania, w którym model krok po kroku analizuje każdy fragment problemu. W przeciwieństwie do szybkich, intuicyjnych podpowiedzi, slow‑thinking: ...