GradNetOT: Uczenie optymalnych map transportu za pomocą GradNets

Optymalny transport (OT) to matematyczny problem przekształcenia jednej „masy” (np. piasku) w inną przy minimalnym koszcie. GradNetOT to nowatorska metoda uczenia maszynowego, która uczy takie optymalne mapy za pomocą sieci neuronowych z wbudowanym „uprzedzeniem” fizycznym. Czym jest optymalny transport? Klasyczna definicja: Mając dwie dystrybucje prawdopodobieństwa (zasoby i cele), znajdź sposób przesunięcia masy z minimalnym kosztem. Twierdzenie Monge’a: Przy koszcie opartym na kwadracie odległości optymalna mapa to gradient funkcji wypukłej spełniającej równanie Monge–Ampère. Podejście GradNetOT GradNetOT wykorzystuje specjalną architekturę zwaną Monotone Gradient Network (mGradNet), która reprezentuje funkcje wypukłe w sposób gwarantujący spójność: ...

lipca 19, 2025

Niestabilna Moc: Jak Sharpness Napędza Uczenie Głębokich Sieci

Artykuł „Understanding the Evolution of the Neural Tangent Kernel at the Edge of Stability” autorstwa Kaiqi Jianga, Jeremy’ego Cohena i Yuanzhi Liego bada, jak podczas treningu głębokich sieci neuronowych zmienia się tzw. jądro tangenta nerwowego ($\mathrm{NTK}$), zwłaszcza w fazie zwanej krawędzią stabilności (Edge of Stability, EoS). Co to jest NTK? $\mathrm{NTK}$ to macierz opisująca, jak mała zmiana wag w sieci wpływa na wyjścia dla poszczególnych przykładów treningowych. Pozwala traktować sieć neuronową jak metodę jądrową, co ułatwia analizę teoretyczną uczenia głębokiego. Co to jest Edge of Stability? Przy dużej stawce uczenia $\eta$ największa wartość własna $\mathrm{NTK}$ (lub hesjanu funkcji straty) przekracza próg stabilności $2/\eta$, a następnie oscyluje wokół tej granicy. To zjawisko nosi nazwę Edge of Stability – łączy niestabilność z efektywnymi fazami nauki. Główne odkrycia Shift wyrównania (Alignment Shift) Przy wyższej stawce $\eta$ jądro końcowe staje się silniej wyrównane z wektorem etykiet $y$. Mierzone jest to miarą Kernel Target Alignment (KTA). ...

lipca 18, 2025

RiemannLoRA: Zunifikowane ramy Riemanna dla bezdyskusyjnej optymalizacji LoRA

W ostatnich latach Low‑Rank Adaptation (LoRA) stało się kluczową techniką efektywnego parametrycznie dostrajania dużych modeli językowych (LLM) oraz modeli dyfuzyjnych. Dzięki wprowadzeniu macierzy o niskim rzędzie, LoRA znacznie redukuje zapotrzebowanie na pamięć i moc obliczeniową. Jednak w praktyce napotykamy dwa główne problemy: Niejednoznaczna inicjalizacja: Różne pary macierzy ($A, B$) mogą dawać ten sam przyrost wagi $\Delta W = A,B^\top$, co prowadzi do niestabilnych startów. Redundancja parametrów: Bez kanonicznej reprezentacji gradienty mogą krążyć wśród równoważnych faktoryzacji. RiemannLoRA prezentuje geometryczną metodę, która usuwa te niejasności i przyspiesza oraz stabilizuje fine‑tuning. ...

lipca 17, 2025

Model sieci neuronowej oparty na Complementary Learning Systems: separacja i uzupełnianie wzorców w uczeniu ciągłym

Standardowe sieci neuronowe, ucząc się nowych zadań, często zapominają wcześniejsze informacje – zjawisko zwane katastroficznym zapominaniem. W przeciwieństwie do nich, ludzki mózg zachowuje zdolność do integracji nowych i starych wspomnień dzięki działaniu dwóch komplementarnych systemów pamięci: hipokampa i kory mózgowej. 1. Cele publikacji Autorzy dążą do skonstruowania modelu łączącego: Pattern separation: wyraźne rozróżnianie podobnych wspomnień, Pattern completion: odtwarzanie pełnych reprezentacji z fragmentarycznych danych, aby umożliwić ciągłe uczenie bez utraty zdobytych umiejętności. ...

lipca 16, 2025

Target Polish: Jak „polerować” dane i wydobywać z nich prawdę

Wyobraź sobie, że analizujesz dane z czujników. Nagle jeden z nich pokazuje -999°C. To tzw. outlier — odstający punkt, który potrafi całkowicie zafałszować analizę. 🧩 Czym jest faktoryzacja? Faktoryzacja macierzy to technika pozwalająca rozłożyć dane $X$ na dwa nieujemne składniki: $$ X \approx WH $$ Gdzie $W$ zawiera „cechy”, a $H$ mówi ile której cechy potrzeba. 💡 Problem Standardowe metody, takie jak NMF (Non-negative Matrix Factorization), są wrażliwe na błędy i wartości odstające. Gdy dane są „brudne”, analiza bywa bezużyteczna. ...

lipca 15, 2025

Optymistyczna eksploracja w ostrożnym uczeniu ze wzmocnieniem z ograniczeniami

Uczenie ze wzmocnieniem (RL) zyskało ogromną popularność dzięki zdolności do autonomicznego uczenia się przez agentów działania w złożonych środowiskach. Ale co się dzieje, gdy agent nie może pozwolić sobie na błędy — bo błąd oznacza np. awarię maszyny, kolizję auta lub przekroczenie limitu zużycia energii? W takich przypadkach stosujemy uczenie ze wzmocnieniem z ograniczeniami (Constrained RL), w którym agent musi maksymalizować nagrodę, jednocześnie nie przekraczając określonych kosztów lub ryzyk. Niestety — jak pokazuje praktyka — agenci uczący się w takich warunkach często stają się… zbyt ostrożni. A to prowadzi do kiepskich wyników. ...

lipca 14, 2025

Nie tylko większe modele: dlaczego AI powinno lepiej widzieć, a nie tylko rosnąć

W ostatnich latach rozwój sztucznej inteligencji kojarzy się głównie z coraz większymi modelami i coraz większymi zbiorami danych. GPT-4, Claude, Gemini – każdy z nich bije rekordy rozmiarów i mocy obliczeniowej. Ale czy większy zawsze znaczy lepszy? Zespół badaczy (Baek, Park, Ko, Oh, Gong, Kim) w swojej najnowszej publikacji “AI Should Sense Better, Not Just Scale Bigger” (arXiv:2507.07820) przekonuje, że doszliśmy do momentu, w którym większe modele niekoniecznie są najbardziej efektywną drogą rozwoju. Zamiast tego proponują zupełnie nowe podejście: sensoryka adaptacyjna. ...

lipca 13, 2025

HGMP: Rewolucja w analizie złożonych grafów dzięki prompt learning

W erze dominacji modeli jezykowych i uczenia maszynowego, nieprzerwanie rośnie znaczenie danych strukturalnych: sieci społecznych, powiązań biologicznych, relacji biznesowych. Dane te przedstawia się w formie grafów, które często nie są jednorodne: zawierają węzły różnych typów (np. ludzie, produkty, firmy) oraz różne typy relacji (np. “zakupił”, “polecił”, “pracuje w”). Przetwarzanie takich heterogenicznych grafów wymaga specjalistycznych metod. Czym są grafy heterogeniczne? Graf heterogeniczny (ang. heterogeneous graph) to struktura, w której: występuje wiele typów węzłów i krawędzi, każdy typ może mieć inne cechy i pełnić inną rolę, relacje są semantycznie złożone (np. “oglądał”, “recenzował”, “produkował”). To odzwierciedlenie wielu realnych systemów: sieci finansowych, portali społecznościowych czy wiedzy encyklopedycznej (jak Wikipedia). ...

lipca 12, 2025

Predykcja i generacja antybiotyków przeciw przyszłym patogenom za pomocą ApexOracle

Narastający kryzys oporności na antybiotyki (AMR) wymaga nowych rozwiązań obliczeniowych, które wyprzedzą szybko ewoluujące patogeny. ApexOracle to zintegrowana platforma ML, służąca zarówno do przewidywania aktywności związków wobec określonych szczepów bakteryjnych, jak i do generacji de novo cząsteczek celowanych na przyszłe „superbakterie”. Motywacja i zakres Globalne znaczenie: AMR odpowiada za blisko 5 mln zgonów rocznie. Tradycyjne wyzwania: Długotrwałe i kosztowne procesy odkrywania leków, reagujące na bieżące zagrożenia. Cel ApexOracle: Połączenie kontekstu genomowego z projektowaniem molekularnym w jednym przepływie. Architektura ApexOracle Wyobraź sobie, że masz trzy zestawy wskazówek: kod genetyczny bakterii (genom), krótki opis jej właściwości (jak prosta karta informacyjna) oraz składniki potencjalnego leku (przepis chemiczny). ApexOracle działa jak wysoce zaawansowany detektyw, który jednocześnie analizuje wszystkie trzy źródła informacji. Następnie dobiera najskuteczniejsze molekuły, a nawet tworzy całkowicie nowe przepisy chemiczne, które mogą zatrzymać rozwój bakterii. ...

lipca 11, 2025

HeLo – Nowa ścieżka rozwoju rozpoznawania emocji z danych multimodalnych

Współczesne systemy rozpoznawania emocji coraz częściej sięgają po dane z wielu źródeł – od sygnałów fizjologicznych (np. rytm serca, przewodność skóry) po obraz z kamery rejestrującej mimikę twarzy. Celem jest odzwierciedlenie bogactwa ludzkich odczuć, gdzie często współistnieje kilka emocji jednocześnie. Tradycyjne metody skupiały się jednak na jednoznacznym przypisaniu jednej emocji do próbki (np. „radość” lub „smutek”). Publikacja “HeLo: Heterogeneous Multi-Modal Fusion with Label Correlation for Emotion Distribution Learning” proponuje kompletnie nowe podejście – uczenie rozkładu emocji, w którym model przewiduje, z jakim prawdopodobieństwem występują każda z podstawowych emocji. ...

lipca 10, 2025