MLLog.dev

Seoul World Model: AI generujące wideo prawdziwych miast ze zdjęć ulicznych

Co by było, gdyby można było przelecieć wirtualną kamerą przez dowolną ulicę prawdziwego miasta — nie w silniku gry, nie z nagrania, ale z wygenerowanego na żywo, fotorealistycznego obrazu opartego na prawdziwych zdjęciach ulicznych? Dokładnie to robi Seoul World Model (SWM). Publikacja “Grounding World Simulation Models in a Real-World Metropolis” przedstawia model świata model świata Sieć neuronowa, która uczy się dynamiki i wyglądu środowiska, pozwalając ‘wyobrażać sobie’ nowe widoki i trajektorie, których nigdy bezpośrednio nie widziała. działający w skali całego miasta, zakotwiczony w realnej geografii — nie w wymyślonych scenach. ...

Zgubieni w Opowieściach: Jak LLM-y Gubią Wątek w Długich Historiach

Poproś dowolny model językowy o napisanie opowiadania na 10 000 słów. Na pierwszej stronie bohater ma niebieskie oczy. Na piątej — brązowe. W rozdziale trzecim jest czwartek, w szóstym ten sam dzień to nagle sobota. Postać, która zginęła na stronie siedem, spokojnie rozmawia na stronie dziesięć. Brzmi znajomo? Publikacja “Lost in Stories: Consistency Bugs in Long Story Generation by LLMs” po raz pierwszy systematycznie bada ten problem — i wyniki są otrzeźwiające. Nawet najlepsze modele produkują średnio jeden błąd spójności na każde 10 000 słów, a ludzie-eksperci wykrywają zaledwie 17% z nich. ...

Utonia: Jeden Enkoder Dla Wszystkich Chmur Punktów

LiDAR na dachu autonomicznego samochodu, kamera głębi w robocie domowym, skaner satelitarny i model CAD z drukarki 3D — każde z tych urządzeń produkuje chmurę punktów chmurę punktów Zbiór punktów 3D (x, y, z) reprezentujący kształt obiektu lub sceny. Każdy punkt może mieć dodatkowe atrybuty: kolor, normalna, intensywność. , ale o radykalnie różnej gęstości, skali i geometrii. Dotychczas każda domena wymagała osobnego modelu. Publikacja “Utonia: Toward One Encoder for All Point Clouds” łamie ten schemat — jeden enkoder, 137M parametrów, pięć domen, i emergentne zachowania, których nikt się nie spodziewał. ...

SAGE: Twój Model Wie, Kiedy Przestać Myśleć — Tylko Mu Nie Pozwalasz

Modele rozumujące generują długie łańcuchy myśli, aby dojść do odpowiedzi. Ale co jeśli ponad połowa tych “myśli” to zbędny szum, a model od dawna zna odpowiedź — tylko nie wie, że może przestać? Publikacja “Does Your Reasoning Model Implicitly Know When to Stop Thinking?” odkrywa, że tak właśnie jest, i proponuje SAGE — metodę, która redukuje liczbę tokenów o 40-50% przy zachowaniu lub poprawie dokładności. Problem: Myślenie, Które Szkodzi Współczesne modele rozumujące modele rozumujące LLM trenowane do generowania krok-po-kroku łańcuchów myśli (Chain-of-Thought) przed podaniem odpowiedzi. Przykłady: DeepSeek-R1, Qwen3, o1. jak DeepSeek-R1 czy Qwen3 zostały nauczone produkować długie Chain-of-Thought Chain-of-Thought Łańcuch myśli — technika, w której model generuje kolejne kroki rozumowania prowadzące do odpowiedzi. Poprawia dokładność, ale zwiększa koszt. (CoT), zanim podadzą odpowiedź. Problem w tym, że dłuższe myślenie nie zawsze oznacza lepsze. ...

Gdy GPT Odkrywa Prawa Fizyki: Przełom w Teorii Gluonów

Co się stanie, gdy poprosisz sztuczną inteligencję o rozwiązanie problemu, nad którym fizycy teoretyczni pracowali od dekad? W najnowszej publikacji zespołu z Princeton, Harvard, Cambridge i OpenAI, GPT-5.2 Pro GPT-5.2 Pro Najnowsza wersja modelu językowego OpenAI, zdolna do zaawansowanego rozumowania matematycznego i formułowania hipotez naukowych. jako pierwszy zaproponował kluczową formułę opisującą rozpraszanie gluonów — formułę, którą następnie udowodnił inny wewnętrzny model OpenAI, a naukowcy zweryfikowali ręcznie. To nie jest science fiction. To publikacja naukowa z lutego 2026. ...

OPUS: Jak Trenować LLM 6x Szybciej Wybierając Właściwe Dane

Trenowanie dużych modeli językowych wymaga astronomicznych ilości danych i mocy obliczeniowej. Ale co jeśli większość tych danych jest redundantna redundantna Dane redundantne to takie, które nie wnoszą nowej informacji do procesu uczenia — model już ‘zna’ zawarte w nich wzorce. ? Publikacja “OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration” przedstawia framework, który osiąga porównywalne wyniki przy 6x mniejszej liczbie tokenów tokenów Token to podstawowa jednostka tekstu w LLM — może to być słowo, część słowa lub znak. Model przetwarza tekst jako sekwencję tokenów. dzięki inteligentnemu wybieraniu, z czego model powinien się uczyć na każdym kroku. ...

Green-VLA: Jeden Mózg AI dla Wszystkich Robotów

Poszukiwanie uniwersalnego robota — takiego, który może płynnie przechodzić między zadaniami, platformami i środowiskami — od dawna jest świętym Graalem badań nad robotyką. Publikacja “Green-VLA: Staged Vision-Language-Action Model for Generalist Robots” przybliża nas do tej wizji dzięki rewolucyjnemu pięcioetapowemu frameworkowi treningowemu, który umożliwia jednej polityce sterowanie humanoidami, mobilnymi manipulatorami i stacjonarnymi ramionami robotycznymi. Problem: Jeden Robot, Wiele Ciał Dzisiejsze systemy robotyczne to zazwyczaj specjaliści. Ramię robotyczne w fabryce doskonale radzi sobie z montażem, ale nie potrafi nawigować po magazynie. Robot mobilny może się przemieszczać, ale brakuje mu umiejętności precyzyjnej manipulacji. Trenowanie osobnej AI dla każdego typu robota jest kosztowne, czasochłonne i fundamentalnie ogranicza skalowalność. ...

To Grok Grokking: Dlaczego sieci neuronowe czasem rozumieją z opóźnieniem

W uczeniu maszynowym spodziewamy się, że model albo się nauczy, albo przeucza. Czego się nie spodziewamy, to żeby model najpierw się przeuczył, a potem — dużo później, bez żadnych zmian — nagle zaczął dobrze generalizować. To zjawisko nazywa się grokking i intryguje badaczy od momentu odkrycia. Nowa publikacja wreszcie wyjaśnia dlaczego to się dzieje i dowodzi tego matematycznie — w najprostszym możliwym ustawieniu. Czym jest grokking? Grokking został po raz pierwszy zaobserwowany w 2022 roku na małych zadaniach algorytmicznych (jak arytmetyka modularna). Wzorzec jest uderzający: ...

Sieci tensorowe: Matematyczny most między AI neuronowym a symbolicznym

Sieci neuronowe świetnie uczą się wzorców z danych. Symboliczne AI świetnie radzi sobie z logicznym rozumowaniem i interpretowalnością. Od dziesięcioleci badacze próbują je połączyć — z ograniczonym sukcesem. Nowa publikacja proponuje elegancki matematyczny framework unifikujący oba podejścia: sieci tensorowe. Kluczowa obserwacja? Zarówno obliczenia neuronowe, jak i symboliczne można wyrazić jako rozkłady tensorowe, a wnioskowanie w obu sprowadza się do kontrakcji tensorów. Problem: Dwa światy, które ze sobą nie rozmawiają Współczesne AI jest podzielone na dwa obozy: ...

M²FMoE: Gdy eksperci uczą się przewidywać powodzie

Prognozowanie szeregów czasowych to jedno z najważniejszych zastosowań uczenia maszynowego — od przewidywania popytu, przez monitoring infrastruktury, po prognozowanie powodzi. Problem? Standardowe modele optymalizują się pod typowe przypadki. A to właśnie te nietypowe — ekstremalne zdarzenia — są często najważniejsze do przewidzenia. M²FMoE to model, który uczy się przewidywać jedno i drugie. Problem: Ekstremalne zdarzenia łamią standardowe modele Prognozowanie szeregów czasowych poczyniło ogromne postępy. Transformery, metody częstotliwościowe i architektury hybrydowe osiągają imponujące wyniki na benchmarkach. Ale jest haczyk. ...