AI | MLLog.dev

Rekurencyjne systemy wieloagentowe: jak LLM-y uczą się współpracować w przestrzeni ukrytej

Wyobraźcie sobie zespół programistów pracujących nad trudnym problemem. W klasycznym podejściu każdy pisze długiego maila z wyjaśnieniem swoich przemyśleń, następna osoba czyta, przetwarza, pisze odpowiedź - i tak w kółko. Teraz wyobraźcie sobie, że zamiast tego mają wspólną mentalną tablicę. Każdy szkicuje myśli w abstrakcyjnej notacji, następna osoba rafinuje, cały szkic przechodzi przez zespół wielokrotnie. Żadnego tłumaczenia na naturalny język i z powrotem. Żadnej utraty informacji. Dokładnie to proponuje RecursiveMAS - praca “Recursive Multi-Agent Systems” (Yang, Zou, Pan et al., UIUC, Stanford, NVIDIA, MIT, kwiecień 2026). Autorzy traktują cały system wieloagentowy jako jedną rekurencyjną sieć neuronową, gdzie każdy agent jest warstwą w pętli, a komunikacja odbywa się wyłącznie w przestrzeni ukrytej. Efekt? +8.3% średniej dokładności, 2.4x przyspieszenie i 75.6% redukcji tokenów w porównaniu z klasycznymi systemami tekstowymi. ...

Tstars-Tryon 1.0: wirtualna przymierzalnia jako edycja wieloobrazowa w skali Taobao

Użytkownik otwiera aplikację Taobao, wybiera zdjęcie modela i wrzuca sześć referencji: płaszcz, koszulkę pod spód, spodnie, buty, czapkę i torbę. Klika przycisk. Niecałe siedem sekund później pojawia się świeże zdjęcie - ta sama twarz, to samo tło, każdy element ubioru poprawnie ułożony, płaszcz rozpięty tak, że widać koszulkę pod spodem. Pomnóż to przez dziesiątki milionów requestów w oknie obsługowym, a dostajesz problem, który rozwiązuje Tstars-Tryon 1.0. To nie jest sterylny scenariusz VITON-HD, gdzie jedna koszulka jest doklejana do studyjnego modela. To virtual try-on (VTON) w skali e-commerce, na realnych zdjęciach, z warstwowymi outfitami i akcesoriami - i działa już dziś. ...

TAPS: Dlaczego dane treningowe modelu-draftu mają większe znaczenie niż jego architektura

Speculative decoding to jedna z najbardziej eleganckich sztuczek w inferencji LLM: mały, szybki model-draft model-draft Lekki model językowy, który szybko proponuje kandydujące tokeny. Większy model ‘weryfikator’ sprawdza te propozycje równolegle, akceptując poprawne i odrzucając błędne - przyspieszając generowanie bez zmiany jakości wyjścia. proponuje tokeny, a duży weryfikator weryfikator Pełnowymiarowy docelowy model językowy, który sprawdza propozycje draftu. Przetwarza wszystkich kandydatów w jednym przebiegu, akceptując te zgodne z własną dystrybucją - gwarantując identyczną jakość jak standardowe dekodowanie autoregresyjne. zatwierdza lub odrzuca je równolegle. Ta sama dystrybucja wyjściowa, mniej kosztownych przebiegów. ...

Demystifying Video Reasoning: Modele nie myślą klatkami - myślą krokami odszumiania

Modele generowania wideo jak Sora potrafią rozwiązywać labirynty, manipulować obiektami i odpowiadać na pytania matematyczne - wszystko poprzez generowanie wideo. Ale jak one rozumują? Intuicyjna odpowiedź: krok po kroku, klatka po klatce, jak człowiek rysujący rozwiązanie na tablicy. Ta odpowiedź jest błędna. Publikacja “Demystifying Video Reasoning” pokazuje, że rozumowanie w modelu dyfuzyjnym nie przebiega wzdłuż klatek. Przebiega wzdłuż kroków odszumiania - iteracyjnego procesu, który zamienia szum w spójne wideo. Autorzy nazywają to Chain-of-Steps (CoS) i fundamentalnie zmienia to sposób, w jaki rozumiemy działanie tych modeli. ...

Seoul World Model: AI generujące wideo prawdziwych miast ze zdjęć ulicznych

Co by było, gdyby można było przelecieć wirtualną kamerą przez dowolną ulicę prawdziwego miasta — nie w silniku gry, nie z nagrania, ale z wygenerowanego na żywo, fotorealistycznego obrazu opartego na prawdziwych zdjęciach ulicznych? Dokładnie to robi Seoul World Model (SWM). Publikacja “Grounding World Simulation Models in a Real-World Metropolis” przedstawia model świata model świata Sieć neuronowa, która uczy się dynamiki i wyglądu środowiska, pozwalając ‘wyobrażać sobie’ nowe widoki i trajektorie, których nigdy bezpośrednio nie widziała. działający w skali całego miasta, zakotwiczony w realnej geografii — nie w wymyślonych scenach. ...

Zgubieni w Opowieściach: Jak LLM-y Gubią Wątek w Długich Historiach

Poproś dowolny model językowy o napisanie opowiadania na 10 000 słów. Na pierwszej stronie bohater ma niebieskie oczy. Na piątej — brązowe. W rozdziale trzecim jest czwartek, w szóstym ten sam dzień to nagle sobota. Postać, która zginęła na stronie siedem, spokojnie rozmawia na stronie dziesięć. Brzmi znajomo? Publikacja “Lost in Stories: Consistency Bugs in Long Story Generation by LLMs” po raz pierwszy systematycznie bada ten problem — i wyniki są otrzeźwiające. Nawet najlepsze modele produkują średnio jeden błąd spójności na każde 10 000 słów, a ludzie-eksperci wykrywają zaledwie 17% z nich. ...

Utonia: Jeden Enkoder Dla Wszystkich Chmur Punktów

LiDAR na dachu autonomicznego samochodu, kamera głębi w robocie domowym, skaner satelitarny i model CAD z drukarki 3D — każde z tych urządzeń produkuje chmurę punktów chmurę punktów Zbiór punktów 3D (x, y, z) reprezentujący kształt obiektu lub sceny. Każdy punkt może mieć dodatkowe atrybuty: kolor, normalna, intensywność. , ale o radykalnie różnej gęstości, skali i geometrii. Dotychczas każda domena wymagała osobnego modelu. Publikacja “Utonia: Toward One Encoder for All Point Clouds” łamie ten schemat — jeden enkoder, 137M parametrów, pięć domen, i emergentne zachowania, których nikt się nie spodziewał. ...

SAGE: Twój Model Wie, Kiedy Przestać Myśleć — Tylko Mu Nie Pozwalasz

Modele rozumujące generują długie łańcuchy myśli, aby dojść do odpowiedzi. Ale co jeśli ponad połowa tych “myśli” to zbędny szum, a model od dawna zna odpowiedź — tylko nie wie, że może przestać? Publikacja “Does Your Reasoning Model Implicitly Know When to Stop Thinking?” odkrywa, że tak właśnie jest, i proponuje SAGE — metodę, która redukuje liczbę tokenów o 40-50% przy zachowaniu lub poprawie dokładności. Problem: Myślenie, Które Szkodzi Współczesne modele rozumujące modele rozumujące LLM trenowane do generowania krok-po-kroku łańcuchów myśli (Chain-of-Thought) przed podaniem odpowiedzi. Przykłady: DeepSeek-R1, Qwen3, o1. jak DeepSeek-R1 czy Qwen3 zostały nauczone produkować długie Chain-of-Thought Chain-of-Thought Łańcuch myśli — technika, w której model generuje kolejne kroki rozumowania prowadzące do odpowiedzi. Poprawia dokładność, ale zwiększa koszt. (CoT), zanim podadzą odpowiedź. Problem w tym, że dłuższe myślenie nie zawsze oznacza lepsze. ...

Gdy GPT Odkrywa Prawa Fizyki: Przełom w Teorii Gluonów

Co się stanie, gdy poprosisz sztuczną inteligencję o rozwiązanie problemu, nad którym fizycy teoretyczni pracowali od dekad? W najnowszej publikacji zespołu z Princeton, Harvard, Cambridge i OpenAI, GPT-5.2 Pro GPT-5.2 Pro Najnowsza wersja modelu językowego OpenAI, zdolna do zaawansowanego rozumowania matematycznego i formułowania hipotez naukowych. jako pierwszy zaproponował kluczową formułę opisującą rozpraszanie gluonów — formułę, którą następnie udowodnił inny wewnętrzny model OpenAI, a naukowcy zweryfikowali ręcznie. To nie jest science fiction. To publikacja naukowa z lutego 2026. ...

OPUS: Jak Trenować LLM 6x Szybciej Wybierając Właściwe Dane

Trenowanie dużych modeli językowych wymaga astronomicznych ilości danych i mocy obliczeniowej. Ale co jeśli większość tych danych jest redundantna redundantna Dane redundantne to takie, które nie wnoszą nowej informacji do procesu uczenia — model już ‘zna’ zawarte w nich wzorce. ? Publikacja “OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration” przedstawia framework, który osiąga porównywalne wyniki przy 6x mniejszej liczbie tokenów tokenów Token to podstawowa jednostka tekstu w LLM — może to być słowo, część słowa lub znak. Model przetwarza tekst jako sekwencję tokenów. dzięki inteligentnemu wybieraniu, z czego model powinien się uczyć na każdym kroku. ...