MLLog.dev

ClawGUI: Otwarty full-stack pipeline dla agentów GUI

Wyobraź sobie, że chcesz mieć model, który naprawdę obsłuży Twój telefon — stuknięcie, swipe, wpisanie tekstu, przejście przez aplikację, zarezerwowanie lotu. Model istnieje. Benchmarki istnieją. Dlaczego więc w 2026 roku wciąż nie możesz po prostu pip install agenta GUI i kazać mu cokolwiek zrobić na fizycznym urządzeniu? Odpowiedź prawie nigdy nie dotyczy samego modelu. Dotyczy infrastruktury wokół niego: środowiska treningowego, harnessa ewaluacyjnego i stacku deployu — każde z nich jest zwykle zamknięte, pofragmentowane, albo jedno i drugie. ...

SkillClaw: Jak sprawić, by umiejętności agentów LLM ewoluowały kolektywnie

Wyobraź sobie, że 8 osób w firmie korzysta z tego samego asystenta AI. Każdy z nich napotyka te same problemy - zły port API, brakujący plik, źle sformatowany argument - i za każdym razem samodzielnie odkrywa obejście. Następnego dnia ktoś inny wpada w dokładnie ten sam dół. System nie uczy się z doświadczenia swoich użytkowników. Co gdyby nocna “zmiana redakcyjna” automatycznie analizowała wszystkie interakcje z dnia, wyciągała wnioski i rano udostępniała ulepszone procedury wszystkim? ...

TAPS: Dlaczego dane treningowe modelu-draftu mają większe znaczenie niż jego architektura

Speculative decoding to jedna z najbardziej eleganckich sztuczek w inferencji LLM: mały, szybki model-draft model-draft Lekki model językowy, który szybko proponuje kandydujące tokeny. Większy model ‘weryfikator’ sprawdza te propozycje równolegle, akceptując poprawne i odrzucając błędne - przyspieszając generowanie bez zmiany jakości wyjścia. proponuje tokeny, a duży weryfikator weryfikator Pełnowymiarowy docelowy model językowy, który sprawdza propozycje draftu. Przetwarza wszystkich kandydatów w jednym przebiegu, akceptując te zgodne z własną dystrybucją - gwarantując identyczną jakość jak standardowe dekodowanie autoregresyjne. zatwierdza lub odrzuca je równolegle. Ta sama dystrybucja wyjściowa, mniej kosztownych przebiegów. ...

Demystifying Video Reasoning: Modele nie myślą klatkami - myślą krokami odszumiania

Modele generowania wideo jak Sora potrafią rozwiązywać labirynty, manipulować obiektami i odpowiadać na pytania matematyczne - wszystko poprzez generowanie wideo. Ale jak one rozumują? Intuicyjna odpowiedź: krok po kroku, klatka po klatce, jak człowiek rysujący rozwiązanie na tablicy. Ta odpowiedź jest błędna. Publikacja “Demystifying Video Reasoning” pokazuje, że rozumowanie w modelu dyfuzyjnym nie przebiega wzdłuż klatek. Przebiega wzdłuż kroków odszumiania - iteracyjnego procesu, który zamienia szum w spójne wideo. Autorzy nazywają to Chain-of-Steps (CoS) i fundamentalnie zmienia to sposób, w jaki rozumiemy działanie tych modeli. ...

Seoul World Model: AI generujące wideo prawdziwych miast ze zdjęć ulicznych

Co by było, gdyby można było przelecieć wirtualną kamerą przez dowolną ulicę prawdziwego miasta — nie w silniku gry, nie z nagrania, ale z wygenerowanego na żywo, fotorealistycznego obrazu opartego na prawdziwych zdjęciach ulicznych? Dokładnie to robi Seoul World Model (SWM). Publikacja “Grounding World Simulation Models in a Real-World Metropolis” przedstawia model świata model świata Sieć neuronowa, która uczy się dynamiki i wyglądu środowiska, pozwalając ‘wyobrażać sobie’ nowe widoki i trajektorie, których nigdy bezpośrednio nie widziała. działający w skali całego miasta, zakotwiczony w realnej geografii — nie w wymyślonych scenach. ...

Zgubieni w Opowieściach: Jak LLM-y Gubią Wątek w Długich Historiach

Poproś dowolny model językowy o napisanie opowiadania na 10 000 słów. Na pierwszej stronie bohater ma niebieskie oczy. Na piątej — brązowe. W rozdziale trzecim jest czwartek, w szóstym ten sam dzień to nagle sobota. Postać, która zginęła na stronie siedem, spokojnie rozmawia na stronie dziesięć. Brzmi znajomo? Publikacja “Lost in Stories: Consistency Bugs in Long Story Generation by LLMs” po raz pierwszy systematycznie bada ten problem — i wyniki są otrzeźwiające. Nawet najlepsze modele produkują średnio jeden błąd spójności na każde 10 000 słów, a ludzie-eksperci wykrywają zaledwie 17% z nich. ...

Utonia: Jeden Enkoder Dla Wszystkich Chmur Punktów

LiDAR na dachu autonomicznego samochodu, kamera głębi w robocie domowym, skaner satelitarny i model CAD z drukarki 3D — każde z tych urządzeń produkuje chmurę punktów chmurę punktów Zbiór punktów 3D (x, y, z) reprezentujący kształt obiektu lub sceny. Każdy punkt może mieć dodatkowe atrybuty: kolor, normalna, intensywność. , ale o radykalnie różnej gęstości, skali i geometrii. Dotychczas każda domena wymagała osobnego modelu. Publikacja “Utonia: Toward One Encoder for All Point Clouds” łamie ten schemat — jeden enkoder, 137M parametrów, pięć domen, i emergentne zachowania, których nikt się nie spodziewał. ...

SAGE: Twój Model Wie, Kiedy Przestać Myśleć — Tylko Mu Nie Pozwalasz

Modele rozumujące generują długie łańcuchy myśli, aby dojść do odpowiedzi. Ale co jeśli ponad połowa tych “myśli” to zbędny szum, a model od dawna zna odpowiedź — tylko nie wie, że może przestać? Publikacja “Does Your Reasoning Model Implicitly Know When to Stop Thinking?” odkrywa, że tak właśnie jest, i proponuje SAGE — metodę, która redukuje liczbę tokenów o 40-50% przy zachowaniu lub poprawie dokładności. Problem: Myślenie, Które Szkodzi Współczesne modele rozumujące modele rozumujące LLM trenowane do generowania krok-po-kroku łańcuchów myśli (Chain-of-Thought) przed podaniem odpowiedzi. Przykłady: DeepSeek-R1, Qwen3, o1. jak DeepSeek-R1 czy Qwen3 zostały nauczone produkować długie Chain-of-Thought Chain-of-Thought Łańcuch myśli — technika, w której model generuje kolejne kroki rozumowania prowadzące do odpowiedzi. Poprawia dokładność, ale zwiększa koszt. (CoT), zanim podadzą odpowiedź. Problem w tym, że dłuższe myślenie nie zawsze oznacza lepsze. ...

Gdy GPT Odkrywa Prawa Fizyki: Przełom w Teorii Gluonów

Co się stanie, gdy poprosisz sztuczną inteligencję o rozwiązanie problemu, nad którym fizycy teoretyczni pracowali od dekad? W najnowszej publikacji zespołu z Princeton, Harvard, Cambridge i OpenAI, GPT-5.2 Pro GPT-5.2 Pro Najnowsza wersja modelu językowego OpenAI, zdolna do zaawansowanego rozumowania matematycznego i formułowania hipotez naukowych. jako pierwszy zaproponował kluczową formułę opisującą rozpraszanie gluonów — formułę, którą następnie udowodnił inny wewnętrzny model OpenAI, a naukowcy zweryfikowali ręcznie. To nie jest science fiction. To publikacja naukowa z lutego 2026. ...

OPUS: Jak Trenować LLM 6x Szybciej Wybierając Właściwe Dane

Trenowanie dużych modeli językowych wymaga astronomicznych ilości danych i mocy obliczeniowej. Ale co jeśli większość tych danych jest redundantna redundantna Dane redundantne to takie, które nie wnoszą nowej informacji do procesu uczenia — model już ‘zna’ zawarte w nich wzorce. ? Publikacja “OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration” przedstawia framework, który osiąga porównywalne wyniki przy 6x mniejszej liczbie tokenów tokenów Token to podstawowa jednostka tekstu w LLM — może to być słowo, część słowa lub znak. Model przetwarza tekst jako sekwencję tokenów. dzięki inteligentnemu wybieraniu, z czego model powinien się uczyć na każdym kroku. ...