Wyobraź sobie, że jesteś nauczycielem i oceniasz egzamin z matematyki. Uczeń wpisuje wynik końcowy - poprawny lub nie - i na tej podstawie stawiasz ocenę. Nie widzisz brudnopisu. Nie wiesz, czy uczeń rozumiał wzór, ale źle podstawił, czy może strzelał i trafił. Tak właśnie działają obecne benchmarki agentów kodujących: SWE-bench, Aider-bench, LiveCodeBench. Agent dostaje issue, produkuje patch, testy przechodzą albo nie. Punkt albo zero. Ale nikt nie sprawdza, czy agent w ogóle znalazł właściwy fragment kodu. ...
SkillOpt: Jak wytrenować umiejętności agenta AI bez dotykania modelu
GPT-5.5 nie da się fine-tunować. Claude też nie. A mimo to oczekujemy, że te zamrożone modele obsłużą automatyzację arkuszy kalkulacyjnych, olimpiady matematyczne i wielokrokowe wyszukiwanie - wszystko na podstawie ręcznie napisanego system promptu. SkillOpt (arXiv 2605.23904, maj 2026) odwraca perspektywę: skoro nie możemy zmieniać wag modelu, to potraktujmy dokument skill - instrukcję proceduralną w języku naturalnym - jako jedyny trenowalny parametr i zoptymalizujmy go z pełną dyscypliną deep learningu. Efekt? Wygrana lub remis we wszystkich 52 ewaluowanych komórkach (model, benchmark, harness), zyski do +39 punktów na benchmarkach proceduralnych, a finałowy artefakt to plik Markdown o długości 300-2000 tokenów. ...
MolmoAct2: Jak Allen AI zbudowało otwarty model robota, który bije zamknięte giganty
Robot, który jednym modelem składa pranie, pakuje leki i nalewa herbatę - brzmi jak science fiction, ale dokładnie tego potrzebuje przemysł. Problem? Najlepsze kontrolery robotów są albo zamknięte (π0.5 od Physical Intelligence), albo za wolne (modele rozumujące generują setki tokenów zanim ruszą ramieniem), albo wymagają sprzętu za dziesiątki tysięcy dolarów. MolmoAct2 (Fang, Duan et al., Allen AI / UW / Stanford / NVIDIA / MIT, maj 2026) rozwiązuje te problemy jednocześnie: jest w pełni otwarty (wagi, kod, dane), działa z prędkością 55.79 Hz, i osiąga 97.2% sukcesu na LIBERO - bijąc każdy otwarty i zamknięty baseline. Kluczowa innowacja? Generator akcji robota “zagląda” do modelu językowego na każdej warstwie transformera, nie tylko na końcu. ...
Rekurencyjne systemy wieloagentowe: jak LLM-y uczą się współpracować w przestrzeni ukrytej
Wyobraźcie sobie zespół programistów pracujących nad trudnym problemem. W klasycznym podejściu każdy pisze długiego maila z wyjaśnieniem swoich przemyśleń, następna osoba czyta, przetwarza, pisze odpowiedź - i tak w kółko. Teraz wyobraźcie sobie, że zamiast tego mają wspólną mentalną tablicę. Każdy szkicuje myśli w abstrakcyjnej notacji, następna osoba rafinuje, cały szkic przechodzi przez zespół wielokrotnie. Żadnego tłumaczenia na naturalny język i z powrotem. Żadnej utraty informacji. Dokładnie to proponuje RecursiveMAS - praca “Recursive Multi-Agent Systems” (Yang, Zou, Pan et al., UIUC, Stanford, NVIDIA, MIT, kwiecień 2026). Autorzy traktują cały system wieloagentowy jako jedną rekurencyjną sieć neuronową, gdzie każdy agent jest warstwą w pętli, a komunikacja odbywa się wyłącznie w przestrzeni ukrytej. Efekt? +8.3% średniej dokładności, 2.4x przyspieszenie i 75.6% redukcji tokenów w porównaniu z klasycznymi systemami tekstowymi. ...
Tstars-Tryon 1.0: wirtualna przymierzalnia jako edycja wieloobrazowa w skali Taobao
Użytkownik otwiera aplikację Taobao, wybiera zdjęcie modela i wrzuca sześć referencji: płaszcz, koszulkę pod spód, spodnie, buty, czapkę i torbę. Klika przycisk. Niecałe siedem sekund później pojawia się świeże zdjęcie - ta sama twarz, to samo tło, każdy element ubioru poprawnie ułożony, płaszcz rozpięty tak, że widać koszulkę pod spodem. Pomnóż to przez dziesiątki milionów requestów w oknie obsługowym, a dostajesz problem, który rozwiązuje Tstars-Tryon 1.0. To nie jest sterylny scenariusz VITON-HD, gdzie jedna koszulka jest doklejana do studyjnego modela. To virtual try-on (VTON) w skali e-commerce, na realnych zdjęciach, z warstwowymi outfitami i akcesoriami - i działa już dziś. ...
ClawGUI: Otwarty full-stack pipeline dla agentów GUI
Wyobraź sobie, że chcesz mieć model, który naprawdę obsłuży Twój telefon — stuknięcie, swipe, wpisanie tekstu, przejście przez aplikację, zarezerwowanie lotu. Model istnieje. Benchmarki istnieją. Dlaczego więc w 2026 roku wciąż nie możesz po prostu pip install agenta GUI i kazać mu cokolwiek zrobić na fizycznym urządzeniu? Odpowiedź prawie nigdy nie dotyczy samego modelu. Dotyczy infrastruktury wokół niego: środowiska treningowego, harnessa ewaluacyjnego i stacku deployu — każde z nich jest zwykle zamknięte, pofragmentowane, albo jedno i drugie. ...
SkillClaw: Jak sprawić, by umiejętności agentów LLM ewoluowały kolektywnie
Wyobraź sobie, że 8 osób w firmie korzysta z tego samego asystenta AI. Każdy z nich napotyka te same problemy - zły port API, brakujący plik, źle sformatowany argument - i za każdym razem samodzielnie odkrywa obejście. Następnego dnia ktoś inny wpada w dokładnie ten sam dół. System nie uczy się z doświadczenia swoich użytkowników. Co gdyby nocna “zmiana redakcyjna” automatycznie analizowała wszystkie interakcje z dnia, wyciągała wnioski i rano udostępniała ulepszone procedury wszystkim? ...
TAPS: Dlaczego dane treningowe modelu-draftu mają większe znaczenie niż jego architektura
Speculative decoding to jedna z najbardziej eleganckich sztuczek w inferencji LLM: mały, szybki model-draft model-draft Lekki model językowy, który szybko proponuje kandydujące tokeny. Większy model ‘weryfikator’ sprawdza te propozycje równolegle, akceptując poprawne i odrzucając błędne - przyspieszając generowanie bez zmiany jakości wyjścia. proponuje tokeny, a duży weryfikator weryfikator Pełnowymiarowy docelowy model językowy, który sprawdza propozycje draftu. Przetwarza wszystkich kandydatów w jednym przebiegu, akceptując te zgodne z własną dystrybucją - gwarantując identyczną jakość jak standardowe dekodowanie autoregresyjne. zatwierdza lub odrzuca je równolegle. Ta sama dystrybucja wyjściowa, mniej kosztownych przebiegów. ...
Demystifying Video Reasoning: Modele nie myślą klatkami - myślą krokami odszumiania
Modele generowania wideo jak Sora potrafią rozwiązywać labirynty, manipulować obiektami i odpowiadać na pytania matematyczne - wszystko poprzez generowanie wideo. Ale jak one rozumują? Intuicyjna odpowiedź: krok po kroku, klatka po klatce, jak człowiek rysujący rozwiązanie na tablicy. Ta odpowiedź jest błędna. Publikacja “Demystifying Video Reasoning” pokazuje, że rozumowanie w modelu dyfuzyjnym nie przebiega wzdłuż klatek. Przebiega wzdłuż kroków odszumiania - iteracyjnego procesu, który zamienia szum w spójne wideo. Autorzy nazywają to Chain-of-Steps (CoS) i fundamentalnie zmienia to sposób, w jaki rozumiemy działanie tych modeli. ...
Seoul World Model: AI generujące wideo prawdziwych miast ze zdjęć ulicznych
Co by było, gdyby można było przelecieć wirtualną kamerą przez dowolną ulicę prawdziwego miasta — nie w silniku gry, nie z nagrania, ale z wygenerowanego na żywo, fotorealistycznego obrazu opartego na prawdziwych zdjęciach ulicznych? Dokładnie to robi Seoul World Model (SWM). Publikacja “Grounding World Simulation Models in a Real-World Metropolis” przedstawia model świata model świata Sieć neuronowa, która uczy się dynamiki i wyglądu środowiska, pozwalając ‘wyobrażać sobie’ nowe widoki i trajektorie, których nigdy bezpośrednio nie widziała. działający w skali całego miasta, zakotwiczony w realnej geografii — nie w wymyślonych scenach. ...