SWE-Explore: Benchmark oceniający jak agenci kodujący eksplorują repozytoria

Wyobraź sobie, że jesteś nauczycielem i oceniasz egzamin z matematyki. Uczeń wpisuje wynik końcowy - poprawny lub nie - i na tej podstawie stawiasz ocenę. Nie widzisz brudnopisu. Nie wiesz, czy uczeń rozumiał wzór, ale źle podstawił, czy może strzelał i trafił. Tak właśnie działają obecne benchmarki agentów kodujących: SWE-bench, Aider-bench, LiveCodeBench. Agent dostaje issue, produkuje patch, testy przechodzą albo nie. Punkt albo zero. Ale nikt nie sprawdza, czy agent w ogóle znalazł właściwy fragment kodu. ...

czerwca 9, 2026

SkillOpt: Jak wytrenować umiejętności agenta AI bez dotykania modelu

GPT-5.5 nie da się fine-tunować. Claude też nie. A mimo to oczekujemy, że te zamrożone modele obsłużą automatyzację arkuszy kalkulacyjnych, olimpiady matematyczne i wielokrokowe wyszukiwanie - wszystko na podstawie ręcznie napisanego system promptu. SkillOpt (arXiv 2605.23904, maj 2026) odwraca perspektywę: skoro nie możemy zmieniać wag modelu, to potraktujmy dokument skill - instrukcję proceduralną w języku naturalnym - jako jedyny trenowalny parametr i zoptymalizujmy go z pełną dyscypliną deep learningu. Efekt? Wygrana lub remis we wszystkich 52 ewaluowanych komórkach (model, benchmark, harness), zyski do +39 punktów na benchmarkach proceduralnych, a finałowy artefakt to plik Markdown o długości 300-2000 tokenów. ...

maja 29, 2026

MolmoAct2: Jak Allen AI zbudowało otwarty model robota, który bije zamknięte giganty

Robot, który jednym modelem składa pranie, pakuje leki i nalewa herbatę - brzmi jak science fiction, ale dokładnie tego potrzebuje przemysł. Problem? Najlepsze kontrolery robotów są albo zamknięte (π0.5 od Physical Intelligence), albo za wolne (modele rozumujące generują setki tokenów zanim ruszą ramieniem), albo wymagają sprzętu za dziesiątki tysięcy dolarów. MolmoAct2 (Fang, Duan et al., Allen AI / UW / Stanford / NVIDIA / MIT, maj 2026) rozwiązuje te problemy jednocześnie: jest w pełni otwarty (wagi, kod, dane), działa z prędkością 55.79 Hz, i osiąga 97.2% sukcesu na LIBERO - bijąc każdy otwarty i zamknięty baseline. Kluczowa innowacja? Generator akcji robota “zagląda” do modelu językowego na każdej warstwie transformera, nie tylko na końcu. ...

maja 10, 2026

Rekurencyjne systemy wieloagentowe: jak LLM-y uczą się współpracować w przestrzeni ukrytej

Wyobraźcie sobie zespół programistów pracujących nad trudnym problemem. W klasycznym podejściu każdy pisze długiego maila z wyjaśnieniem swoich przemyśleń, następna osoba czyta, przetwarza, pisze odpowiedź - i tak w kółko. Teraz wyobraźcie sobie, że zamiast tego mają wspólną mentalną tablicę. Każdy szkicuje myśli w abstrakcyjnej notacji, następna osoba rafinuje, cały szkic przechodzi przez zespół wielokrotnie. Żadnego tłumaczenia na naturalny język i z powrotem. Żadnej utraty informacji. Dokładnie to proponuje RecursiveMAS - praca “Recursive Multi-Agent Systems” (Yang, Zou, Pan et al., UIUC, Stanford, NVIDIA, MIT, kwiecień 2026). Autorzy traktują cały system wieloagentowy jako jedną rekurencyjną sieć neuronową, gdzie każdy agent jest warstwą w pętli, a komunikacja odbywa się wyłącznie w przestrzeni ukrytej. Efekt? +8.3% średniej dokładności, 2.4x przyspieszenie i 75.6% redukcji tokenów w porównaniu z klasycznymi systemami tekstowymi. ...

maja 2, 2026

Tstars-Tryon 1.0: wirtualna przymierzalnia jako edycja wieloobrazowa w skali Taobao

Użytkownik otwiera aplikację Taobao, wybiera zdjęcie modela i wrzuca sześć referencji: płaszcz, koszulkę pod spód, spodnie, buty, czapkę i torbę. Klika przycisk. Niecałe siedem sekund później pojawia się świeże zdjęcie - ta sama twarz, to samo tło, każdy element ubioru poprawnie ułożony, płaszcz rozpięty tak, że widać koszulkę pod spodem. Pomnóż to przez dziesiątki milionów requestów w oknie obsługowym, a dostajesz problem, który rozwiązuje Tstars-Tryon 1.0. To nie jest sterylny scenariusz VITON-HD, gdzie jedna koszulka jest doklejana do studyjnego modela. To virtual try-on (VTON) w skali e-commerce, na realnych zdjęciach, z warstwowymi outfitami i akcesoriami - i działa już dziś. ...

kwietnia 26, 2026

ClawGUI: Otwarty full-stack pipeline dla agentów GUI

Wyobraź sobie, że chcesz mieć model, który naprawdę obsłuży Twój telefon — stuknięcie, swipe, wpisanie tekstu, przejście przez aplikację, zarezerwowanie lotu. Model istnieje. Benchmarki istnieją. Dlaczego więc w 2026 roku wciąż nie możesz po prostu pip install agenta GUI i kazać mu cokolwiek zrobić na fizycznym urządzeniu? Odpowiedź prawie nigdy nie dotyczy samego modelu. Dotyczy infrastruktury wokół niego: środowiska treningowego, harnessa ewaluacyjnego i stacku deployu — każde z nich jest zwykle zamknięte, pofragmentowane, albo jedno i drugie. ...

kwietnia 15, 2026

SkillClaw: Jak sprawić, by umiejętności agentów LLM ewoluowały kolektywnie

Wyobraź sobie, że 8 osób w firmie korzysta z tego samego asystenta AI. Każdy z nich napotyka te same problemy - zły port API, brakujący plik, źle sformatowany argument - i za każdym razem samodzielnie odkrywa obejście. Następnego dnia ktoś inny wpada w dokładnie ten sam dół. System nie uczy się z doświadczenia swoich użytkowników. Co gdyby nocna “zmiana redakcyjna” automatycznie analizowała wszystkie interakcje z dnia, wyciągała wnioski i rano udostępniała ulepszone procedury wszystkim? ...

kwietnia 12, 2026

TAPS: Dlaczego dane treningowe modelu-draftu mają większe znaczenie niż jego architektura

Speculative decoding to jedna z najbardziej eleganckich sztuczek w inferencji LLM: mały, szybki model-draft model-draft Lekki model językowy, który szybko proponuje kandydujące tokeny. Większy model ‘weryfikator’ sprawdza te propozycje równolegle, akceptując poprawne i odrzucając błędne - przyspieszając generowanie bez zmiany jakości wyjścia. proponuje tokeny, a duży weryfikator weryfikator Pełnowymiarowy docelowy model językowy, który sprawdza propozycje draftu. Przetwarza wszystkich kandydatów w jednym przebiegu, akceptując te zgodne z własną dystrybucją - gwarantując identyczną jakość jak standardowe dekodowanie autoregresyjne. zatwierdza lub odrzuca je równolegle. Ta sama dystrybucja wyjściowa, mniej kosztownych przebiegów. ...

marca 28, 2026

Demystifying Video Reasoning: Modele nie myślą klatkami - myślą krokami odszumiania

Modele generowania wideo jak Sora potrafią rozwiązywać labirynty, manipulować obiektami i odpowiadać na pytania matematyczne - wszystko poprzez generowanie wideo. Ale jak one rozumują? Intuicyjna odpowiedź: krok po kroku, klatka po klatce, jak człowiek rysujący rozwiązanie na tablicy. Ta odpowiedź jest błędna. Publikacja “Demystifying Video Reasoning” pokazuje, że rozumowanie w modelu dyfuzyjnym nie przebiega wzdłuż klatek. Przebiega wzdłuż kroków odszumiania - iteracyjnego procesu, który zamienia szum w spójne wideo. Autorzy nazywają to Chain-of-Steps (CoS) i fundamentalnie zmienia to sposób, w jaki rozumiemy działanie tych modeli. ...

marca 17, 2026

Seoul World Model: AI generujące wideo prawdziwych miast ze zdjęć ulicznych

Co by było, gdyby można było przelecieć wirtualną kamerą przez dowolną ulicę prawdziwego miasta — nie w silniku gry, nie z nagrania, ale z wygenerowanego na żywo, fotorealistycznego obrazu opartego na prawdziwych zdjęciach ulicznych? Dokładnie to robi Seoul World Model (SWM). Publikacja “Grounding World Simulation Models in a Real-World Metropolis” przedstawia model świata model świata Sieć neuronowa, która uczy się dynamiki i wyglądu środowiska, pozwalając ‘wyobrażać sobie’ nowe widoki i trajektorie, których nigdy bezpośrednio nie widziała. działający w skali całego miasta, zakotwiczony w realnej geografii — nie w wymyślonych scenach. ...

marca 16, 2026