SWE-Explore: Benchmark oceniający jak agenci kodujący eksplorują repozytoria
Wyobraź sobie, że jesteś nauczycielem i oceniasz egzamin z matematyki. Uczeń wpisuje wynik końcowy - poprawny lub nie - i na tej podstawie stawiasz ocenę. Nie widzisz brudnopisu. Nie wiesz, czy uczeń rozumiał wzór, ale źle podstawił, czy może strzelał i trafił. Tak właśnie działają obecne benchmarki agentów kodujących: SWE-bench, Aider-bench, LiveCodeBench. Agent dostaje issue, produkuje patch, testy przechodzą albo nie. Punkt albo zero. Ale nikt nie sprawdza, czy agent w ogóle znalazł właściwy fragment kodu. ...