🧠 Mind2Web 2: Ocena agentów wyszukiwania z AI-sędzią
Agentowe wyszukiwanie informacji (ang. agentic search) to jeden z najbardziej obiecujących kierunków AI. Wyobraź sobie asystenta, który samodzielnie przeszukuje Internet, porusza się po stronach, zbiera dane i zwraca gotowe odpowiedzi – z cytatami.
Ale skąd wiemy, czy robi to dobrze?
Na to pytanie odpowiada Mind2Web 2 – nowy zestaw zadań i sposób oceny zaprezentowany w publikacji arXiv:2506.21506.
🔍 Czym jest Mind2Web 2?
To 130 realistycznych zadań, które symulują realne potrzeby użytkowników:
- porównania produktów,
- wyszukiwanie usług,
- analizowanie danych finansowych,
- streszczanie informacji z wielu źródeł.
Przykładowe zadania:
- “Porównaj trzech dostawców hostingu w chmurze pod względem ceny i wsparcia.”
- “Znajdź elektryczne auta do 150 000 zł i podsumuj ich najważniejsze cechy.”
- “Streszcz recenzje ekspertów dla 3 najlepszych plecaków trekkingowych w 2024 roku.”
Zadania zostały ręcznie opisane i oznaczone przez ludzi – ponad 1000 godzin pracy.
🧑⚖️ Agent-as-a-Judge – AI jako sędzia
Ręczna ocena takich zadań jest kosztowna. Dlatego autorzy wprowadzają nowy mechanizm: Agent-as-a-Judge.
- Wykorzystuje drzewa rubryk do oceny jakości.
- Sprawdza poprawność faktów oraz czy dane są prawidłowo cytowane.
- Symuluje sposób oceniania, jaki stosowałby człowiek.
Dzięki temu możliwa jest automatyczna i skalowalna ocena odpowiedzi AI.
📊 Wyniki eksperymentów
Sprawdzono 9 nowoczesnych systemów, m.in. OpenAI Deep Research.
- Najlepsze systemy osiągają 50–70% skuteczności człowieka.
- Wykonują zadania około 2 razy szybciej niż ludzie.
Największe problemy to wciąż:
- niepełne uzasadnienia,
- błędne cytaty,
- zbyt ogólne streszczenia.
🧩 Dlaczego to ważne
Mind2Web 2 to przełom w ocenie inteligentnych agentów internetowych. W świecie, gdzie coraz więcej decyzji podejmujemy na podstawie informacji z AI, jakość i zaufanie są kluczowe.
Ten benchmark pozwala:
- lepiej rozwijać strategie agentów (np. pamięć, planowanie),
- testować realistyczne scenariusze wyszukiwania,
- budować AI, które nie tylko odpowiadają – ale też wiedzą, dlaczego tak odpowiedziały.
📎 Linki
- Na podstawie publikacji 📄 arXiv:2506.21506