🧠 Mind2Web 2: Ocena agentów wyszukiwania z AI-sędzią

Agentowe wyszukiwanie informacji (ang. agentic search) to jeden z najbardziej obiecujących kierunków AI. Wyobraź sobie asystenta, który samodzielnie przeszukuje Internet, porusza się po stronach, zbiera dane i zwraca gotowe odpowiedzi – z cytatami.

Ale skąd wiemy, czy robi to dobrze?

Na to pytanie odpowiada Mind2Web 2 – nowy zestaw zadań i sposób oceny zaprezentowany w publikacji arXiv:2506.21506.


🔍 Czym jest Mind2Web 2?

To 130 realistycznych zadań, które symulują realne potrzeby użytkowników:

  • porównania produktów,
  • wyszukiwanie usług,
  • analizowanie danych finansowych,
  • streszczanie informacji z wielu źródeł.

Przykładowe zadania:

  • “Porównaj trzech dostawców hostingu w chmurze pod względem ceny i wsparcia.”
  • “Znajdź elektryczne auta do 150 000 zł i podsumuj ich najważniejsze cechy.”
  • “Streszcz recenzje ekspertów dla 3 najlepszych plecaków trekkingowych w 2024 roku.”

Zadania zostały ręcznie opisane i oznaczone przez ludzi – ponad 1000 godzin pracy.


🧑‍⚖️ Agent-as-a-Judge – AI jako sędzia

Ręczna ocena takich zadań jest kosztowna. Dlatego autorzy wprowadzają nowy mechanizm: Agent-as-a-Judge.

  • Wykorzystuje drzewa rubryk do oceny jakości.
  • Sprawdza poprawność faktów oraz czy dane są prawidłowo cytowane.
  • Symuluje sposób oceniania, jaki stosowałby człowiek.

Dzięki temu możliwa jest automatyczna i skalowalna ocena odpowiedzi AI.


📊 Wyniki eksperymentów

Sprawdzono 9 nowoczesnych systemów, m.in. OpenAI Deep Research.

  • Najlepsze systemy osiągają 50–70% skuteczności człowieka.
  • Wykonują zadania około 2 razy szybciej niż ludzie.

Największe problemy to wciąż:

  • niepełne uzasadnienia,
  • błędne cytaty,
  • zbyt ogólne streszczenia.

🧩 Dlaczego to ważne

Mind2Web 2 to przełom w ocenie inteligentnych agentów internetowych. W świecie, gdzie coraz więcej decyzji podejmujemy na podstawie informacji z AI, jakość i zaufanie są kluczowe.

Ten benchmark pozwala:

  • lepiej rozwijać strategie agentów (np. pamięć, planowanie),
  • testować realistyczne scenariusze wyszukiwania,
  • budować AI, które nie tylko odpowiadają – ale też wiedzą, dlaczego tak odpowiedziały.

📎 Linki