Co by było, gdyby AI mogło nie tylko odpowiadać na pytania, ale aktywnie planować badania naukowe? Nie chodzi o generowanie tekstu — chodzi o tworzenie spójnych, nowatorskich planów eksperymentów, które eksperci oceniają jako lepsze od tych pisanych przez ludzi. Brzmi jak science fiction? Naukowcy z Meta AI i partnerów właśnie to osiągnęli.

Problem: Jak ocenić kreatywność naukową?

Trenowanie modeli do zadań “zamkniętych” (matematyka, kodowanie) jest stosunkowo proste — odpowiedź jest poprawna lub nie. Ale jak ocenić plan badawczy?

  • Nie ma jednej “poprawnej” odpowiedzi
  • Nowatorskość jest subiektywna
  • Wykonalność zależy od kontekstu
  • Eksperci się nie zgadzają

Tradycyjne podejście wymagałoby tysięcy godzin pracy ekspertów oceniających każdy wygenerowany plan. Niemożliwe do skalowania.

Rozwiązanie: Niech nauka ocenia naukę

Autorzy wpadli na elegancki pomysł: wyekstrahować kryteria oceny z istniejących publikacji naukowych.

Krok 1: Ekstrakcja rubryk

Z każdej publikacji naukowej można wyciągnąć:

  1. Cel badawczy — co autorzy chcieli osiągnąć?
  2. Rubryke oceny — jakie kryteria musi spełnić dobry plan dla tego celu?

Na przykład dla publikacji o detekcji oszustw:

  • Cel: “Wykryć oszustwa w transakcjach kartowych w czasie rzeczywistym”
  • Rubryka:
    • Czy plan adresuje problem class imbalance?
    • Czy uwzględnia wymagania latency?
    • Czy proponuje metryki poza accuracy?

Krok 2: Samoocena z “zamrożonym” modelem

Tu jest kluczowa innowacja. Zamiast prosić zewnętrznych ekspertów o ocenę:

  1. Weź początkową wersję modelu i zamroź ją (frozen grader)
  2. Trenuj nową wersję modelu generować plany
  3. Niech zamrożony model ocenia te plany według rubryk
  4. Używaj ocen jako sygnału nagrody w RL

Dlaczego to działa? Zamrożony model tworzy stały punkt odniesienia. Nawet jeśli jego oceny nie są idealne, są konsystentne — a to wystarczy do uczenia.

$$ L = - E_{x} \left[ \sum_i r_i(G(x), \text{rubric}_i) \right] $$

gdzie $G$ to generator planów, a $r_i$ to ocena od zamrożonego gradera dla $i$-tego kryterium.

Wyniki: Liczby, które zaskakują

Preferencje ekspertów

W ślepych testach z ekspertami dziedzinowymi:

PorównaniePreferencja dla AI
vs. baseline (Qwen3-30B)70%
vs. plany z publikacji52%

Model wytrenowany tą metodą był preferowany w 70% przypadków nad modelem bazowym. Co więcej — w połowie przypadków eksperci woleli plan AI od oryginalnego planu z publikacji!

Jakość rubryk

84% automatycznie wyekstrahowanych rubryk zostało ocenionych przez ludzi jako “dobre lub bardzo dobre”. System sam nauczył się rozpoznawać, co czyni plan badawczy wartościowym.

Generalizacja

Model trenowany głównie na ML generalizuje do:

  • Badań medycznych — bez dostępu do danych klinicznych
  • Fizyki — z innymi konwencjami notacyjnymi
  • Biologii — z zupełnie inną metodologią

Poprawa 12-22% względem baseline’u utrzymuje się między domenami.

Dlaczego to ważne?

Dla naukowców

To nie jest narzędzie do “zastępowania” naukowców. To asystent planowania:

  • Generuje alternatywne podejścia do problemu
  • Wskazuje luki w istniejącym planie
  • Sugeruje metodologie z innych dziedzin
  • Przyspiesza brainstorming

Dla przemysłu AI

Technika samooceny z zamrożonym graderem jest generalna:

  • Nie wymaga ekspertów do labelowania
  • Skaluje się do dowolnej liczby przykładów
  • Działa w domenach bez ground truth

Dla filozofii nauki

Co to znaczy, że AI może pisać “lepsze” plany badawcze? Czy kreatywność naukowa jest bardziej systematyczna niż sądziliśmy?

Ograniczenia

Autorzy są uczciwi co do limitacji:

  1. Brak wykonania planów — model generuje plany, ale ich nie realizuje. Dobry plan to nie to samo co dobry wynik.

  2. Bias w danych — rubryki pochodzą z istniejących publikacji, które mogą faworyzować konwencjonalne podejścia.

  3. Ocena przez AI — nawet eksperci mogą nie dostrzegać subtelnych problemów, które model propaguje.

Techniczne szczegóły

Dla zaawansowanych:

Model bazowy: Qwen3-30B-A3B (Mixture of Experts)

Dane treningowe:

  • ~10k publikacji z arXiv (głównie ML)
  • Automatyczna ekstrakcja celów i rubryk
  • Filtrowanie przez jakość rubryk

Trening RL:

  • PPO z KL penalty względem modelu bazowego
  • Multi-reward: osobna nagroda za każde kryterium rubryki
  • Zamrożony grader = checkpoint modelu sprzed treningu

Ewaluacja:

  • 225 godzin oceny przez ekspertów dziedzinowych
  • Frontier models (GPT-4, Claude) jako dodatkowi oceniający
  • Testy out-of-domain na medycynie i fizyce

Podsumowanie

Ta publikacja pokazuje, że możemy trenować AI do zadań wymagających “kreatywności” — jeśli sprytnie zdefiniujemy, czym ta kreatywność jest. Zamiast pytać “czy to jest kreatywne?”, pytamy “czy spełnia kryteria, które sami naukowcy uważają za ważne?”.

To fundamentalna zmiana perspektywy: od subiektywnej oceny do operacjonalizacji ekspertyzy.

Czy AI zastąpi naukowców? Nie. Ale AI jako współpracownik — to już dzieje się teraz.


📎 Linki