Poproś dowolny model językowy o napisanie opowiadania na 10 000 słów. Na pierwszej stronie bohater ma niebieskie oczy. Na piątej — brązowe. W rozdziale trzecim jest czwartek, w szóstym ten sam dzień to nagle sobota. Postać, która zginęła na stronie siedem, spokojnie rozmawia na stronie dziesięć.

Brzmi znajomo? Publikacja “Lost in Stories: Consistency Bugs in Long Story Generation by LLMs” po raz pierwszy systematycznie bada ten problem — i wyniki są otrzeźwiające. Nawet najlepsze modele produkują średnio jeden błąd spójności na każde 10 000 słów, a ludzie-eksperci wykrywają zaledwie 17% z nich.


Problem: Im Dłuższy Tekst, Tym Więcej Kłamstw

Modele językowe potrafią generować imponująco brzmiący tekst. Ale spójność narracyjna spójność narracyjna Utrzymywanie zgodności między faktami, postaciami, zasadami świata i chronologią w obrębie jednego tekstu. Gdy postać ma niebieskie oczy na s.1 i brązowe na s.5 — to brak spójności. w długich tekstach to zupełnie inne wyzwanie niż jakość pojedynczych zdań.

Dotychczasowe benchmarki benchmarki Standardowe zestawy testowe do porównywania modeli. Dla tekstu istnieją benchmarki gramatyki, logiki, wiedzy — ale spójność narracyjna była dotąd pomijana. oceniają modele pod kątem gramatyki, logiki, wiedzy ogólnej — ale żaden nie mierzył systematycznie, czy model potrafi utrzymać spójność w obrębie jednego, długiego tekstu.

ConStory-Bench wypełnia tę lukę.


Taksonomia Błędów: 5 Kategorii, 19 Podtypów

Autorzy zidentyfikowali pięć głównych kategorii błędów spójności:

1. Chronologia i Logika Fabuły

Sześć podtypów — najczęstsza kategoria:

  • Sprzeczności czasowe absolutne — “Była środa” → kilka akapitów dalej ten sam dzień to piątek
  • Sprzeczności czasowe — podróż trwa jednocześnie 2 godziny i 3 dni
  • Jednoczesność — postać jest w dwóch miejscach naraz
  • Skutki bez przyczyn — postać reaguje na coś, co jeszcze się nie wydarzyło
  • Złamanie logiki przyczynowej — zdarzenia wynikają z siebie w sprzeczny sposób
  • Porzucone wątki — zapowiedziany wątek nigdy nie zostaje rozwiązany

2. Charakteryzacja Postaci

  • Sprzeczności pamięci — postać zapomina, co sama powiedziała
  • Sprzeczności wiedzy — postać wie coś, czego nie powinna
  • Fluktuacje umiejętności — ekspert nagle nie radzi sobie z podstawami
  • Zapomniane zdolności — magiczne moce pojawiają się i znikają bez wyjaśnienia

3. Świat i Ustawienia

  • Złamanie reguł świata — magia działa inaczej niż ustalono
  • Sprzeczności geograficzne — miasta zmieniają położenie
  • Naruszenie norm społecznych — postacie zachowują się sprzecznie z ustalonymi zasadami

4. Fakty i Detale

  • Zmiana wyglądu — kolor oczu, włosów, wzrost
  • Pomylenie imion — postacie zamieniają się imionami
  • Sprzeczności liczbowe — “pięciu rycerzy” staje się “trzema”

5. Narracja i Styl

  • Zmiana perspektywy — nagłe przeskoki między 1. a 3. osobą
  • Niespójność tonu — thriller nagle staje się komedią
  • Przeskoki stylistyczne — formalna proza zamienia się w slang

ConStory-Bench: 2000 Promptów, 4 Scenariusze

Scenariusze Testowe

ScenariuszPromptyOpis
Generowanie751 (37.5%)Tworzenie narracji od zera z minimalnej fabuły
Kontynuacja432 (21.6%)Rozwinięcie istniejącego fragmentu
Rozszerzenie422 (21.1%)Budowanie historii z konspektu
Uzupełnienie395 (19.8%)Wypełnienie luki między początkiem a końcem

Docelowa długość: 8 000 – 10 000 słów. Prompty zebrane z siedmiu korpusów, deduplikowane algorytmem MinHash MinHash Algorytm szybkiego szacowania podobieństwa między zbiorami. Używany do wykrywania i usuwania duplikatów w dużych kolekcjach tekstów. .


ConStory-Checker: Automatyczny Detektyw

Ręczna analiza 10 000-słownych tekstów jest niepraktyczna — ludzcy eksperci wykrywają zaledwie 17.1% błędów (recall). Autorzy stworzyli czterostopniowy pipeline automatycznej detekcji:

Pipeline

Etap 1: Ekstrakcja — Wyciąganie fragmentów podatnych na sprzeczności, osobno dla każdej kategorii

Etap 2: Klasyfikacja parami — Porównywanie wyciągniętych fragmentów: “Spójne” czy “Sprzeczne”

Etap 3: Łańcuch dowodów — Budowanie uzasadnienia z dokładnymi cytatami i pozycjami znaków w tekście

Etap 4: Strukturalny output — JSON z cytatami, lokalizacjami, typami błędów i wyjaśnieniami

Model ewaluacyjny: o4-mini.

Skuteczność

MetrykaConStory-CheckerEksperci
Precyzja88.4%
Recall55.0%17.1%
F1-score0.6780.229

ConStory-Checker jest 3.2× skuteczniejszy niż ręczna analiza ekspertów.


Wyniki: Ranking 20+ Modeli

Metryki

CED CED Consistency Error Density — gęstość błędów spójności, czyli liczba błędów na 10 000 słów. Im niższe, tym lepiej. (Consistency Error Density):

$$\text{CED} = \frac{e_{m,i}}{w_{m,i} / 10000}$$

GRR GRR Group Relative Rank — ocena jakości z uwzględnieniem trudności promptu. Model jest rankingowany w grupie odpowiedzi na ten sam prompt, co daje sprawiedliwsze porównanie. (Group Relative Rank) — ranking z uwzględnieniem trudności promptu.

Top Modele

ModelCED (↓ lepiej)GRR (↓ lepiej)
GPT-5-Reasoning0.1133.05
Gemini-2.5-Pro0.3057.79
Claude-Sonnet-4.50.5204.90
GLM-4.60.528
Qwen3-32B0.537

GPT-5-Reasoning dominuje — niemal 3x mniej błędów niż Gemini i prawie 5x mniej niż Claude.

Najgorsze Scenariusze

Zadania generowania (od zera) konsekwentnie produkują najwięcej błędów — model nie ma żadnych “kotwic”, na których może oprzeć spójność.


Kiedy Modele Się Mylą?

Błędy Pojawiają się w Środku

Analiza pozycyjna ujawnia wyraźny wzorzec:

  • Fakty (ustalenia) koncentrują się w 15–30% tekstu
  • Sprzeczności kumulują się w 40–60% tekstu

Czyli: model ustala reguły na początku, a gubi je w połowie historii — dokładnie gdy okno kontekstowe okno kontekstowe Ilość tekstu, którą model ‘widzi’ jednocześnie. Nawet modele z długim kontekstem mogą tracić uwagę na wcześniejsze fragmenty w miarę generowania. jest już wypełnione, ale historia dopiero się rozwija.

Model Wie, Że Się Myli

Najbardziej fascynujące odkrycie: fragmenty tekstu zawierające błędy mają znacząco wyższą entropię entropię Miara niepewności modelu. Wysoka entropia = model jest niepewny co do następnego tokena. Niska = jest pewny swojego wyboru. :

  • Qwen3-30B: +12.03% wyższa entropia w błędnych fragmentach
  • Qwen3-4B: +19.24% wyższa entropia

“Model nie myli się nieświadomie; raczej podejmuje błędne decyzje, gdy staje przed większą niepewnością.”

Entropia może służyć jako wczesny sygnał ostrzegawczy — wyzwalacz do weryfikacji spójności w czasie generowania.

Błędy Chodzą Parami

Analiza współwystępowania pokazuje, że błędy faktów i detali to centralny węzeł — silnie korelują z błędami:

  • Charakteryzacji (r=0.304)
  • Świata (r=0.255)
  • Chronologii (r=0.176)

Gdy model myli kolor oczu, prawdopodobnie pomyli też inne detale. Błędy stylistyczne natomiast są niezależne (r≈0).


Dystans Między Faktem a Sprzecznością

Jak daleko w tekście dzieli fakt od jego zaprzeczenia?

Typ błęduŚredni dystans
Sprzeczności geograficzne31.0% długości tekstu
Sprzeczności czasowe29.7%
Zmiana perspektywy4.7%

Sprzeczności geograficzne i czasowe to “dalekie” błędy — model zapomina fakty ustalone wiele stron wcześniej. Błędy perspektywy to lokalne awarie na poziomie akapitów.


Podsumowanie

ConStory-Bench to pierwszy systematyczny benchmark spójności narracyjnej dla LLM. Kluczowe wnioski:

  1. Żaden model nie jest wolny od błędów — nawet GPT-5-Reasoning produkuje ~1 błąd na 10 000 słów
  2. Ludzcy eksperci są gorsi od automatów — ConStory-Checker wykrywa 3.2× więcej błędów
  3. Błędy kumulują się w środku tekstu, gdy model traci kontakt z początkowymi ustaleniami
  4. Entropia jest sygnałem — model “czuje” niepewność, zanim popełni błąd
  5. Błędy się łączą — pomylenie jednego detalu zwiększa ryzyko kolejnych

Praktyczne zastosowanie: pipeline ConStory-Checker może działać w czasie rzeczywistym jako warstwa weryfikacji w systemach generujących długie teksty — od powieści AI po dokumentację, raporty i scenariusze.


Linki