Poproś dowolny model językowy o napisanie opowiadania na 10 000 słów. Na pierwszej stronie bohater ma niebieskie oczy. Na piątej — brązowe. W rozdziale trzecim jest czwartek, w szóstym ten sam dzień to nagle sobota. Postać, która zginęła na stronie siedem, spokojnie rozmawia na stronie dziesięć.
Brzmi znajomo? Publikacja “Lost in Stories: Consistency Bugs in Long Story Generation by LLMs” po raz pierwszy systematycznie bada ten problem — i wyniki są otrzeźwiające. Nawet najlepsze modele produkują średnio jeden błąd spójności na każde 10 000 słów, a ludzie-eksperci wykrywają zaledwie 17% z nich.
Problem: Im Dłuższy Tekst, Tym Więcej Kłamstw
Modele językowe potrafią generować imponująco brzmiący tekst. Ale spójność narracyjna spójność narracyjna Utrzymywanie zgodności między faktami, postaciami, zasadami świata i chronologią w obrębie jednego tekstu. Gdy postać ma niebieskie oczy na s.1 i brązowe na s.5 — to brak spójności. w długich tekstach to zupełnie inne wyzwanie niż jakość pojedynczych zdań.
Dotychczasowe benchmarki benchmarki Standardowe zestawy testowe do porównywania modeli. Dla tekstu istnieją benchmarki gramatyki, logiki, wiedzy — ale spójność narracyjna była dotąd pomijana. oceniają modele pod kątem gramatyki, logiki, wiedzy ogólnej — ale żaden nie mierzył systematycznie, czy model potrafi utrzymać spójność w obrębie jednego, długiego tekstu.
ConStory-Bench wypełnia tę lukę.
Taksonomia Błędów: 5 Kategorii, 19 Podtypów
Autorzy zidentyfikowali pięć głównych kategorii błędów spójności:
1. Chronologia i Logika Fabuły
Sześć podtypów — najczęstsza kategoria:
- Sprzeczności czasowe absolutne — “Była środa” → kilka akapitów dalej ten sam dzień to piątek
- Sprzeczności czasowe — podróż trwa jednocześnie 2 godziny i 3 dni
- Jednoczesność — postać jest w dwóch miejscach naraz
- Skutki bez przyczyn — postać reaguje na coś, co jeszcze się nie wydarzyło
- Złamanie logiki przyczynowej — zdarzenia wynikają z siebie w sprzeczny sposób
- Porzucone wątki — zapowiedziany wątek nigdy nie zostaje rozwiązany
2. Charakteryzacja Postaci
- Sprzeczności pamięci — postać zapomina, co sama powiedziała
- Sprzeczności wiedzy — postać wie coś, czego nie powinna
- Fluktuacje umiejętności — ekspert nagle nie radzi sobie z podstawami
- Zapomniane zdolności — magiczne moce pojawiają się i znikają bez wyjaśnienia
3. Świat i Ustawienia
- Złamanie reguł świata — magia działa inaczej niż ustalono
- Sprzeczności geograficzne — miasta zmieniają położenie
- Naruszenie norm społecznych — postacie zachowują się sprzecznie z ustalonymi zasadami
4. Fakty i Detale
- Zmiana wyglądu — kolor oczu, włosów, wzrost
- Pomylenie imion — postacie zamieniają się imionami
- Sprzeczności liczbowe — “pięciu rycerzy” staje się “trzema”
5. Narracja i Styl
- Zmiana perspektywy — nagłe przeskoki między 1. a 3. osobą
- Niespójność tonu — thriller nagle staje się komedią
- Przeskoki stylistyczne — formalna proza zamienia się w slang
ConStory-Bench: 2000 Promptów, 4 Scenariusze
Scenariusze Testowe
| Scenariusz | Prompty | Opis |
|---|---|---|
| Generowanie | 751 (37.5%) | Tworzenie narracji od zera z minimalnej fabuły |
| Kontynuacja | 432 (21.6%) | Rozwinięcie istniejącego fragmentu |
| Rozszerzenie | 422 (21.1%) | Budowanie historii z konspektu |
| Uzupełnienie | 395 (19.8%) | Wypełnienie luki między początkiem a końcem |
Docelowa długość: 8 000 – 10 000 słów. Prompty zebrane z siedmiu korpusów, deduplikowane algorytmem MinHash MinHash Algorytm szybkiego szacowania podobieństwa między zbiorami. Używany do wykrywania i usuwania duplikatów w dużych kolekcjach tekstów. .
ConStory-Checker: Automatyczny Detektyw
Ręczna analiza 10 000-słownych tekstów jest niepraktyczna — ludzcy eksperci wykrywają zaledwie 17.1% błędów (recall). Autorzy stworzyli czterostopniowy pipeline automatycznej detekcji:
Pipeline
Etap 1: Ekstrakcja — Wyciąganie fragmentów podatnych na sprzeczności, osobno dla każdej kategorii
Etap 2: Klasyfikacja parami — Porównywanie wyciągniętych fragmentów: “Spójne” czy “Sprzeczne”
Etap 3: Łańcuch dowodów — Budowanie uzasadnienia z dokładnymi cytatami i pozycjami znaków w tekście
Etap 4: Strukturalny output — JSON z cytatami, lokalizacjami, typami błędów i wyjaśnieniami
Model ewaluacyjny: o4-mini.
Skuteczność
| Metryka | ConStory-Checker | Eksperci |
|---|---|---|
| Precyzja | 88.4% | — |
| Recall | 55.0% | 17.1% |
| F1-score | 0.678 | 0.229 |
ConStory-Checker jest 3.2× skuteczniejszy niż ręczna analiza ekspertów.
Wyniki: Ranking 20+ Modeli
Metryki
CED CED Consistency Error Density — gęstość błędów spójności, czyli liczba błędów na 10 000 słów. Im niższe, tym lepiej. (Consistency Error Density):
$$\text{CED} = \frac{e_{m,i}}{w_{m,i} / 10000}$$
GRR GRR Group Relative Rank — ocena jakości z uwzględnieniem trudności promptu. Model jest rankingowany w grupie odpowiedzi na ten sam prompt, co daje sprawiedliwsze porównanie. (Group Relative Rank) — ranking z uwzględnieniem trudności promptu.
Top Modele
| Model | CED (↓ lepiej) | GRR (↓ lepiej) |
|---|---|---|
| GPT-5-Reasoning | 0.113 | 3.05 |
| Gemini-2.5-Pro | 0.305 | 7.79 |
| Claude-Sonnet-4.5 | 0.520 | 4.90 |
| GLM-4.6 | 0.528 | — |
| Qwen3-32B | 0.537 | — |
GPT-5-Reasoning dominuje — niemal 3x mniej błędów niż Gemini i prawie 5x mniej niż Claude.
Najgorsze Scenariusze
Zadania generowania (od zera) konsekwentnie produkują najwięcej błędów — model nie ma żadnych “kotwic”, na których może oprzeć spójność.
Kiedy Modele Się Mylą?
Błędy Pojawiają się w Środku
Analiza pozycyjna ujawnia wyraźny wzorzec:
- Fakty (ustalenia) koncentrują się w 15–30% tekstu
- Sprzeczności kumulują się w 40–60% tekstu
Czyli: model ustala reguły na początku, a gubi je w połowie historii — dokładnie gdy okno kontekstowe okno kontekstowe Ilość tekstu, którą model ‘widzi’ jednocześnie. Nawet modele z długim kontekstem mogą tracić uwagę na wcześniejsze fragmenty w miarę generowania. jest już wypełnione, ale historia dopiero się rozwija.
Model Wie, Że Się Myli
Najbardziej fascynujące odkrycie: fragmenty tekstu zawierające błędy mają znacząco wyższą entropię entropię Miara niepewności modelu. Wysoka entropia = model jest niepewny co do następnego tokena. Niska = jest pewny swojego wyboru. :
- Qwen3-30B: +12.03% wyższa entropia w błędnych fragmentach
- Qwen3-4B: +19.24% wyższa entropia
“Model nie myli się nieświadomie; raczej podejmuje błędne decyzje, gdy staje przed większą niepewnością.”
Entropia może służyć jako wczesny sygnał ostrzegawczy — wyzwalacz do weryfikacji spójności w czasie generowania.
Błędy Chodzą Parami
Analiza współwystępowania pokazuje, że błędy faktów i detali to centralny węzeł — silnie korelują z błędami:
- Charakteryzacji (r=0.304)
- Świata (r=0.255)
- Chronologii (r=0.176)
Gdy model myli kolor oczu, prawdopodobnie pomyli też inne detale. Błędy stylistyczne natomiast są niezależne (r≈0).
Dystans Między Faktem a Sprzecznością
Jak daleko w tekście dzieli fakt od jego zaprzeczenia?
| Typ błędu | Średni dystans |
|---|---|
| Sprzeczności geograficzne | 31.0% długości tekstu |
| Sprzeczności czasowe | 29.7% |
| Zmiana perspektywy | 4.7% |
Sprzeczności geograficzne i czasowe to “dalekie” błędy — model zapomina fakty ustalone wiele stron wcześniej. Błędy perspektywy to lokalne awarie na poziomie akapitów.
Podsumowanie
ConStory-Bench to pierwszy systematyczny benchmark spójności narracyjnej dla LLM. Kluczowe wnioski:
- Żaden model nie jest wolny od błędów — nawet GPT-5-Reasoning produkuje ~1 błąd na 10 000 słów
- Ludzcy eksperci są gorsi od automatów — ConStory-Checker wykrywa 3.2× więcej błędów
- Błędy kumulują się w środku tekstu, gdy model traci kontakt z początkowymi ustaleniami
- Entropia jest sygnałem — model “czuje” niepewność, zanim popełni błąd
- Błędy się łączą — pomylenie jednego detalu zwiększa ryzyko kolejnych
Praktyczne zastosowanie: pipeline ConStory-Checker może działać w czasie rzeczywistym jako warstwa weryfikacji w systemach generujących długie teksty — od powieści AI po dokumentację, raporty i scenariusze.
Linki
- Na podstawie publikacji arXiv:2603.05890 PDF