Zgubieni w Opowieściach: Jak LLM-y Gubią Wątek w Długich Historiach

Poproś dowolny model językowy o napisanie opowiadania na 10 000 słów. Na pierwszej stronie bohater ma niebieskie oczy. Na piątej — brązowe. W rozdziale trzecim jest czwartek, w szóstym ten sam dzień to nagle sobota. Postać, która zginęła na stronie siedem, spokojnie rozmawia na stronie dziesięć.

Brzmi znajomo? Publikacja “Lost in Stories: Consistency Bugs in Long Story Generation by LLMs” po raz pierwszy systematycznie bada ten problem — i wyniki są otrzeźwiające. Nawet najlepsze modele produkują średnio jeden błąd spójności na każde 10 000 słów, a ludzie-eksperci wykrywają zaledwie 17% z nich.

Problem: Im Dłuższy Tekst, Tym Więcej Kłamstw

Modele językowe potrafią generować imponująco brzmiący tekst. Ale spójność narracyjna spójność narracyjna Utrzymywanie zgodności między faktami, postaciami, zasadami świata i chronologią w obrębie jednego tekstu. Gdy postać ma niebieskie oczy na s.1 i brązowe na s.5 — to brak spójności. w długich tekstach to zupełnie inne wyzwanie niż jakość pojedynczych zdań.

Dotychczasowe benchmarki benchmarki Standardowe zestawy testowe do porównywania modeli. Dla tekstu istnieją benchmarki gramatyki, logiki, wiedzy — ale spójność narracyjna była dotąd pomijana. oceniają modele pod kątem gramatyki, logiki, wiedzy ogólnej — ale żaden nie mierzył systematycznie, czy model potrafi utrzymać spójność w obrębie jednego, długiego tekstu.

ConStory-Bench wypełnia tę lukę.

Taksonomia Błędów: 5 Kategorii, 19 Podtypów

Autorzy zidentyfikowali pięć głównych kategorii błędów spójności:

1. Chronologia i Logika Fabuły

Sześć podtypów — najczęstsza kategoria:

Sprzeczności czasowe absolutne — “Była środa” → kilka akapitów dalej ten sam dzień to piątek
Sprzeczności czasowe — podróż trwa jednocześnie 2 godziny i 3 dni
Jednoczesność — postać jest w dwóch miejscach naraz
Skutki bez przyczyn — postać reaguje na coś, co jeszcze się nie wydarzyło
Złamanie logiki przyczynowej — zdarzenia wynikają z siebie w sprzeczny sposób
Porzucone wątki — zapowiedziany wątek nigdy nie zostaje rozwiązany

2. Charakteryzacja Postaci

Sprzeczności pamięci — postać zapomina, co sama powiedziała
Sprzeczności wiedzy — postać wie coś, czego nie powinna
Fluktuacje umiejętności — ekspert nagle nie radzi sobie z podstawami
Zapomniane zdolności — magiczne moce pojawiają się i znikają bez wyjaśnienia

3. Świat i Ustawienia

Złamanie reguł świata — magia działa inaczej niż ustalono
Sprzeczności geograficzne — miasta zmieniają położenie
Naruszenie norm społecznych — postacie zachowują się sprzecznie z ustalonymi zasadami

4. Fakty i Detale

Zmiana wyglądu — kolor oczu, włosów, wzrost
Pomylenie imion — postacie zamieniają się imionami
Sprzeczności liczbowe — “pięciu rycerzy” staje się “trzema”

5. Narracja i Styl

Zmiana perspektywy — nagłe przeskoki między 1. a 3. osobą
Niespójność tonu — thriller nagle staje się komedią
Przeskoki stylistyczne — formalna proza zamienia się w slang

ConStory-Bench: 2000 Promptów, 4 Scenariusze

Scenariusze Testowe

Scenariusz	Prompty	Opis
Generowanie	751 (37.5%)	Tworzenie narracji od zera z minimalnej fabuły
Kontynuacja	432 (21.6%)	Rozwinięcie istniejącego fragmentu
Rozszerzenie	422 (21.1%)	Budowanie historii z konspektu
Uzupełnienie	395 (19.8%)	Wypełnienie luki między początkiem a końcem

Docelowa długość: 8 000 – 10 000 słów. Prompty zebrane z siedmiu korpusów, deduplikowane algorytmem MinHash MinHash Algorytm szybkiego szacowania podobieństwa między zbiorami. Używany do wykrywania i usuwania duplikatów w dużych kolekcjach tekstów. .

ConStory-Checker: Automatyczny Detektyw

Ręczna analiza 10 000-słownych tekstów jest niepraktyczna — ludzcy eksperci wykrywają zaledwie 17.1% błędów (recall). Autorzy stworzyli czterostopniowy pipeline automatycznej detekcji:

Pipeline

Etap 1: Ekstrakcja — Wyciąganie fragmentów podatnych na sprzeczności, osobno dla każdej kategorii

Etap 2: Klasyfikacja parami — Porównywanie wyciągniętych fragmentów: “Spójne” czy “Sprzeczne”

Etap 3: Łańcuch dowodów — Budowanie uzasadnienia z dokładnymi cytatami i pozycjami znaków w tekście

Etap 4: Strukturalny output — JSON z cytatami, lokalizacjami, typami błędów i wyjaśnieniami

Model ewaluacyjny: o4-mini.

Skuteczność

Metryka	ConStory-Checker	Eksperci
Precyzja	88.4%	—
Recall	55.0%	17.1%
F1-score	0.678	0.229

ConStory-Checker jest 3.2× skuteczniejszy niż ręczna analiza ekspertów.

Wyniki: Ranking 20+ Modeli

Metryki

CED CED Consistency Error Density — gęstość błędów spójności, czyli liczba błędów na 10 000 słów. Im niższe, tym lepiej. (Consistency Error Density):

$$\text{CED} = \frac{e_{m,i}}{w_{m,i} / 10000}$$

GRR GRR Group Relative Rank — ocena jakości z uwzględnieniem trudności promptu. Model jest rankingowany w grupie odpowiedzi na ten sam prompt, co daje sprawiedliwsze porównanie. (Group Relative Rank) — ranking z uwzględnieniem trudności promptu.

Top Modele

Model	CED (↓ lepiej)	GRR (↓ lepiej)
GPT-5-Reasoning	0.113	3.05
Gemini-2.5-Pro	0.305	7.79
Claude-Sonnet-4.5	0.520	4.90
GLM-4.6	0.528	—
Qwen3-32B	0.537	—

GPT-5-Reasoning dominuje — niemal 3x mniej błędów niż Gemini i prawie 5x mniej niż Claude.

Najgorsze Scenariusze

Zadania generowania (od zera) konsekwentnie produkują najwięcej błędów — model nie ma żadnych “kotwic”, na których może oprzeć spójność.

Kiedy Modele Się Mylą?

Błędy Pojawiają się w Środku

Analiza pozycyjna ujawnia wyraźny wzorzec:

Fakty (ustalenia) koncentrują się w 15–30% tekstu
Sprzeczności kumulują się w 40–60% tekstu

Czyli: model ustala reguły na początku, a gubi je w połowie historii — dokładnie gdy okno kontekstowe okno kontekstowe Ilość tekstu, którą model ‘widzi’ jednocześnie. Nawet modele z długim kontekstem mogą tracić uwagę na wcześniejsze fragmenty w miarę generowania. jest już wypełnione, ale historia dopiero się rozwija.

Model Wie, Że Się Myli

Najbardziej fascynujące odkrycie: fragmenty tekstu zawierające błędy mają znacząco wyższą entropię entropię Miara niepewności modelu. Wysoka entropia = model jest niepewny co do następnego tokena. Niska = jest pewny swojego wyboru. :

Qwen3-30B: +12.03% wyższa entropia w błędnych fragmentach
Qwen3-4B: +19.24% wyższa entropia

“Model nie myli się nieświadomie; raczej podejmuje błędne decyzje, gdy staje przed większą niepewnością.”

Entropia może służyć jako wczesny sygnał ostrzegawczy — wyzwalacz do weryfikacji spójności w czasie generowania.

Błędy Chodzą Parami

Analiza współwystępowania pokazuje, że błędy faktów i detali to centralny węzeł — silnie korelują z błędami:

Charakteryzacji (r=0.304)
Świata (r=0.255)
Chronologii (r=0.176)

Gdy model myli kolor oczu, prawdopodobnie pomyli też inne detale. Błędy stylistyczne natomiast są niezależne (r≈0).

Dystans Między Faktem a Sprzecznością

Jak daleko w tekście dzieli fakt od jego zaprzeczenia?

Typ błędu	Średni dystans
Sprzeczności geograficzne	31.0% długości tekstu
Sprzeczności czasowe	29.7%
Zmiana perspektywy	4.7%

Sprzeczności geograficzne i czasowe to “dalekie” błędy — model zapomina fakty ustalone wiele stron wcześniej. Błędy perspektywy to lokalne awarie na poziomie akapitów.

Podsumowanie

ConStory-Bench to pierwszy systematyczny benchmark spójności narracyjnej dla LLM. Kluczowe wnioski:

Żaden model nie jest wolny od błędów — nawet GPT-5-Reasoning produkuje ~1 błąd na 10 000 słów
Ludzcy eksperci są gorsi od automatów — ConStory-Checker wykrywa 3.2× więcej błędów
Błędy kumulują się w środku tekstu, gdy model traci kontakt z początkowymi ustaleniami
Entropia jest sygnałem — model “czuje” niepewność, zanim popełni błąd
Błędy się łączą — pomylenie jednego detalu zwiększa ryzyko kolejnych

Praktyczne zastosowanie: pipeline ConStory-Checker może działać w czasie rzeczywistym jako warstwa weryfikacji w systemach generujących długie teksty — od powieści AI po dokumentację, raporty i scenariusze.

Linki

Na podstawie publikacji arXiv:2603.05890 PDF

Problem: Im Dłuższy Tekst, Tym Więcej Kłamstw#

Taksonomia Błędów: 5 Kategorii, 19 Podtypów#

1. Chronologia i Logika Fabuły#

2. Charakteryzacja Postaci#

3. Świat i Ustawienia#

4. Fakty i Detale#

5. Narracja i Styl#

ConStory-Bench: 2000 Promptów, 4 Scenariusze#

Scenariusze Testowe#

ConStory-Checker: Automatyczny Detektyw#

Pipeline#

Skuteczność#

Wyniki: Ranking 20+ Modeli#

Metryki#

Top Modele#

Najgorsze Scenariusze#

Kiedy Modele Się Mylą?#

Błędy Pojawiają się w Środku#

Model Wie, Że Się Myli#

Błędy Chodzą Parami#

Dystans Między Faktem a Sprzecznością#

Podsumowanie#

Linki#