Módszertani áttekintés

ICJ kereszthivatkozási hálózat

A Nemzetközi Bíróság 175 ítéletének és tanácsadó véleményének kereszthivatkozási hálózata — az adatkinyeréstől a hálózatelemzésen át a vizualizációig.

2026. május · OTKA-projekt módszertani dokumentáció

01A kutatás célja

Az ICJ-ítéletek a szöveges érveléseik során rendszeresen hivatkoznak korábbi ítéletekre. Ezek a hivatkozások irányított hálózatot alkotnak: a csomópontok az egyes ügyek, az élek pedig a köztük lévő hivatkozások. A cél olyan strukturális mintázatok feltárása, amelyek a precedens-hivatkozás természetét, a doktrinális evolúciót és a tematikus klaszterek szerkezetét megvilágítják.

Konkrét kérdések, amelyekre a hálózati elemzés választ ad: melyek a vezető hivatkozási pontok? Vannak-e tematikus klaszterek? Hogyan változik a precedensekre építkezés intenzitása az idő során? Mely ítéletek bontó és melyek konszolidáló jellegűek?

02A bemeneti adatok

A korpusz 175 ICJ-ítélet és tanácsadó vélemény PDF-formátumban, valamint egy Excel-tábla a hozzájuk tartozó metaadatokkal (fájlnév, ügy neve, évszám, az ICJ Reports-beli kezdő- és záró oldal).

175
PDF-ítélet és tanácsadó vélemény
8 858
összes oldal
8 736
oldal kinyerhető szöveggel
1948–2025
vizsgált időszak

Az ICJ-ítéletek nnn-éééé-tt-NN-NN-EN.pdf formátumú fájlnevekkel, ahol az nnn az ICJ általános listából vett ügyszám, az éééé az ítélet kihirdetésének dátuma, a tt pedig a típus (JUD = ítélet, ADV = tanácsadó vélemény).

03Adatkinyerés és tárolás

A 175 PDF teljes szövegét a pdfplumber Python-könyvtár nyerte ki oldalanként. Az eredmény egy SQLite-adatbázisban tárolva, három táblával:

CREATE TABLE cases (id, filename, case_name, year, start_page, end_page);
CREATE TABLE pages (id, case_id, page_num, text);
CREATE VIRTUAL TABLE pages_fts USING fts5(text, content=pages, content_rowid=id);

Az FTS5 (Full-Text Search) virtuális tábla lehetővé teszi gyors szöveges keresést bármely kulcsszóra a teljes korpuszon belül — pl. a „Corfu Channel" kifejezésre 32 ügyben összesen 106 oldali találat van.

Optikai karakterfelismerés (OCR): A PDF-ek többsége digitális szöveget tartalmaz, de a régebbi szkennelt ítéleteknél OCR-hibák jelennek meg (törött szavak, extra szóközök, hibás karakterek). Ezt a regex-detektálás során explicit kezeltük.

04Hivatkozás-detektálás reguláris kifejezéssel

Az ICJ-ítéletek kanonikus citációs formátuma: I.C.J. Reports ÉV, p. OLDAL, esetenként kötetjelöléssel ((I), (II)), oldal-tartománnyal (pp. 16-17) vagy bekezdés-utalással (, para. 41).

A regex tervezésekor három fő szempontot vettünk figyelembe:

A P.C.I.J. (1946 előtti Permanent Court) hivatkozásokat külön mintával gyűjtjük, és az unresolved listára tesszük — ezek nem részei a 175-elemű korpusznak.

05Feloldás célügyre — (év, oldal) lookup

A detektált hivatkozás csak egy (év, oldalszám) párt ad. A célügy azonosítása az xlsx-ben szereplő metaadat alapján történik, az alábbi elv mentén:

target_case = ahol  year = (citáció éve)
                    AND start_page ≤ (citáció oldala) ≤ end_page

Ez a feloldás robusztus a szabálytalan ügynév-rövidítésekre (pl. a Bíróság gyakran a Nicaragua-ügyre csak „Military and Paramilitary Activities" néven hivatkozik). Az ügynév-egyezés helyett a strukturált metaadat alapján döntünk, ami nagyságrendekkel pontosabb.

A hiányzó end_page értékeket (újabb ügyeknél) az adott évben következő ügy start_page-éből, vagy egy 250 oldalas fallback-ből számítjuk ki.

06Validáció

A kinyerés minőségét egy 20-elemű véletlen mintán manuálisan ellenőriztük. Mindhárom kritérium 20/20 esetben teljesült:

20 / 20
a hivatkozás szövege ténylegesen szerepel a forrás-oldalon
20 / 20
a cited év megfelel a célügy évének
20 / 20
a cited oldal a célügy tartományán belül van
90%
teljes feloldási arány a 3 012 találatra

A maradék 10% jellemzően korpuszon kívülre mutat: 295 P.C.I.J.-hivatkozás, 308 olyan oldal-szám, amely kívül esik a 175 ügy tartományán, és 25 olyan év, amelyhez nincs ICJ-ügy a korpuszban.

07Hálózatelemzési módszerek

A gráfot a networkx könyvtár segítségével építettük és elemeztük. A főbb mérőszámok:

Centralitás

Közösségdetektálás

A Louvain-algoritmus modularitás-maximalizálással csoportosítja a sűrűn kapcsolódó ügyeket. A 0,50-es modularitás-érték jelentős klaszter-struktúrát mutat. A talált 8 érdemi közösség tematikus értelmezést igényel (tengerjog, határvita, joghatóság, genocídium stb.).

Másodlagos hálózatok

CD-index (Disruption / Consolidation)

A Funk és Owen-Smith (2017) által kidolgozott CD-index egy −1 és +1 közötti érték, amely megmutatja, hogy egy ítélet a korábbi joggyakorlattól való szakítást (pozitív CD), vagy annak megerősítését (negatív CD) képviseli-e. Tudomásunk szerint ez az első alkalom, hogy ICJ-jurisprudenciára alkalmazzák.

08Vizualizáció

Négy fő vizualizáció készült, mindegyik interaktív HTML és statikus PNG formátumban. Az alábbiakban a HTML verziók iframe-mel ágyazva — minden diagram zoomolható, és a csomópontokra/cellákra mutatva részletes információ jelenik meg.

Hálózati gráf (force-directed)

A teljes 175 csomópontos hálózat, a csomópontok színe Louvain közösség szerint, mérete súlyozott befok szerint.

1. ábra · Force-directed hálózati gráf

Időbeli növekedés és fokszám-eloszlás

Három panelben: évtizedes ügyszám és kimenő hivatkozás-szám, befok-eloszlás log-log skálán (heavy-tailed jelleg), valamint a top 10 leghivatkozottabb ügy.

2. ábra · Időbeli növekedés és fokszám-eloszlás

Top 15 leghivatkozottabb ügy

Horizontális bar chart, befok szerint rendezve. A Nuclear Tests (1974) vezeti 35 egyedi hivatkozóval.

3. ábra · Top 15 leghivatkozottabb ügy

Évtized × évtized hivatkozási mátrix

Cohort heatmap: melyik évtizedből származó ítéletek hány hivatkozást irányítanak melyik évtizedre. A háromszög-alakú minta a hivatkozási időtisztelet jelzi (az újabbak idézik a régebbieket).

4. ábra · Évtizedek közötti hivatkozási mátrix

09Az eredmények dióhéjban

A részletes elemzés a icj_jelentes.docx jelentésben olvasható. Az alábbi kulcsmintázatok emelhetők ki:

10Reprodukálhatóság

A teljes pipeline öt Python-szkriptbe szervezett, és újra futtatható bármikor — pl. ha a korpusz új ügyekkel bővül. A futási sorrend:

1build_db.py PDF → SQLite + FTS5 index
2patch_db.py Ügynév-pótlás + Title Case normalizálás
3build_graph.py Hivatkozás-detektálás + gráf-CSV-k
4run_analyses.py Centralitás, Louvain, CD-index, stb.
5build_report.py Word jelentés és kivonat

A keletkező adat-artefaktok mind a munkamappában találhatók: a graph/ mappában a Gephi-kompatibilis CSV-k és GEXF; az icj_cases.db SQLite-fájl FTS5 indexszel; az abrak/ mappában az 1–4. ábrák PNG és HTML formátumban; a Word-dokumentumok a teljes jelentés és a 2-oldalas kivonat számára.

Mind a kódok, mind az adatok teljesen nyíltak az újrafelhasználás számára: a regex finomhangolható, az elemzések más mérőszámokra bővíthetők, és a Gephi-export bármikor megnyitható a gráf interaktív vizsgálatához.