ICJ kereszthivatkozási hálózat
A Nemzetközi Bíróság 175 ítéletének és tanácsadó véleményének kereszthivatkozási hálózata — az adatkinyeréstől a hálózatelemzésen át a vizualizációig.
A Nemzetközi Bíróság 175 ítéletének és tanácsadó véleményének kereszthivatkozási hálózata — az adatkinyeréstől a hálózatelemzésen át a vizualizációig.
Az ICJ-ítéletek a szöveges érveléseik során rendszeresen hivatkoznak korábbi ítéletekre. Ezek a hivatkozások irányított hálózatot alkotnak: a csomópontok az egyes ügyek, az élek pedig a köztük lévő hivatkozások. A cél olyan strukturális mintázatok feltárása, amelyek a precedens-hivatkozás természetét, a doktrinális evolúciót és a tematikus klaszterek szerkezetét megvilágítják.
Konkrét kérdések, amelyekre a hálózati elemzés választ ad: melyek a vezető hivatkozási pontok? Vannak-e tematikus klaszterek? Hogyan változik a precedensekre építkezés intenzitása az idő során? Mely ítéletek bontó és melyek konszolidáló jellegűek?
A korpusz 175 ICJ-ítélet és tanácsadó vélemény PDF-formátumban, valamint egy Excel-tábla a hozzájuk tartozó metaadatokkal (fájlnév, ügy neve, évszám, az ICJ Reports-beli kezdő- és záró oldal).
Az ICJ-ítéletek nnn-éééé-tt-NN-NN-EN.pdf formátumú fájlnevekkel,
ahol az nnn az ICJ általános listából vett ügyszám, az
éééé az ítélet kihirdetésének dátuma, a tt pedig
a típus (JUD = ítélet, ADV = tanácsadó vélemény).
A 175 PDF teljes szövegét a pdfplumber Python-könyvtár nyerte
ki oldalanként. Az eredmény egy SQLite-adatbázisban tárolva,
három táblával:
CREATE TABLE cases (id, filename, case_name, year, start_page, end_page);
CREATE TABLE pages (id, case_id, page_num, text);
CREATE VIRTUAL TABLE pages_fts USING fts5(text, content=pages, content_rowid=id);
Az FTS5 (Full-Text Search) virtuális tábla lehetővé teszi gyors szöveges keresést bármely kulcsszóra a teljes korpuszon belül — pl. a „Corfu Channel" kifejezésre 32 ügyben összesen 106 oldali találat van.
Az ICJ-ítéletek kanonikus citációs formátuma:
I.C.J. Reports ÉV, p. OLDAL, esetenként kötetjelöléssel
((I), (II)), oldal-tartománnyal
(pp. 16-17) vagy bekezdés-utalással
(, para. 41).
A regex tervezésekor három fő szempontot vettünk figyelembe:
I.C.J. rövidítésnél
is lehet extra szóköz vagy hiányzó pont (I. C. J.,
ICJ, I.C.J). A „Reports" szón is
előfordul töréses írásmód (R eports).1947-1948), ezt is elfogadjuk és mindkét évre megpróbáljuk
a feloldást.; p. 54) ugyanarra
az évre, amit szintén detektálunk.A P.C.I.J. (1946 előtti Permanent Court) hivatkozásokat külön mintával gyűjtjük, és az unresolved listára tesszük — ezek nem részei a 175-elemű korpusznak.
A detektált hivatkozás csak egy (év, oldalszám) párt ad. A célügy azonosítása az xlsx-ben szereplő metaadat alapján történik, az alábbi elv mentén:
target_case = ahol year = (citáció éve)
AND start_page ≤ (citáció oldala) ≤ end_page
Ez a feloldás robusztus a szabálytalan ügynév-rövidítésekre (pl. a Bíróság gyakran a Nicaragua-ügyre csak „Military and Paramilitary Activities" néven hivatkozik). Az ügynév-egyezés helyett a strukturált metaadat alapján döntünk, ami nagyságrendekkel pontosabb.
A hiányzó end_page értékeket (újabb ügyeknél) az adott évben
következő ügy start_page-éből, vagy egy 250 oldalas
fallback-ből számítjuk ki.
A kinyerés minőségét egy 20-elemű véletlen mintán manuálisan ellenőriztük. Mindhárom kritérium 20/20 esetben teljesült:
A maradék 10% jellemzően korpuszon kívülre mutat: 295 P.C.I.J.-hivatkozás, 308 olyan oldal-szám, amely kívül esik a 175 ügy tartományán, és 25 olyan év, amelyhez nincs ICJ-ügy a korpuszban.
A gráfot a networkx könyvtár segítségével építettük és
elemeztük. A főbb mérőszámok:
A Louvain-algoritmus modularitás-maximalizálással csoportosítja a sűrűn kapcsolódó ügyeket. A 0,50-es modularitás-érték jelentős klaszter-struktúrát mutat. A talált 8 érdemi közösség tematikus értelmezést igényel (tengerjog, határvita, joghatóság, genocídium stb.).
A Funk és Owen-Smith (2017) által kidolgozott CD-index egy −1 és +1 közötti érték, amely megmutatja, hogy egy ítélet a korábbi joggyakorlattól való szakítást (pozitív CD), vagy annak megerősítését (negatív CD) képviseli-e. Tudomásunk szerint ez az első alkalom, hogy ICJ-jurisprudenciára alkalmazzák.
Négy fő vizualizáció készült, mindegyik interaktív HTML és statikus PNG formátumban. Az alábbiakban a HTML verziók iframe-mel ágyazva — minden diagram zoomolható, és a csomópontokra/cellákra mutatva részletes információ jelenik meg.
A teljes 175 csomópontos hálózat, a csomópontok színe Louvain közösség szerint, mérete súlyozott befok szerint.
Három panelben: évtizedes ügyszám és kimenő hivatkozás-szám, befok-eloszlás log-log skálán (heavy-tailed jelleg), valamint a top 10 leghivatkozottabb ügy.
Horizontális bar chart, befok szerint rendezve. A Nuclear Tests (1974) vezeti 35 egyedi hivatkozóval.
Cohort heatmap: melyik évtizedből származó ítéletek hány hivatkozást irányítanak melyik évtizedre. A háromszög-alakú minta a hivatkozási időtisztelet jelzi (az újabbak idézik a régebbieket).
A részletes elemzés a icj_jelentes.docx jelentésben olvasható.
Az alábbi kulcsmintázatok emelhetők ki:
A teljes pipeline öt Python-szkriptbe szervezett, és újra futtatható bármikor — pl. ha a korpusz új ügyekkel bővül. A futási sorrend:
A keletkező adat-artefaktok mind a munkamappában találhatók:
a graph/ mappában a Gephi-kompatibilis CSV-k és GEXF;
az icj_cases.db SQLite-fájl FTS5 indexszel; az
abrak/ mappában az 1–4. ábrák PNG és HTML formátumban; a
Word-dokumentumok a teljes jelentés és a 2-oldalas kivonat számára.
Mind a kódok, mind az adatok teljesen nyíltak az újrafelhasználás számára: a regex finomhangolható, az elemzések más mérőszámokra bővíthetők, és a Gephi-export bármikor megnyitható a gráf interaktív vizsgálatához.