V prvi uri nočnega programa smo spoznavali pojem »jezikovna forenzika«. Doc. dr. Ana Zwitter Vitez je razložila, kako strokovnjaki odkrivajo avtorstvo anonimnih pisem in katere so značilnosti pisanja, ki jih avtor sploh ne more zavestno nadzorovati. To metodo uporabljajo tudi velike koorporacije, ko želijo preučiti lastnosti kandidatov, ki se prijavijo na razpisano delovno mesto, včasih je jezikovna forenzika uporabna tudi za policijo.

V prvi uri nočnega programa smo spoznavali pojem »jezikovna forenzika«. Doc. dr. Ana Zwitter Vitez je razložila, kako strokovnjaki odkrivajo avtorstvo anonimnih pisem in katere so značilnosti pisanja, ki jih avtor zavestno ne more nadzorovati. To metodo uporabljajo tudi velike koorporacije, ko želijo preučiti lastnosti kandidatov, ki se prijavijo na razpisano delovno mesto, včasih je jezikovna forenzika uporabna tudi za policijo.

Shakespearjeva dela so bila osnova za prvo analizo

Prva jezikovnoforenzična študija je zelo zanimiva, saj je nemški fizik Thomas Corwina Mendenhall med seboj primerjal tri avtorje.

»Williama Shakespeara, Christopherja Marlowa in Francisa Bacona. In to na precej dolgotrajen način, s štetjem besed v njihovih delih. Na koncu je prišel do zanimivega odkritja, da sta histograma s krivuljo, ki prikazuje dolžine besed, pri Shakespearu in Marlowu praktično identična.«

Jezikovna forenzika se ukvarja s preučevanjem jezika v nekem forenizičnem kontekstu. Poznamo več področji.

»Včasih gre bolj za raumevanje besedila, npr. kako sploh razumeti oporoko, poslovilno pismo, ali je naslovnik pravilno razumel odločbo, neka druga veja pa se ukvarja z avtorstvom besedil, npr. anonimna pisma in plagiati.«

Samo delo in analiza po navadi potekata z velikimi bazami besedil, kjer raziskovalci že poznajo avtorje in potem z metodami strojnega učenje pridejo do modela.

»Te situacije so precej idealne in so precej drugačne kot tiste, s katerimi se analitik sooči v realnem življenju.«

Avtorji anonimk poskušajo prikriti svojo pravo identiteto

»Naš cilj je priti do tistih struktur, ki jih avtor sam ne more nadzovorovati. Te se pokažejo šele na statistično relevantni ravni, npr. uporaba za 30% več podredij … nekaj kar se mu sploh ne zdi, da je njegova karatkeristika.«

Razkrili, kdo je Tomaž Majer

Želeli so preizkusiti metodologijo, ki so jo razvili, tudi v praksi na nekem konkretnem primeru, ki se je ravno takrat odvijal.

»Zajeli smo besedila, ki so bila na spletni strani parlamentarne stranke objavljeni tri mesece prej in tri mesece potem. To je bil naš učni korpus, naša baza besedil. Ugotovili smo, da je metoda učinkovita.«

Ana Skrt