Wagner-Nagy Beáta (Hamburgi Egyetem) Szeverényi Sándor (SZTE)

NGAN-CORP: A  Nganaszan  NYELV  beszélt  nyelvi  annotált korpusza  

 

Az előadás a nganaszan nyelv annotált korpuszára irányuló munkálatokat mutatja be. Ennek célja egy olyan beszélt nyelvi korpusz létrehozása, amely lehetőleg tartalmazza az összes eddig gyűjtött nganaszan anyagot (jelenleg mintegy 300 szöveg, kb. 80 óra hanganyag).  

A szövegek FLEX-ben kerülnek elemzésre, majd a további annotálás az ExMARaLDa programcsomaggal történik. Az ExMARaLDában lehetőség van mind a szövegek/hanganyag, mind a beszélők metaadatainak rögzítésére, és e paraméterek szerint is lehet keresni a korpuszban, így lényegében "alkorpuszokat" (pl. műfajok szerint, beszélő lakhelye vagy iskolázottsága szerint stb.) is létre lehet hozni.  

A korpusz hat szintű annotációt tartalmaz: szófaji megjelölés, morfológiai felépítés, szintaktikai funkció, szemantikai szerep, információs státusz, kódváltás, valamint a mondatok angol és orosz nyelvű fordítása. Az annotálás egy része más programban is történhet (Flex, Toolbox).  

A korpusz bemutatása után konkrét példákkal illusztráljuk, hogy mit "nyerhetünk" egy ilyen korpusszal, amely esetében anyanyelvi kompetencia nem áll rendelkezésre, azonban nagy mennyiségű anyaggal tudunk dolgozni.