Adatbázisok

 

A projekt egyik célja egy annotált adatbázis létrehozása volt udmurt, tundrai nyenyec, szinjai és szurguti hanti nyelvű, írott és beszélt nyelvi szövegekből, amely lehetővé teszi az uráli–orosz kontaktushatás kutatását.

Annak érdekében, hogy nyomon követhessük a kisebbségi nyelvek orosz hatásra végbemenő szintaktikai változásait, különböző korokból gyűjtött szövegek feldolgozására törekedtünk. A projektünkben használt legrégebbi források a 20. század elejéről származnak. Emellett modern kori adatokat gyűjtöttünk nyomtatott és/vagy elektronikusan elérhető, 21. századi forrásokból. A célunk az volt, hogy a lehető legtöbb szerzőtől válasszunk szöveget, ezek öleljék fel a különböző társadalmi osztályokat, korokat, nemeket, dialektusokat és műfajokat. Továbbá terepmunkát is végeztünk, amelynek során kortárs beszélt nyelvi anyagot gyűjtöttünk, így az adatbázis a nyelvek írott és beszélt változatait is reprezentálja.

Az uráli nyelvek esetében alkalmazott transzkripciós rendszerek sajnos még egy nyelven belül sem sztenderdizáltak és/vagy egységesek. Emiatt fontos az, hogy a Nemzetközi Fonetikai Ábécé (IPA) használatával tegyük közzé a szövegeket, mivel így nem csak az uralisztika kutatói, hanem más nyelvészek is olvasni és használni tudják az anyagot. Az adatbázis tehát minden szöveges anyag IPA-átírását is tartalmazza. Ezen felül az adott nyelv esetében használt latinalapú transzkripciós rendszer(ek)re is átkonvertáltuk a szövegeket. Továbbá – mivel az érintett nyelvek írásrendszere a cirill ábécén alapszik – megőriztük az eredeti cirill írást, amennyiben volt ilyen. Az adatbázisunkban elérhetőek az eredeti szöveganyag mondat szinten párhuzamosított angol, magyar, német és orosz fordításai is.

A korpusz egy része morfológiai szintű annotációt is tartalmaz. Ezekben a szövegmintákban minden tokennél megadjuk a lemmát, a szófaji címkét és az angol vagy magyar glosszát. A lipcsei glosszázási szabályok (Leipzig Glossing Rules) konvencióit és rövidítéseit követjük, kisebb kiegészítésekkel. Az általunk használt morfológiai elemzőt és/vagy címkekészletet minden egyes forrás esetében külön jelöljük.

A morfológiailag elemzett szövegváltozat egy fix oszlopos tab-szeparált szövegfájl (tsv), amely minden tokenszintű információt tartalmaz. A kitöltetlen cellák kötőjellel vannak jelölve. Üres sorok jelölik a mondathatárokat. Az oszlopok sorrendje:

1. cirill token

2. Munkácsi token

3. Wichmann token

4. Steinitz token

5. SzOCh token

6. RME token

7. Hajdú token

8. Mus token

9. IPA token

10. szegmentált token

11. lemma

12. magyar glossza

13. angol glossza

14. szófaji címke

15. RUS/-

Ezen felül minden írott, illetve lejegyzett hangzó anyaghoz készítettünk egy .eaf fájlt, amely minden token- és mondatszintű információt tartalmaz, továbbá illesztve van a hangzó anyaghoz. A fájlok megnyithatók és kereshetők az ELAN programcsomaggal.

Az uráli szövegek helyes megjelenítéséhez szükséges a Charis SIL fontkészlet telepítése. Győződjön meg róla, hogy böngészőjében beállította az UTF-8 karakterkódolást: Nézet/Karakterkódolás/UTF-8 (az elnevezések böngészőnként eltérhetnek, a lényeg az UTF-8.)

Szinjai hanti

Szurguti hanti

Udmurt

Tundrai nyenyec