Nyelvtudományi Kutatóközpont · Nyelvtechnológiai kutatócsoport

Nyelvtechnológiai kutatócsoport
•
Kutatási terület

A Nyelvtechnológiai kutatócsoport jogelődje a Korpusznyelvészeti Osztály 1997-ben alakult, az akkor már néhány éve zajló nyelvtechnológiai kutató-fejlesztő munka formális elismeréseként. A kutatócsoport azóta jelentős kutatási és fejlesztési tapasztalatot halmozott fel a nyelvtechnológia számos területén: kiemelkedő eredményeket ért el nyelvi erőforrások építésében, nyelvtechnológiai eszközök fejlesztésében és újabban nyelvmodellek tanításában is.

A 2010-es években bekövetkező tudományági paradigmaváltások komoly hatással voltak a kutatócsoportban folyó munkálatokra is. A meghatározó nemzetközi kutatásokat követve létrehoztuk az elsősorban angolra kifejlesztett neurális nyelvmodellek magyar változatait. Ez kezdetben statikus szóbeágyazásokat jelentett, ám mostanra már rendelkezünk számos transzformer-alapú, illetve generatív kontextuális nyelvmodellel is. Ilyen többek között például a HILBERT, amely egy BERT-Large nyelvmodell, valamint a PULI-GPT-3SX (6.7 milliárd paraméter), a GPT-3 magyar verziója. A kutatócsoport jelenlegi tevékenységének központi eleme az utasításkövető modellek fejlesztése: ennek keretében hoztuk létre a ParancsPULI illetve a PULI LlumiX 32K Instruct modelleket. A nyelvmodellekhez kapcsolódó egyéb specifikus alkalmazásaink kipróbálhatók ezen a demóoldalon.

Másik kiemelt törekvésünk, hogy olyan magyar nyelvű teszt-adatbázisokat, ún. benchmark-korpuszokat hozzunk létre, amelyek egy webszolgáltatásba ágyazva lehetővé teszik a neurális háló alapú technológiák egyszerű, ugyanakkor többszempontú kiértékelését valamint ezen eredmények összehasonlítását és közzétételét. Ebből a célből elkészült a Hungarian Language Understanding Evaluation Benchmark Kit (HuLU), az angol nyelvre kidolgozott GLUE és SuperGLUE teszt-adatbázis infrastruktúra mintájára. Emellett folyamatban van a generatív nyelvmodellek kiértékelésére szolgáló eljárások kidolgozása is.

Lassan már közhely számba megy, hogy nagy mennyiségű és kiegyensúlyozott nyelvi adat nélkül a nagy nyelvi modellek nem lennének képesek megragadni az egyes nyelvi szintek (pl. szintaxis, szemantika, pragmatika) azon kulcsfontosságú mintázatait, amelyek az emberi kommunikáció alapvető jellemzői. A kiegyensúlyozott korpusz azt jelenti, hogy a nyelvi jelenségek széles körét lefedik a benne található adatok. A kiegyensúlyozott korpusz nagy előnye, hogy segítségével a nyelvmodell képessé válik arra is, hogy különböző témájú és stílusú szövegeket is megértsen. Vagyis a rendelkezésre álló nyelvi adatok mennyisége és minősége közvetlen hatással van a nagy nyelvi modellek minőségére és sokoldalúságára.

A nyelvtechnológiai kutatócsoport csaknem 20 éves tapasztalattal rendelkezik a korpuszépítés terén: a 2005-ben elkészülő 187,6 millió szavas, reprezentatív, határon túli nyelvváltozatokat is tartalmazó Magyar Nemzeti Szövegtár volt az első nagyobb ilyen jellegű adatbázis a magyarra. A 2014-ben közre adott MNSZ2, az MNSZ továbbfejlesztett változata, nemcsak majdnem tízszer több szövegszót tartalmaz (1.5 Mrd), hanem új, fontos szövegtípusokat is lefed, mint például a közösségi média. Továbbá a nyelvi elemzés minősége is sokat javult elődjéhez képest.

A kutatócsoport munkatársai az évek során számos eszközt is kifejlesztettek. Ezek közül az egyik legjelentősebb a helyesírás.mta.hu – Helyesírási tanácsadó portál, amely azért jött létre, hogy a magyar helyesírás bizonyos területein automatikus eszközökkel segítse az írásukra igényes érdeklődőket. De meg kell említeni az e-magyar nyelvi elemzőláncot illetve ennek továbbfejlesztett, modularizált utódját, az emtsv-t is, amelyek természetes nyelvi szövegek széleskörű elemzését teszik lehetővé.

A WordNet lexikai adatbázis magyar változata a másik fontos erőforrás, amely a kutatócsoport közreműködésével jött létre. A HuWordNet három éves munka eredményeként készült el, és a magyar szóállományt térképezi fel jelentéstani szempontból: a szinonim szavakat és a köztük lévő relációkat egyaránt tartalmazza.

A nyelvi erőforrások, alkalmazások és korpuszok mellett a kutatócsoport a gépi fordítással is foglalkozott. A kutatás célja volt a saját angol-magyar nyelvpárra létrehozott transzformer-alapú gépifordító-rendszer továbbfejlesztése többnyelvű irányba, hogy az ne csak két nyelv közötti fordítás elvégzésére legyen alkalmas, hanem több bemeneti nyelvről fordítson egy vagy akár több nyelvre, továbbá a meglévő rendszerek magyar központú fordítási minőségének javítása.

Kutatócsoport-vezető:

Héja Enikő, PhD
E-mail: urwn.ravxb@alghq.uh
Telefon: +36 (1) 3429372 / 6043

Futó hazai pályázatok	Kezdete – vége
A magyar nyelv digitális fenntarthatóságának támogatása	2020.12.01. – 2026.11.30.
A magyar nyelv digitális támogatása a magyar tudományosság szolgálatában	2020.12.01. – 2026.11.30.

Fontosabb lezárult nemzetközi pályázatok	Kezdete – vége
CURLICAT: Curated Multilingual Language Resources for CEF AT	2020.06.01. – 2022.11.30.
MARCELL: Multilingual Resources for CEF.AT in the Legal Domain	2018.10.01. – 2021.03.31.
Közösségimédia-tartalmak valós idejű, nagyléptékű trendfigyelése és összegzése (TrendMiner)	2013 – 2014
Innovative Networking in Infrastructure for Endangered Languages (INNET)	2011 – 2013
European Media Monitor – magyar modul	2012
Central and South-East European Resources (CESAR)	2011 – 2013
Internet Translators for all European Languages (iTranslate4)	2010 – 2012

Fontosabb lezárult hazai pályázatok	Kezdete – vége
e-magyar.hu: Nyílt, integrált magyar nyelvtechnológiai kutatási infrastruktúra építése.	2015.01.01. – 2016.06.30.
Magyar Generatív Történeti Szintaxis 2	2015 – 2019
helyesírás.mta.hu – Helyesírási tanácsadó portál	2008 – 2013
A BUSZI-2 közzététele	2008 – 2012
Magyar igei szerkezetek szótára	2008 – 2010
Magyar Ontológia építése és alkalmazása információkinyerő rendszerekben (Magyar WordNet)	2005 – 2007

*A befejezett pályázatok egy részletesebb listája itt található.