Nyelvtechnológiai kutatócsoport•Kutatási terület
A Nyelvtechnológiai kutatócsoport jogelődje a Korpusznyelvészeti Osztály 1997-ben alakult, az akkor már néhány éve zajló nyelvtechnológiai kutató-fejlesztő munka formális elismeréseként. A kutatócsoport azóta jelentős kutatási és fejlesztési tapasztalatot halmozott fel a nyelvtechnológia számos területén: kiemelkedő eredményeket ért el nyelvi erőforrások építésében, nyelvtechnológiai eszközök fejlesztésében és újabban nyelvmodellek tanításában is.
A 2010-es években bekövetkező tudományági paradigmaváltások komoly hatással voltak a kutatócsoportban folyó munkálatokra is. A meghatározó nemzetközi kutatásokat követve létrehoztuk az elsősorban angolra kifejlesztett neurális nyelvmodellek magyar változatait. Ez kezdetben statikus szóbeágyazásokat jelentett, ám mostanra már rendelkezünk számos transzformer-alapú, illetve generatív kontextuális nyelvmodellel is. Ilyen többek között például a HILBERT, amely egy BERT-Large nyelvmodell, valamint a PULI-GPT-3SX (6.7 milliárd paraméter), a GPT-3 magyar verziója. A kutatócsoport jelenlegi tevékenységének központi eleme az utasításkövető modellek fejlesztése: ennek keretében hoztuk létre a ParancsPULI illetve a PULI LlumiX 32K Instruct modelleket. A nyelvmodellekhez kapcsolódó egyéb specifikus alkalmazásaink kipróbálhatók ezen a demóoldalon.
Másik kiemelt törekvésünk, hogy olyan magyar nyelvű teszt-adatbázisokat, ún. benchmark-korpuszokat hozzunk létre, amelyek egy webszolgáltatásba ágyazva lehetővé teszik a neurális háló alapú technológiák egyszerű, ugyanakkor többszempontú kiértékelését valamint ezen eredmények összehasonlítását és közzétételét. Ebből a célből elkészült a Hungarian Language Understanding Evaluation Benchmark Kit (HuLU), az angol nyelvre kidolgozott GLUE és SuperGLUE teszt-adatbázis infrastruktúra mintájára. Emellett folyamatban van a generatív nyelvmodellek kiértékelésére szolgáló eljárások kidolgozása is.
Lassan már közhely számba megy, hogy nagy mennyiségű és kiegyensúlyozott nyelvi adat nélkül a nagy nyelvi modellek nem lennének képesek megragadni az egyes nyelvi szintek (pl. szintaxis, szemantika, pragmatika) azon kulcsfontosságú mintázatait, amelyek az emberi kommunikáció alapvető jellemzői. A kiegyensúlyozott korpusz azt jelenti, hogy a nyelvi jelenségek széles körét lefedik a benne található adatok. A kiegyensúlyozott korpusz nagy előnye, hogy segítségével a nyelvmodell képessé válik arra is, hogy különböző témájú és stílusú szövegeket is megértsen. Vagyis a rendelkezésre álló nyelvi adatok mennyisége és minősége közvetlen hatással van a nagy nyelvi modellek minőségére és sokoldalúságára.
A nyelvtechnológiai kutatócsoport csaknem 20 éves tapasztalattal rendelkezik a korpuszépítés terén: a 2005-ben elkészülő 187,6 millió szavas, reprezentatív, határon túli nyelvváltozatokat is tartalmazó Magyar Nemzeti Szövegtár volt az első nagyobb ilyen jellegű adatbázis a magyarra. A 2014-ben közre adott MNSZ2, az MNSZ továbbfejlesztett változata, nemcsak majdnem tízszer több szövegszót tartalmaz (1.5 Mrd), hanem új, fontos szövegtípusokat is lefed, mint például a közösségi média. Továbbá a nyelvi elemzés minősége is sokat javult elődjéhez képest.
A kutatócsoport munkatársai az évek során számos eszközt is kifejlesztettek. Ezek közül az egyik legjelentősebb a helyesírás.mta.hu – Helyesírási tanácsadó portál, amely azért jött létre, hogy a magyar helyesírás bizonyos területein automatikus eszközökkel segítse az írásukra igényes érdeklődőket. De meg kell említeni az e-magyar nyelvi elemzőláncot illetve ennek továbbfejlesztett, modularizált utódját, az emtsv-t is, amelyek természetes nyelvi szövegek széleskörű elemzését teszik lehetővé.
A WordNet lexikai adatbázis magyar változata a másik fontos erőforrás, amely a kutatócsoport közreműködésével jött létre. A HuWordNet három éves munka eredményeként készült el, és a magyar szóállományt térképezi fel jelentéstani szempontból: a szinonim szavakat és a köztük lévő relációkat egyaránt tartalmazza.
A nyelvi erőforrások, alkalmazások és korpuszok mellett a kutatócsoport a gépi fordítással is foglalkozott. A kutatás célja volt a saját angol-magyar nyelvpárra létrehozott transzformer-alapú gépifordító-rendszer továbbfejlesztése többnyelvű irányba, hogy az ne csak két nyelv közötti fordítás elvégzésére legyen alkalmas, hanem több bemeneti nyelvről fordítson egy vagy akár több nyelvre, továbbá a meglévő rendszerek magyar központú fordítási minőségének javítása.
Kutatócsoport-vezető: Héja Enikő, PhD E-mail: urwn.ravxb@alghq.uh Telefon: +36 (1) 3429372 / 6043 |
Futó hazai pályázatok | Kezdete – vége |
A magyar nyelv digitális fenntarthatóságának támogatása | 2020.12.01. – 2026.11.30. |
A magyar nyelv digitális támogatása a magyar tudományosság szolgálatában | 2020.12.01. – 2026.11.30. |
Fontosabb lezárult nemzetközi pályázatok | Kezdete – vége |
CURLICAT: Curated Multilingual Language Resources for CEF AT | 2020.06.01. – 2022.11.30. |
MARCELL: Multilingual Resources for CEF.AT in the Legal Domain | 2018.10.01. – 2021.03.31. |
Közösségimédia-tartalmak valós idejű, nagyléptékű trendfigyelése és összegzése (TrendMiner) | 2013 – 2014 |
Innovative Networking in Infrastructure for Endangered Languages (INNET) | 2011 – 2013 |
European Media Monitor – magyar modul | 2012 |
Central and South-East European Resources (CESAR) | 2011 – 2013 |
Internet Translators for all European Languages (iTranslate4) | 2010 – 2012 |
Fontosabb lezárult hazai pályázatok | Kezdete – vége |
e-magyar.hu: Nyílt, integrált magyar nyelvtechnológiai kutatási infrastruktúra építése. | 2015.01.01. – 2016.06.30. |
Magyar Generatív Történeti Szintaxis 2 | 2015 – 2019 |
helyesírás.mta.hu – Helyesírási tanácsadó portál | 2008 – 2013 |
A BUSZI-2 közzététele | 2008 – 2012 |
Magyar igei szerkezetek szótára | 2008 – 2010 |
Magyar Ontológia építése és alkalmazása információkinyerő rendszerekben (Magyar WordNet) | 2005 – 2007 |
*A befejezett pályázatok egy részletesebb listája itt található.
Nyelvtechnológiai kutatócsoport•Munkatársaink
Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet
Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet
Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet
Nyelvtechnológiai kutatócsoport•Kutatásaink
Adatinfrastruktúra építése gondozott szövegek OCR-hibáinak javításával
A nyelvmodellek előállításához sokmilliárd szavas tanítókorpusz szükséges, melynek legkézenfekvőbb forrása az internet. Az itt elérhető szövegek zöme azonban bizonytalan eredetű és minőségű sokszor kevés metaadattal. Az Arcanum Adatbázis Kiadóval folyó együttműködés keretében rendelkezésünkre áll egy kb. kilencmilliárd szavas gondozott szöveggyűjtemény, amely a kiadó több éves OCR-szkennelő (Optical Character Recognition) tevékenységének eredménye. A OCR-technológia azonban nem 100%-os pontosság ...
Benchmark-korpuszok építése és közzététele
Az élvonalbeli NLP követésének egyik előfeltétele a magyar nyelvű fejlesztési eredmények szabványos mérése. Ehhez a szigorú módszertan szerint készített teszt-adatbázisok, úgynevezett benchmark-korpuszok egész sora szükséges, amelyek referenciaként szolgálnak az új technológiák és eszközök fejlettségi szintjének megállapításához.A benchmark-adatbázisok azonban nemcsak azt a célt szolgálják, hogy a különböző nyelvmodellek teljesítményét összemérjék. Fontos új szerepük annak feltérképezése, hogy e ...
Nyelvközpontú mesterséges intelligencia (nyelvmodellek) fejlesztése
Az utóbbi évtizedben uralkodóvá vált neurális nyelvi modellek paradigmaváltást hoztak a nyelvtechnológia egészében. Ezen általános célú nyelvmodellek létrehozásához rendkívüli számítástechnikai kapacitás és óriási adatmennyiség szükséges. Egyik fő célkitűzésünk, hogy a világszínvonalat jelentő nyelvmodelleket rövid utánkövetéssel a magyar nyelvre is kidolgozzuk, és elérhetővé tegyük..A legújabb típusú, nagyméretű nyelvmodellek már egy jelentős lépést tettek meg a feladat-agnosztikus mesterséges ...
Nyelvtechnológiai kutatócsoport•Hírek
Bővült a PULI nyelvmodellcsalád
2024. Márc. 27.Beszélgetés Prószéky Gáborral A magyar nyelv hete alkalmából az M5 Librettó műsorában
2023. Nov. 15.A RE: FACT podcastja Prószéky Gáborral: Az AI, ami beszéli a nyelvünket: bemutatjuk a PULI-t
2023. Nov. 09.A Láncreakció podcastja Prószéky Gáborral: “A ChatGPT csak beszél, de akarni nem…”
2023. Nov. 09.Prószéky Gábor előadása a ChatGPT-ről és a PULI-ról az MTA-n a Magyar Nyelv Ünnepe alkalmából
2023. Nov. 08.Prószéky Gábor a mesterséges intelligenciáról a Tilos Rádió „3. utas” című műsorában
2023. Szept. 27.A Magyar Nemzet a NYTK nyelvmodelljének, a PULI-nak a fejlesztéséről
2023. Szept. 20.Prószéky Gábor főigazgatóval készített Index-interjú a mesterséges intelligenciáról, a ChatGPT veszélyeiről és a nagy nyelvi modell magyar testvéréről, a PULI-ról
2023. Aug. 27.A Napi.hu beszélgetése a mesterséges intelligenciáról Yang Zijian Győzővel, a NYTK tudományos munkatársával
2023. Aug. 24.Yang Zijian Győző, az NYTK tudományos munkatársa beszélt a saját fejlesztésű nyelvi modellről, a PULI-ról az MCC Feszten
2023. Aug. 03.Nyelvtechnológiai kutatócsoport•Események
XVIII. Alkalmazott Nyelvészeti Doktoranduszkonferencia
ParlaMint: parlamenti felszólalások korpuszai. Az európai projekt és a 30 millió szavas magyar alkorpusz bemutatása
Kutatók Éjszakája: PULI – a magyar mesterséges intelligencia. Most te parancsolsz!
Nyelvtechnológiai kutatócsoport•Kapcsolatok
Partnerintézmények
Váradi Tamás 2010 óta az EFNIL szervezet titkára, az intézet pedig 2010 óta látja el a titkársági feladatokat az EFNIL-ben.
Az European Language Resource Coordination (ELRC) workshop keretein belül a magyar nyelvtechnológia helyzetéről és kilátásairól folytatunk párbeszédet az ipari és az állami szereplőkkel. A nyelvtechnológia fejlesztői, mind felhasználói megosztják tapasztalataikat, igényeiket és ötleteiket azt illetően, miként lehet nyelvtechnológiai megoldásokkal segíteni a többnyelvű Európa digitális interakcióit. Megvitatjuk azt is, hogy a nyelvi adatok, azaz a szövegek és a hanganyagok miként segíthetik a
A HILANCO egy természetes nyelvi feldolgozó konzorcium (NLP) Magyarországon, a NYTK és a PTE között. A Konzorcium küldetése, hogy új NLP-technológiákat és erőforrásokat biztosítson az intelligens nyelvi alkalmazások AI célokra való kiépítéséhez. Élvonalbeli megoldásokat kínálunk az innováció teljes spektrumának kiszolgálására a kutatástól és fejlesztéstől a piacképes üzleti termékekig.