Interdiszciplináris, multimédiás szoftver, Budapest 2002
A beszédtechnológia a beszédkutatás új irányzata, amely a 20. század utolsó harmadában indult komolyabb fejlődésnek. A beszédkutatás korábbi elméleti és kísérleti eredményeit felhasználva, a beszédtechnológia a mesterséges intelligencián belül a beszéd alapú (verbális) gyakorlati alkalmazások kifejlesztésével és létrehozásával foglalkozik.
Az elméleti és alkalmazott kutatási eredmények a beszéd különféle technológiai alkalmazásait teszik lehetővé. Ezek közül kiemelhetjük a beszéd számítógépes feldolgozásával előállított speciális beszédanyagok elkészítését oktatási, rehabilitációs, orvosi-diagnosztikai, illetve más információs célokra, például az automatikus szövegfelolvasás, a gépi beszéd-előállítás, beszédfelismerés, illetve beszédtisztítás, a beszélő személy felismerése, azonosítása, vagy a digitális beszédfeldolgozás.
A sikeres beszédtechnológiai fejlesztésekhez komplex, több tudományterületet – nyelvészet, fonetika, beszédakusztika, számítástechnika – érintő szaktudás szükséges.
A „Magyar nyelvi beszédtechnológiai alapismeretek” című, interdiszciplináris, multimédiás szakismereti gyűjtemény összekapcsolja a nyelvészeti-fonetikai és a beszédtechnológia fejlesztésével foglalkozó tudományokat. A könyv számítógépen „olvasható”. Megismerteti a mai kor emberét a beszédet létrehozó mechanizmusokkal, a beszédhangok akusztikai szerkezetével, a beszéd dallamformáival, továbbá a beszédtechnológiai rendszerek (beszédszintetizátorok, beszédfelismerők és egyéb alkalmazások) működési, tervezési, felhasználási, minősítési részleteivel. Az anyag 640 képernyőoldalt tartalmaz (mérete 680 Mb).
A program összesen kilenc fejezetből áll. Az egyes fejezetek témáinak ismertetése szövegekkel, álló- és mozgó képekkel, valamint élőbeszéddel történik. Ezek szorosan kapcsolódnak egymáshoz (egy adott képhez adott szöveg és hang tartozhat).
A Bevezetés c. fejezet a beszéd körfolyamatát ismerteti a gondolat létrejöttétől, az akusztikai megvalósuláson át egészen a beszéd dekódolásáig. Itt találjuk a világ nyelveinek hangtani ismertetését is, különös tekintettel a nyelvtől független és a nyelvfüggő tényezőkre. Az utóbbiak közül érdekesség a hangutánzó szavak eltérő megvalósulása a különböző nyelvekben (pl. a kutyaugatás lehet vau-vau, gáv-gáv vagy bu-bu). Ebben a fejezetben tanulmányozhatók a tudományterületre jellemző szakkifejezések is.
A Hangképzés, hallás c. fejezet részletesen foglalkozik a beszédképző és beszédfeldolgozó szervekkel és azok működésével (légzőrendszer, gége, artikuláció, fül, hallás, agy). Színes, mozgó ábrák segítségével szemlélteti például a néma légzés és a beszédlégzés közötti különbséget, a hangszalagok rezgését vagy a hallórendszer felépítését, továbbá lehetőséget nyújt a dichotikus hallásvizsgálat elvégzésére is.
Az Akusztikai alapfogalmak c. fejezet témája a hangrezgés jellemzőinek bemutatása (időtartam, frekvencia, intenzitás, spektrum). Az ismeretek átadása mindenki számára érthetően, sok ábrával és meghallgatható példák segítségével történik.
A Beszédakusztika c. fejezet mutatja be a beszéd általános akusztikai építőkockáit (frekvenciaszerkezet, intenzitásszerkezet), továbbá a gerjesztési hang három fajtájának – zöngés, zörejes és kevert – sajátosságait, és elemzi a hangok idő-, a frekvencia- és intenzitásszerkezetét is.
A Magyar beszéd c. fejezetben találjuk a magyarra vonatkozó nyelvspecifikus szegmentális és szupraszegmentális szerkezetek, vagyis a magánhangzók és mássalhangzók, a hangkapcsolatok, illetve a prozódia részletes ismertetését. A magyar nyelvre jellemző 14 magánhangzót típus szerint osztályozza, és részletesen vizsgálja a formánsszerkezetüket, az időtartamukat és a hangzóssági szintjüket. A mássalhangzóknál tárgyalja a különböző típusok (zárhangok, zár-rés hangok, réshangok, nazálisok, illetve az l és az r) akusztikai-fonetikai jellemzőit. A prozódia keretén belül részletesen foglalkozik a hanglejtéssel, a hangsúllyal, a tempóval és a beszéd ritmusával.
A 6. fejezetben a beszédadatbázisok iránt támasztott igényekről, illetve az adatbázisok megszerkesztésének és megtervezésének módjáról láthatunk, olvashatunk.
A Beszédszintézis c. fejezetben megismerkedhetünk a gépi beszédelőállítás régebbi és mai módozataival, többek között Kempelen Farkas beszélőgépének rekonstruált, működő változatával, amelynek a hangja is meghallgatható. Emellett még szó esik a szintetizált beszéd különböző felhasználási módjairól is, többek között a vakokat és gyengén látókat, illetve a beszédsérülteket segítő szövegfelolvasó-rendszerekről vagy a szintetizált beszéddel működő hallásvizsgáló készülékekről.
A 8. fejezet a beszédfelismerő rendszereket és azok felhasználási területeit ismerteti (pl. a beszédkorrektor-programot, amellyel beszédhibás gyermekek kiejtését lehet javítani), míg a 9. fejezet a digitális jelfeldolgozással foglalkozik.
Az ismeretek elsajátítását a Tudáspróba c. menüponttal ellenőrizhetjük, amelyben kiválaszthatjuk az adott témakörre vonatkozó kérdéseket, majd a válaszadást követően a program automatikusan megadja a helyes válaszok számát és százalékos arányát.
A „Magyar nyelvi beszédtechnológiai alapismeretek” című interaktív, multimédiás szoftver anyaga jól felhasználható a közép- és felsőfokú iskolai képzés számos tantárgyához kapcsoltan, elsősorban a fonetikában, a fonológiában, az alkalmazott nyelvészetben, a nyelvoktatásban, a pszicholingvisztikában és a gyógypedagógiában. Korszerű és az oktatáshoz, tanuláshoz a felhasználó egyéni tempójának és tanulási stratégiájának megfelelő ismereteket ad számos szakterület művelői számára.
A megvalósítást támogatta a
Miniszterelnöki Hivatal Informatikai Kormánybiztossága.
A szoftver
szabadon, térítésmentesen hozzáférhető!
A
program Windows/Linux/Mac OS X rendszereken, Web böngészőben fut:
- Microsoft Internet Explorer 5.5 vagy
újabb;
- Netscape Navigator 6 vagy újabb;
- Microsoft Internet Explorer 5.1 for
Mac vagy újabb.
A
böngészők korábbi verzióival a program egyes részei esetleg nem hívódnak be,
illetve hibásan működnek. A program futtatásához szükséges bővítmények a
CD-ről telepíthetők:
- Flash 5.0 plug-in
- Java 2 plug-in
- QuickTime 5.0 plug-in
Minimális
gépkonfiguráció: Pentium II., 300 MHz processzor ; 64-128 Mb memória;
hangkártya, hangszóró; legalább 800x600-as képernyő-megjelenítés; legalább
24x-es CD-ROM meghajtó.