Belépés címtáras azonosítással
magyar nyelvű adatlap
Beszédfelismerési technológiák és alkalmazásaik
A tantárgy angol neve: Speech Recognition Technologies and their Applications
Adatlap utolsó módosítása: 2012. április 2.
Tantárgy lejárati dátuma: 2012. július 2.
Villamosmérnöki szakMérnök informatikus szakSzabadon választható tantárgy
Infokommunikáció, VITMA301 (villamosmérnöki szak) vagy Beszédinformációs rendszerek, VITMA400 (mérnök-informatikus szak)
Tematikaütközés miatt a tárgyat csak azok vehetik fel, akik korábban nem hallgatták a következő tárgyat: VITMAV11 - "Beszédbányászat".
Az előadások tematikája:
1. hét: Bevezetés, alapfogalmak. A beszédjel idő és frekvencia-tartománybeli leírása. A beszéd és a nyelv kapcsolata, egységei – a beszédhangok szerkezete, fonémák, koartikuláció, morfémák, szavak, mondatok. A beszédfelismerés feladata(i). Beszédfelismerés = lényegkiemelés + mintaillesztés. Házi feladat-lehetőségek kiosztása.
2. hét: Lényegkiemelés: akusztikai információ kinyerése a hangnyomás-időfüggvényből. Gördülőspektrum, ablakozás, „zero-padding”. A rövid idejű amplitúdóspektrum érzeti transzformációi (hangosság- és hangmagasság-érzet). Dekorreláció szerepe és eszközei. Házi feladatok rögzítése.
3. hét: A lényegkiemelés továbbfejlesztése. A beszéddinamika figyelembevétele. Beszélőnormalizációs technikák. A beszédátviteli csatorna lineáris torzításának kompenzálása. Zaj-robosztus technikák. Spektro-temporális lényegkiemelési technikák.
4. hét: Mintaillesztés dinamikus idővetemítéssel (DTW): nyelvfüggetlen, beszélőfüggő, élőszóval tanítható „izolált” szavas beszédfelismerés.
5. hét: Beszélőfüggetlen beszédfelismerés. Izolált szavas HMM (Hidden Markov-model) szemléletes származtatása. A GMM (Gaussian Mixture Model) és az MLP (Multi Layer Perceptron) szerepe a beszédfelismerésben. Kiejtési modellek.
6. hét: Mintaillesztés rejtett Markov-modellekkel. Definíció és szemléltetés. A rejtett Markov-modellek alkalmazása a beszédfelismerésben. Viterbi-approximáció.
7. hét: Folyamatos beszéd felismerése. Nyelvi modell és a beszédfelismerés MAP alapegyenlete. Az N-gram közelítés. Nyelvi modell-paraméterek becslése szövegadatbázis alapján. Nyelvi modell-simítási technikák. Nyelvi modellek kiértékelése. Szónál kisebb nyelvi egységek alkalmazása.
8. hét: A koartikuláció modellezésének szükségessége. Szóbelsőben és szóhatárokon átívelő koartikuláció-modellezés. ML-fonetikus döntési fa és alkalmazása és variánsai.
9. hét: A nagyszótáras folyamatos beszédfelismerés. A beszédmodellek áttekintése, nyelvi szinteknek megfeleltetés. Integrációs és optimalizációs kérdések. A WFST (Weighted Finite State Transducer) keretrendszer és gépi beszédfelismerési alkalmazása.
10. hét: Dekódolás: az optimális felismerési útvonal hatékony közelítő számítása. Dekódolási megközelítések. Optimalizációs stratégiák, implementálási kérdések.
11. hét: Akusztikus és nyelvi modell adaptáció. Jelentősége és eszközei. Beszélő- adaptációs módszerek. Felügyelt és felügyelet nélküli technikák.
12. hét: A beszédfelismerő rendszerek tesztelése, kiértékelése. Nyelvfüggő és nyelvfüggetlen modellezési és kiértékelés kérdések. Alapvető alkalmazási területek.
13. hét: Beszédfelismerési alkalmazások. On-line beszédfelismerés és a felismerés biztonsága (konfidenciája). A beszédfelismerési konfidenciaszámítás módszerei. Off-line alkalmazások, „Voice-search”, beszéd-adatbányászat, beszédinformáció-visszakeresés és tartalmi kivonatolás.
14. hét: Gyors alkalmazásfejlesztési technikák. Publikus és nyílt forráskódú fejlesztési eszközök. Az egyes platformok sajátosságai (pl. iPhone OS, Android, Windows, Linux). Kutatási és ipari (pl. Google, Nuance, Microsoft) trendek a gépi beszédfelismerésben.
A laborfoglalkozások tematikája:
2. hét: ismerkedés a beszédfelismerési fejlesztői-tesztelői környezettel. Cygwin vagy Linux és Perl. Fejlesztői eszközök áttekintése, installálása/beállítása.
4. hét: beszélőfüggő (DTW-alapú) beszédfelismerő tanítása, tesztelése, lényegkiemelési beállítások vizsgálata.
6. hét: a HTK (Cambridge Hidden Markov-Model Toolkit), és alkalmazása elemi akusztikus modellek tanítására.
8. hét: kiejtési modellek és lexikai egységek. A Morfessor eszköz alkalmazása szónál kisebb nyelvi egységek meghatározására.
10. hét: az SRILM (Stanford Research Institute Language Modeling Toolkit) és alkalmazása nyelvi modell építésre-tesztelésre.
12. hét: az AT&T FSM (Finite State Machine) Toolkit és alkalmazása folyamatos beszédfelismerésre, WFST hálózatok integrálására és optimalizálására.
14. hét: a további/alternatív beszédfelismerési szoftvereszközök áttekintése, különféle beszédfelismerési kísérletek végzése.
a./ A szorgalmi időszakban:
- a tanórák legalább 70%-ának látogatása
- házi feladat: választható vagy szakirodalom-tanulmányozásból vagy önálló beszédfelismerési feladat megoldásából tanulmány saját kezű elkészítése. Terjedelem: 5-10 oldal legyen a tartalmi rész (Arial betűtípus, max 12-es fontméret, normál sortáv, hasznos saját ábra lehet benne, átvett ábra nem számít, saját kód kommenttel számít).
b./ A vizsgaidőszakban: szóbeli vagy írásbeli vizsga
c./ Elővizsga: van. (Feltétel: elfogadott házi feladat)
Rabiner, L., Juang, B-H., (1993) Fundamentals of Speech Recognition. Prentice Hall, New Jersey
Huang, X., Acero, A., Hon, H-W. (2001) Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Prentice Hall, Upper Saddle River
Duda, R. O., Hart, P. E., Stork, D. G.. (2001) Pattern Classification. John Wiley & Sons, New York
Németh G, Olaszy G. (szerk.) (2010) A magyar beszéd: Beszédkutatás, beszédtechnológia, beszédinformációs rendszerek.. Akadémiai Kiadó, Budapest
Gordos G., Takács Gy. (1983) Digitális beszédfeldolgozás. Műszaki Tankönyvkiadó, Budapest