BME VIK - Beszédfelismerési technológiák és alkalmazásaik

vissza a tantárgylistához nyomtatható verzió

Beszédfelismerési technológiák és alkalmazásaik

A tantárgy angol neve: Speech Recognition Technologies and their Applications

Adatlap utolsó módosítása: 2012. április 2.

Tantárgy lejárati dátuma: 2012. július 2.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Villamosmérnöki szak
Mérnök informatikus szak
Szabadon választható tantárgy

Tantárgykód	Szemeszter	Követelmények	Kredit	Tantárgyfélév
VITMAV05		3/0/10/v	4

3. A tantárgyfelelős személy és tanszék DR. Mihajlik Péter,

A tantárgy tanszéki weboldala http://alpha.tmit.bme.hu/~mihajlik/vitmav05/

4. A tantárgy előadója

Név:	Beosztás:	Tanszék, Int.:
Dr. Mihajlik Péter	egyetemi adjunktus	BME-TMIT
Tarján Balázs	PhD hallgató	BME-TMIT

5. A tantárgy az alábbi témakörök ismeretére épít Egyetemi matematikai alapképzés, programozási alapismeretek.

6. Előtanulmányi rend

Ajánlott:

Infokommunikáció, VITMA301 (villamosmérnöki szak) vagy Beszédinformációs rendszerek, VITMA400 (mérnök-informatikus szak)

Tematikaütközés miatt a tárgyat csak azok vehetik fel, akik korábban nem hallgatták a következő tárgyat: VITMAV11 - "Beszédbányászat".

7. A tantárgy célkitűzése A tárgy célja megismertetni a hallgatókkal a korszerű gépi beszédfelismerési technológiákat és alkalmazásokat. Cél, hogy a kurzust eredményesen elvégzők képesek legyenek beszédfelismerő motorok mérnöki alkalmazására, komplex rendszerekbe (pl. okostelefonok, elosztott és beágyazott rendszerek) integrálására és tesztelésére. További, önállóan végzett szakirodalom tanulmányozás révén pedig képesek legyenek az alapvető algoritmusok implementálására, a beszédfelismerési modellek testre szabására, új alkalmazások létrehozására.

8. A tantárgy részletes tematikája

Az előadások tematikája:

1. hét: Bevezetés, alapfogalmak. A beszédjel idő és frekvencia-tartománybeli leírása. A beszéd és a nyelv kapcsolata, egységei – a beszédhangok szerkezete, fonémák, koartikuláció, morfémák, szavak, mondatok. A beszédfelismerés feladata(i). Beszédfelismerés = lényegkiemelés + mintaillesztés. Házi feladat-lehetőségek kiosztása.

2. hét: Lényegkiemelés: akusztikai információ kinyerése a hangnyomás-időfüggvényből. Gördülőspektrum, ablakozás, „zero-padding”. A rövid idejű amplitúdóspektrum érzeti transzformációi (hangosság- és hangmagasság-érzet). Dekorreláció szerepe és eszközei. Házi feladatok rögzítése.

3. hét: A lényegkiemelés továbbfejlesztése. A beszéddinamika figyelembevétele. Beszélőnormalizációs technikák. A beszédátviteli csatorna lineáris torzításának kompenzálása. Zaj-robosztus technikák. Spektro-temporális lényegkiemelési technikák.

4. hét: Mintaillesztés dinamikus idővetemítéssel (DTW): nyelvfüggetlen, beszélőfüggő, élőszóval tanítható „izolált” szavas beszédfelismerés.

5. hét: Beszélőfüggetlen beszédfelismerés. Izolált szavas HMM (Hidden Markov-model) szemléletes származtatása. A GMM (Gaussian Mixture Model) és az MLP (Multi Layer Perceptron) szerepe a beszédfelismerésben. Kiejtési modellek.

6. hét: Mintaillesztés rejtett Markov-modellekkel. Definíció és szemléltetés. A rejtett Markov-modellek alkalmazása a beszédfelismerésben. Viterbi-approximáció.

7. hét: Folyamatos beszéd felismerése. Nyelvi modell és a beszédfelismerés MAP alapegyenlete. Az N-gram közelítés. Nyelvi modell-paraméterek becslése szövegadatbázis alapján. Nyelvi modell-simítási technikák. Nyelvi modellek kiértékelése. Szónál kisebb nyelvi egységek alkalmazása.

8. hét: A koartikuláció modellezésének szükségessége. Szóbelsőben és szóhatárokon átívelő koartikuláció-modellezés. ML-fonetikus döntési fa és alkalmazása és variánsai.

9. hét: A nagyszótáras folyamatos beszédfelismerés. A beszédmodellek áttekintése, nyelvi szinteknek megfeleltetés. Integrációs és optimalizációs kérdések. A WFST (Weighted Finite State Transducer) keretrendszer és gépi beszédfelismerési alkalmazása.

10. hét: Dekódolás: az optimális felismerési útvonal hatékony közelítő számítása. Dekódolási megközelítések. Optimalizációs stratégiák, implementálási kérdések.

11. hét: Akusztikus és nyelvi modell adaptáció. Jelentősége és eszközei. Beszélő- adaptációs módszerek. Felügyelt és felügyelet nélküli technikák.

12. hét: A beszédfelismerő rendszerek tesztelése, kiértékelése. Nyelvfüggő és nyelvfüggetlen modellezési és kiértékelés kérdések. Alapvető alkalmazási területek.

13. hét: Beszédfelismerési alkalmazások. On-line beszédfelismerés és a felismerés biztonsága (konfidenciája). A beszédfelismerési konfidenciaszámítás módszerei. Off-line alkalmazások, „Voice-search”, beszéd-adatbányászat, beszédinformáció-visszakeresés és tartalmi kivonatolás.

14. hét: Gyors alkalmazásfejlesztési technikák. Publikus és nyílt forráskódú fejlesztési eszközök. Az egyes platformok sajátosságai (pl. iPhone OS, Android, Windows, Linux). Kutatási és ipari (pl. Google, Nuance, Microsoft) trendek a gépi beszédfelismerésben.

A laborfoglalkozások tematikája:

2. hét: ismerkedés a beszédfelismerési fejlesztői-tesztelői környezettel. Cygwin vagy Linux és Perl. Fejlesztői eszközök áttekintése, installálása/beállítása.

4. hét: beszélőfüggő (DTW-alapú) beszédfelismerő tanítása, tesztelése, lényegkiemelési beállítások vizsgálata.

6. hét: a HTK (Cambridge Hidden Markov-Model Toolkit), és alkalmazása elemi akusztikus modellek tanítására.

8. hét: kiejtési modellek és lexikai egységek. A Morfessor eszköz alkalmazása szónál kisebb nyelvi egységek meghatározására.

10. hét: az SRILM (Stanford Research Institute Language Modeling Toolkit) és alkalmazása nyelvi modell építésre-tesztelésre.

12. hét: az AT&T FSM (Finite State Machine) Toolkit és alkalmazása folyamatos beszédfelismerésre, WFST hálózatok integrálására és optimalizálására.

14. hét: a további/alternatív beszédfelismerési szoftvereszközök áttekintése, különféle beszédfelismerési kísérletek végzése.

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Heti 2/4 óra előadás tanteremben. Az előadások mérnöki megközelítésre törekszenek, rendszeres élő demonstrációkkal. Minden második héten laborfoglalkozás.

10. Követelmények

a./ A szorgalmi időszakban:

- a tanórák legalább 70%-ának látogatása

- házi feladat: választható vagy szakirodalom-tanulmányozásból vagy önálló beszédfelismerési feladat megoldásából tanulmány saját kezű elkészítése. Terjedelem: 5-10 oldal legyen a tartalmi rész (Arial betűtípus, max 12-es fontméret, normál sortáv, hasznos saját ábra lehet benne, átvett ábra nem számít, saját kód kommenttel számít).

b./ A vizsgaidőszakban: szóbeli vagy írásbeli vizsga

c./ Elővizsga: van. (Feltétel: elfogadott házi feladat)

11. Pótlási lehetőségek A pótlási héten további lehetőség van a házi feladat leadására. Vizsgára csak annak elfogadása után (beadás után min. 1 nap) kerülhet sor.

12. Konzultációs lehetőségek Igény szerint, előzetes megbeszélés vagy e-mailen történő egyeztetés alapján.

13. Jegyzet, tankönyv, felhasználható irodalom

Rabiner, L., Juang, B-H., (1993) Fundamentals of Speech Recognition. Prentice Hall, New Jersey

Huang, X., Acero, A., Hon, H-W. (2001) Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Prentice Hall, Upper Saddle River

Duda, R. O., Hart, P. E., Stork, D. G.. (2001) Pattern Classification. John Wiley & Sons, New York

Németh G, Olaszy G. (szerk.) (2010) A magyar beszéd: Beszédkutatás, beszédtechnológia, beszédinformációs rendszerek.. Akadémiai Kiadó, Budapest

Gordos G., Takács Gy. (1983) Digitális beszédfeldolgozás. Műszaki Tankönyvkiadó, Budapest

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka

Kontakt óra	56
Félévközi készülés órákra	20
Felkészülés zárthelyire	-
Házi feladat elkészítése	20
Kijelölt írásos tananyag elsajátítása	-
Vizsgafelkészülés	24
Összesen	120

15. A tantárgy tematikáját kidolgozta Dr. Mihajlik Péter, egyetemi adjunktus, BME-TMIT

Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

Beszédfelismerési technológiák és alkalmazásaik