Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Természetes nyelvi és szemantikus technológiák

    A tantárgy angol neve: Natural Language Processing and Semantic Technologies

    Adatlap utolsó módosítása: 2024. június 11.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar
    Alapképzés (BSc), mérnökinformatikus szak
    Szoftverfejlesztés specializáció
    Szoftverfejlesztés ágazat
    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VIMIAC22 5 2/2/0/v 5  
    3. A tantárgyfelelős személy és tanszék Mészáros Tamás Csaba,
    A tantárgy tanszéki weboldala http://www.mit.bme.hu/oktatas/targyak/VIMIAC22
    4. A tantárgy előadója Dr. Mészáros Tamás Csaba egyetemi docens, MIT
    Dr. Strausz György egyetemi docens, MIT
    5. A tantárgy az alábbi témakörök ismeretére épít Programozási alapismeretek, algoritmus- és gráfelmélet alapjai, valószínűségszámítási alapismeretek
    6. Előtanulmányi rend
    Kötelező:
    Szakirany("AMIN22-SZOFTFEJL/AUT", _) VAGY

    Szakirany("AMIN22-SZOFTFEJL/IIT", _) VAGY

    Szakirany("AMIN22-SZOFTFEJL/MIT", _) VAGY
    Szakirany("AMINrendsztervAUT", _) VAGY
    Szakirany("AMINrendsztervIIT", _) VAGY
    Szakirany("AMINrendsztervMIT", _) VAGY
    Szakirany("AMINszoftfejlAUT", _) VAGY
    Szakirany("AMINszoftfejlIIT", _) VAGY
    Szakirany("AMINszoftfejlMIT", _) VAGY
    Szakirany("VIABI-SOFTWE", _)

    A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

    A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.

    7. A tantárgy célkitűzése A tantárgy bevezetést nyújt a természetesnyelv-feldolgozás és a szemantikus technológiák területébe, a különböző megközelítéseket gazdagon illusztrálja gyakorlati ismeretekkel. Ismerteti az egyszerű statisztikai módszerektől a nagy nyelvi modellekig terjedő eszközök működését és alkalmazását az információkeresés, a szövegannotálás, a tudáskinyerés, a természetes nyelvű ember-gép interfészek és további területeken. Kitér különféle tudásreprezentációs technikák, szakértői és következtető rendszerek alkalmazására, valamint kiemelt hangsúlyt helyez modern gépi tanulási megoldások bemutatására. A tantárgyi gyakorlatokon lehetőséget biztosít széles körben alkalmazott eszközök gyakorlati kipróbálására, ipari projektekből származó tapasztalatok megismerésére is.
    8. A tantárgy részletes tematikája

    Előadás:

    Bevezetés. A természetesnyelv-feldolgozás (natural language processing, NLP) áttekintése, alapfogalmak, áttekintő irodalmak, célkitűzések, kihívások, alkalmazási területek, ajánlott szoftvereszközök áttekintése.

    Szövegreprezentációk és információkeresés.  Szövegindexelés és információ-visszakeresés, lekérdezési- és dokumentum-modellek, találati lista rangsorolás, hatékonyság mérése. Szövegkorpusz, konkordancia, vektor-tér modell, tévesztési mátrix, pontosság, felidézés, F1-score.

    Statisztikai nyelvi modellek és alkalmazásaik. Az NLP-feldolgozólánc elemei: adattisztítás, szegmentálás és tokenizálás, modellépítés. Szózsák, n-gram, TF-IDF és rejtett szemantikai modellek. Tipikus alkalmazások: szövegklaszterezés, szövegkivonatolás, hangulatelemzés, stilometria, spamszűrés és témamodellezés (topic modelling).

    Gépi tanuláson alapuló és nagy nyelvi modellek. Szövegek nyelvi és szemantikai tulajdonságainak tanulása korpuszból, mélytanulási módszerek (szóbeágyazások, RNN, LSTM, transzformer), generatív és nagy nyelvi nyelvi modellek (GPT, LLM) működése és alkalmazásaik (csetbotok, új generációs keresőgépek: retrieval-augmented generation).

    A nyelvtani elemzés és természetes nyelvű interfészek. Nyelvi szabályszerűségek leírása nyelvtanokkal, szintaktikai elemzés és jellemző algoritmusai, az elemző működése, kifejezésstruktúra, levezetési szabály, elemzési fa, nyelvtanok tanulása, kontrollált természetes nyelvek, csetbotkészítés (ANTLR, Amazon Alexa, ChatGPT).

    Szövegannotálás és információkinyerés. Szókincs és nyelvtan kiterjesztése szemantikai információkkal, szófaji címkézés, szemantikus annotálás, egyértelműsítés, kompozíciós szemantikai elemzés, generatív modellek alkalmazása.

    Tudásmenedzsment, tárgyterületek modellezése. Tudásmodellezés, explicit és implicit tudás, tudásreprezentációs megközelítések, szakértői rendszerek, következtetés, magyarázatgenerálás.

    Szemantikus technológiák. Szemantikus web koncepció, szemantikus web technológiák, egységes erőforrás azonosító (URI), erőforrás leíró keretrendszer (RDF), nyílt világ feltételezés alapú információleírás.

    Linked Data információelérés. Linked Data koncepció, nyílt adatforrások a világban, nyílt szótárak, szemantikus hálózatok.

    Ontológiák, logikai reprezentációk. Szótárak, tezauruszok, ontológiák építése és alkalmazása, pszicholingvisztikai modellek.

    Logikai következtetés. Ontológiák reprezentálása leíró logikákban, leíró logikai következtetés, Tableau algoritmus, szabály alapú reprezentáció, előre és hátrafelé láncoló következtetés.

    Párbeszédkezelés, érvelés. Párbeszédek leírása, modellezése szabály alapú megközelítéssel, érvelési rendszerek, magasabb rendű logikai modellek, modális logikák alkalmazása érvelések leírására

    Esettanulmányok. Tudástárak építése és alkalmazása, szemantikus annotálás információkinyerési céllal, természetes nyelvű robotinterfészek megvalósítása, böngésző alkalmazásokba beépülő nyelvi technológiák.

     

    Gyakorlatok:

    Korpuszkezelés, indexépítés, szövegkeresés, pontosság és felidézés számítása, Apache Solr.

    Elemi nyelvfeldolgozás (szegmentálás, tokenizálás, szófaji címkézés) NLTK és Spacy segítségével.

    Szózsák és n-gram modellek építése és alkalmazásuk.

    Nagy nyelvi modellek használata (OpenAI és offline), prompttervezés, csetbotkészítés.

    Nyelvtani elemző készítése ANTLR segítségével, gyakorlati alkalmazásuk.

    Szövegannotálás és információkinyerés Spacy-vel és nagy nyelvi modellekkel.

    Szakértői rendszerek demó, egyszerű szabályalapú környezet vizsgálata (Drools).

    RDF adatmodellek vizsgálata (RDF4J adatbázis, múzeumi adatok elemzése)

    RDF - Linked data adatmodellek vizsgálata, múzeumi adatok integrálása DBPedia adatokkal.

    Ontológiák vizsgálata (Protege ontológiaszerkesztő eszköz), következtetés a múzeumi adatmodellen

    Ontológiák építése, egyszerűbb modellek létrehozása Protege környezetben.

    Érvelés szakértői rendszermodellben.

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Előadás és gyakorlat.
    10. Követelmények Szorgalmi időszakban: két házi feladat elégséges szintű megoldása.
    Vizsgaidőszakban: írásbeli vizsga teljesítése.
    11. Pótlási lehetőségek Az első házi feladat a második feladat beadási határidejéig, míg a második feladat a pótlási időszak utolsó előtti napjáig pótolható.
    12. Konzultációs lehetőségek Igény szerint, az előadókkal előzetesen egyeztetve.
    13. Jegyzet, tankönyv, felhasználható irodalom
    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra56
    Félévközi készülés órákra28
    Felkészülés zárthelyire0
    Házi feladat elkészítése40
    Kijelölt írásos tananyag elsajátítása0
    Vizsgafelkészülés26
    Összesen150
    15. A tantárgy tematikáját kidolgozta Dr. Mészáros Tamás Csaba egyetemi docens, MIT
    Dr. Strausz György egyetemi docens, MIT
    IMSc tematika és módszer Az IMSc program hallgatói számára emelt szintű házi feladatok megoldását kínáljuk.
    IMSc pontozás

    Házi feladatok emelt szintű megoldásáért összesen maximum 25 IMSc pont szerezhető.

    Az IMSc pontok megszerzése az IMSc programban nem résztvevő hallgatók számára is biztosított.

    Egyéb megjegyzések A tantárgy angol neve: Natural Language Processing and Semantic Technologies.