Tidsschema
Beskrivning
Opintojakso on pakollinen pää- ja sivuaineopiskelijoille.
CLT237 (Ohjelmointi ja luonnollisen kielen käsittely 1) ja CLT238 (Ohjelmointi ja luonnollisen kielen käsittely 2) tai vastaavat tiedot
Osallistujat oppivat soveltamaan tilastollisia menetelmiä erilaisiin luonnollisen kielen käsittely osatehtäviin sekä saavat alustavan käsityksen näiden menetelmien perustana olevasta todennäköisyyslaskennasta, tilastotieteestä ja koneoppimisesta.
Kurssin kohteina ovat esim. saneistus (tokenization), virkkeiksi jakaminen, dokumenttien luokittelu, oikeinkirjoituksen korjaaminen, tiedon eristäminen, jäsentäminen ja automaattinen kysymyksiin vastaaminen sekä kielimallien ja perustavanlaatuisten algoritmien kuten n-grammeihin perustuvat kielimallit, naiivit Bayesin ja entropiaan perustuvat luokittimet, Markovin piilomallit sekä probabilistinen dependenssijäsentäminen ja lausekerakennekielioppien mukainen jäsentäminen.
harjoituksia ja harjoitustyö
Verkkomateriaalia ja osia teoksista: Stephen Bird, Ewan Klein and Edward Loper, Natural Language Processing with Python (vapaasti verkossa luettavissa), Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing (MIT Press, 1999).
Yleinen arviointiasteikko.
Yliopistonlehtori