Mietta Lennes, CC BY 4.0

Learn the basics of using language corpora

This course is intended for students in languages or other fields who wish to learn the basics of corpus use.

NB: It is possible to take this course either in Finnish or in English! You will need to select your working language at the beginning of the course.

After passing this course, you will understand what a corpus is and how corpora can be used for solving small questions concerning language use. You will be familiar with the fundamental terminology in corpus linguistics as well as with some of the most important statistical concepts regarding corpus analysis. You will have at least initial skills in using some corpus tools. You will also know, at least in principle, how you could start collecting a corpus of your own for research purposes.

Registration:
- Students from the University of Helsinki must register normally via WebOodi by the registration dealine.
- Students from outside the University of Helsinki and from outside Finland are welcome to participate in this bilingual course. In case you are not a student at the University of Helsinki, you may register simply by joining the course area on Moodle. However, please note that the total number of accepted participants will be limited!

Joining the Moodle course area:
You will be able to join the course area on Moodle about one week before the course starts. Further details on how to join will be updated on this page.

Huom! Tämän kurssin voi suorittaa joko suomeksi tai englanniksi. Suorituskieli valitaan kurssin alussa.

Ilmoittautuminen kurssille:
- Jos olet Helsingin yliopiston opiskelija, sinun pitää ehdottomasti ilmoittautua kurssille takarajaan mennessä. Huomaa, että kurssin osallistujamäärä on rajoitettu.
- Jos olet jonkin muun suomalaisen tai ulkomaisen yliopiston opiskelija, voit ilmoittautua tälle kaksikieliselle kurssille pelkästään liittymällä Moodle-alueelle ennen kurssin alkamista. Huomaa kuitenkin, että Helsingin yliopiston ulkopuolisten opiskelijoiden osallistumista saatetaan joutua rajoittamaan, mikäli ilmoittautuneita on paljon.

Moodle-kurssialueelle liittyminen:
- Kurssialueelle pääsee liittymään vasta noin viikkoa ennen kurssin alkamista. Tarkemmat ohjeet päivitetään siihen mennessä tälle sivulle.

Ilmoittaudu
10.12.2019 klo 09:00 - 6.1.2020 klo 23:59

Video

Before the course starts, you might enjoy a brief introduction to the Korp service available in the Language Bank of Finland. Korp is one of the main tools that we will be using during the course.

Kuvaus

Valinnainen opintojakso kielten kandiohjelman opiskelijoille (kuuluu ohjelman yhteisiin opintoihin).

Opintojakso on tarjolla myös muiden koulutusohjelmien opiskelijoille.

Opintojakso ei edellytä aikaisempia opintoja, mutta kielitieteen peruskäsitteiden tuntemuksesta on hyötyä.

Kurssin jatkeeksi voi suositella yhtä tai useampaa seuraavista:

  • aineistojen kvantitatiivisesta analyysista kiinnostuneille jaksoa Tilastomenetelmiä lingvisteille tai muita tilastotieteen opintoja
  • puheen, puhutun kielen ja puhekorpusten tutkimisesta kiinnostuneille kurssia Puheen analyysin perusteet
  • kieliteknologian opintoja.

Opintojakson suoritettuasi

  • ymmärrät, mitä korpukset ovat ja kuinka niitä voidaan käyttää kielen käyttöön liittyvien kysymysten ratkaisemiseen esimerkiksi kieltenopetuksessa, -opiskelussa tai kääntämisessä,
  • ymmärrät, mitä tarkoittavat konkordanssi, kollokaatio, sananmuoto, sane, lemma ja annotaatio,
  • tiedät, kuinka annotaatiota voidaan periaatteessa tuottaa teksti- tai puheaineistoille ja miksi se on hyödyllistä,
  • tunnet tärkeimpiä tilastollisia käsitteitä, joita korpustutkimukseen liittyy, esimerkiksi perusjoukko, otos, havainto, frekvenssi, suhteellinen frekvenssi, ehdollinen todennäköisyys, jakauma ja tilastollinen testi,
  • osaat alustavasti tulkita joitakin korpustutkimuksessa käyttökelpoisia tilastollisia kaavioita,
  • osaat käyttää joitakin korpustyökaluja ja ratkaista niiden avulla esimerkiksi sanastoon tai kielen rakenteisiin liittyviä pieniä ongelmia,
  • ymmärrät alustavasti, kuinka korpuksia koostetaan ja miten voisit itse aloittaa oman korpuksen keräämisen.

Verkkokurssin myötä kehität myös itseopiskelu- ja ajanhallintataitojasi ja opit antamaan ja vastaanottamaan vertaispalautetta.

Opintojen ensimmäinen vuosi.

Lv. 2017-2018: 1. ja 3. periodilla.

Myöhemmin 3. periodi, tarvittaessa lisäksi 1. periodi.

Opintojakso jakautuu suunnilleen kerran viikossa vaihtuviin aihepiireihin, joiden aikana

  • tutustutaan korpuksiin ja korpuslingvistiikan historiaan
  • tutkitaan sanojen ja ilmausten konkordansseja ja pohditaan samalla kontekstin ja merkityksen välistä suhdetta
  • opitaan hyödyntämään korpuksiin liitettyä annotaatiota
  • huomataan sanoihin, ilmauksiin ja korpuksiin liittyviä tilastollisia piirteitä sekä
  • etsitään ja kokeillaan itse erilaisia korpuksia ja korpustyökaluja.

Ilmoitetaan kurssilla.

Verkkokurssin aineistojen säännöllinen opiskelu, aktiivinen tiedonhaku itsenäisesti ja yhteistyössä muiden opiskelijoiden kanssa, harjoitusten ja tehtävien tekeminen, osallistuminen verkkoalustalla käytäviin keskusteluihin sekä vertaistuki.

Arvosana 0-5 perustuu kokonaispistemäärään, joka muodostuu sekä automaattisesti arvioiduista, vertaisarvioiduista että opettajan arvioimista tehtävistä. Kurssin alussa ilmoitetaan yksittäisten tehtävien tai tehtäväkokonaisuuksien tarkemmat painotukset kokonaisarvioinnissa. Aktiivinen osallistuminen ja muiden opiskelijoiden auttaminen voivat vaikuttaa arviointiin korottavasti.

Opintojakso suoritetaan verkkokurssina. Kurssiin sisältyy itseopiskeltavaa materiaalia sekä tehtäviä, joista osan voi suorittaa myös yhteistyössä muiden opiskelijoiden kanssa. Mukana on yksi laajempi tehtävä, joka vertaisarvioidaan.

Uusia tehtäviä avautuu viikoittain ja ne on suoritettava annettuihin takarajoihin mennessä. Kunkin kurssiviikon aineistojen ja tehtävien suorittamiseen annetaan aikaa vähintään yksi viikko. Tehtäviä on siis varauduttava tekemään vähintään kerran viikossa. Niiden lisäksi kurssin keskustelualueita on hyvä seurata. Tarkemman opiskeluaikataulusi voit valita itse.