Learn the basics of using language corpora

This course is intended for students in languages or other fields who wish to learn the basics of corpus use.

Huom! Tämän kurssin voi suorittaa joko suomeksi tai englanniksi. Suorituskieli valitaan kurssin alussa.
Kurssialue on nyt avoinna Moodlessa ja sinne voi rekisteröityä.
- Jos olet Helsingin yliopiston opiskelija, käytä kurssiavainta: korpling-hy
- Jos olet jonkin muun suomalaisen yliopiston opiskelija, käytä kurssiavainta: korpling-muu
- Jos olet Suomen ulkopuolella sijaitsevan yliopiston opiskelija, käytä kurssiavainta: korpling-abroad

NB: It is possible to take this course either in Finnish or in English! You will need to select your working language at the beginning of the course.

After passing this course, you will understand what a corpus is and how corpora can be used for solving small questions concerning language use. You will be familiar with the fundamental terminology in corpus linguistics as well as with some of the most important statistical concepts regarding corpus analysis. You will have at least initial skills in using some corpus tools. You will also know, at least in principle, how you could start collecting a corpus of your own for research purposes.

Students from outside the University of Helsinki and from outside Finland are welcome to participate. In case you are not a student at the University of Helsinki, you may register simply by joining the course area on Moodle. However, please note that the total number of accepted participants will be limited.

NB: The course area on Moodle is now open! You can join the course via this link:
https://moodle.helsinki.fi/course/view.php?id=30120
You will be asked for a key:
- In case you are a student at the University of Helsinki, please provide the course key: korpling-hy
- In case you are a student at some other university in Finland, please provide the course key: korpling-muu
- In case you are a student in a university outside Finland, please provide the course key: korpling-abroad

All registered students will get an email message with further information when the course starts. Until then, please follow this page for details.

Enrol
11.12.2018 at 09:00 - 21.1.2019 at 23:59
Moodle
Log in to view the registration key for Moodle.

Video

Before the course starts, you might enjoy a brief introduction to the Korp service available in the Language Bank of Finland. Korp is one of the main tools that we will be using during the course.

Description

Valinnainen opintojakso kielten kandiohjelman opiskelijoille (kuuluu ohjelman yhteisiin opintoihin).

Opintojakso on tarjolla myös muiden koulutusohjelmien opiskelijoille.

Opintojakso ei edellytä aikaisempia opintoja, mutta kielitieteen peruskäsitteiden tuntemuksesta on hyötyä.

Kurssin jatkeeksi voi suositella yhtä tai useampaa seuraavista:

 • aineistojen kvantitatiivisesta analyysista kiinnostuneille jaksoa Tilastomenetelmiä lingvisteille tai muita tilastotieteen opintoja
 • puheen, puhutun kielen ja puhekorpusten tutkimisesta kiinnostuneille kurssia Puheen analyysin perusteet
 • kieliteknologian opintoja.

Opintojakson suoritettuasi

 • ymmärrät, mitä korpukset ovat ja kuinka niitä voidaan käyttää kielen käyttöön liittyvien kysymysten ratkaisemiseen esimerkiksi kieltenopetuksessa, -opiskelussa tai kääntämisessä,
 • ymmärrät, mitä tarkoittavat konkordanssi, kollokaatio, sananmuoto, sane, lemma ja annotaatio,
 • tiedät, kuinka annotaatiota voidaan periaatteessa tuottaa teksti- tai puheaineistoille ja miksi se on hyödyllistä,
 • tunnet tärkeimpiä tilastollisia käsitteitä, joita korpustutkimukseen liittyy, esimerkiksi perusjoukko, otos, havainto, frekvenssi, suhteellinen frekvenssi, ehdollinen todennäköisyys, jakauma ja tilastollinen testi,
 • osaat alustavasti tulkita joitakin korpustutkimuksessa käyttökelpoisia tilastollisia kaavioita,
 • osaat käyttää joitakin korpustyökaluja ja ratkaista niiden avulla esimerkiksi sanastoon tai kielen rakenteisiin liittyviä pieniä ongelmia,
 • ymmärrät alustavasti, kuinka korpuksia koostetaan ja miten voisit itse aloittaa oman korpuksen keräämisen.

Verkkokurssin myötä kehität myös itseopiskelu- ja ajanhallintataitojasi ja opit antamaan ja vastaanottamaan vertaispalautetta.

Opintojen ensimmäinen vuosi.

Lv. 2017-2018: 1. ja 3. periodilla.

Myöhemmin 3. periodi, tarvittaessa lisäksi 1. periodi.

Opintojakso jakautuu suunnilleen kerran viikossa vaihtuviin aihepiireihin, joiden aikana

 • tutustutaan korpuksiin ja korpuslingvistiikan historiaan
 • tutkitaan sanojen ja ilmausten konkordansseja ja pohditaan samalla kontekstin ja merkityksen välistä suhdetta
 • opitaan hyödyntämään korpuksiin liitettyä annotaatiota
 • huomataan sanoihin, ilmauksiin ja korpuksiin liittyviä tilastollisia piirteitä sekä
 • etsitään ja kokeillaan itse erilaisia korpuksia ja korpustyökaluja.

Ilmoitetaan kurssilla.

Verkkokurssin aineistojen säännöllinen opiskelu, aktiivinen tiedonhaku itsenäisesti ja yhteistyössä muiden opiskelijoiden kanssa, harjoitusten ja tehtävien tekeminen, osallistuminen verkkoalustalla käytäviin keskusteluihin sekä vertaistuki.

Arvosana 0-5 perustuu kokonaispistemäärään, joka muodostuu sekä automaattisesti arvioiduista, vertaisarvioiduista että opettajan arvioimista tehtävistä. Kurssin alussa ilmoitetaan yksittäisten tehtävien tai tehtäväkokonaisuuksien tarkemmat painotukset kokonaisarvioinnissa. Aktiivinen osallistuminen ja muiden opiskelijoiden auttaminen voivat vaikuttaa arviointiin korottavasti.

Number of participants can be restricted if need be.

Opintojakso suoritetaan verkkokurssina. Kurssiin sisältyy itseopiskeltavaa materiaalia sekä tehtäviä, joista osan voi suorittaa myös yhteistyössä muiden opiskelijoiden kanssa. Mukana on yksi laajempi tehtävä, joka vertaisarvioidaan.

Uusia tehtäviä avautuu viikoittain ja ne on suoritettava annettuihin takarajoihin mennessä. Kunkin kurssiviikon aineistojen ja tehtävien suorittamiseen annetaan aikaa vähintään yksi viikko. Tehtäviä on siis varauduttava tekemään vähintään kerran viikossa. Niiden lisäksi kurssin keskustelualueita on hyvä seurata. Tarkemman opiskeluaikataulusi voit valita itse.