Kais Allkivi-Metsoja

ORCID: 0000-0003-3975-5104
Publications
Citations
Views
---
Saved
---
About
Contact & Profiles
Research Areas
  • Natural Language Processing Techniques
  • Second Language Acquisition and Learning
  • EFL/ESL Teaching and Learning
  • AI in Service Interactions
  • Topic Modeling
  • Lexicography and Language Studies
  • Speech and dialogue systems
  • Linguistics and Cultural Studies
  • Second Language Learning and Teaching
  • Linguistic Education and Pedagogy
  • Text Readability and Simplification

Tallinn University
2014-2025

Abstract This paper introduces MultiGEC, a dataset for multilingual Grammatical Error Correction (GEC) in twelve European languages: Czech, English, Estonian, German, Greek, Icelandic, Italian, Latvian, Russian, Slovene, Swedish and Ukrainian. MultiGEC distinguishes itself from previous GEC datasets that it covers several underrepresented languages, which we argue should be included resources used to train models Natural Language Processing tasks which, as itself, have implications Learner...

10.1075/ijlcr.24033.mas article EN International Journal of Learner Corpus Research 2025-04-01

New language technologies are coming, thanks to the huge and competing private investment fuelling rapid progress; we can either understand foresee their effects, or be taken by surprise spend our time trying catch up. This report scketches out some transformative new that likely fundamentally change use of language. Some these may feel unrealistically futuristic far-fetched, but a central purpose this - wider LITHME network is illustrate mostly just logical development maturation currently...

10.17011/jyx/reports/20210518/1 preprint EN cc-by 2021-05-18

Artiklis kirjeldatakse 20. sajandi teise poole eesti ilukirjanduskeele kasutusmustreid, mis näitavad, kuidas emakeelekõneleja eelistab oma mõtteid kirjalikult väljendada. Uurimisaines on saadud Tartu Ülikooli pindsüntaktiliselt märgendatud ja ühtlustatud ilukirjanduskorpusest. Rakendatud klasteranalüüsi, toob tekstivalimis sageduse alusel esile ühesuguseid morfo- süntaksimärgendite lineaarseid järgnevusi. Valitud trigrammid, esinesid korpuses kaks enam korda. Keelekasutuse üldised mustrid...

10.5128/erya10.18 article ET cc-by-nc Eesti Rakenduslingvistika Ühingu aastaraamat Estonian Papers in Applied Linguistics 2014-04-01

The project was funded in 2021-2023 by the National Programme of Estonian Language Technology. Its main aim to develop spelling and grammar correction tools for language. challenge very small amount available error data needed such development. To mitigate this, (1) we annotated more model training testing, (2) tested transfer-learning, i.e. retraining machine learning models created other tasks, so as not depend solely on data, (3) compared developed method with alternatives, including...

10.48550/arxiv.2402.11671 preprint EN arXiv (Cornell University) 2024-02-18

Written language use of C1 learners Estonian and native speakers in comparison: Analysis verb-initial fourgrams This paper comparatively describes morphosyntactic patterns the written level Estonian, i.e. proficient L2 users, educated speakers. For this purpose, were inves- tigated. A further aim study is to help provide research-based linguistic content define acquisition levels.

10.5128/lv26.02 article EN cc-by-nc Lähivõrdlusi Lähivertailuja 2016-10-31

Suurte korpuste automaatsel töötlemisel kasutatakse erinevat keeletarkvara ja statistilist analüüsi, mille valik ning kombineerimisvõimalused sõltuvad keelest, uurimisobjektist eesmärkidest. Artiklis tutvustame teksti keelekasutusmustrite otsimiseks mõeldud integreeritud tarkvararakendust Klastrileidja selle toimesüsteemi, anname ülevaate lingvistilise klasteranalüüsi abil saadud uurimistulemustest. Eesmärk on seletada, mida meetodi rakendamine loomuliku keele töötluse käigus võimaldab...

10.5128/lv28.01 article ET cc-by-nc Lähivõrdlusi Lähivertailuja 2018-10-30

Keeleoskustaseme automaatseks hindamiseks on tarvis kindlaks teha mõõdetavad tunnused, mis võimaldavad eri tasemete keelekasutust usaldusväärselt määrata. Siinses artiklis tähelepanu keskmes eesti keele A2–C1-taseme eksamitekstide käändsõnatunnused. Analüüsitakse käändsõnavormide sagedust ja varieerumist nii summaarselt kui ka käändsõnaliikide võrdluses. Tuuakse välja need korrelatsioonis keeleoskustasemega muutuvad kasvavas või kahanevas suunas, piiritledes järjestikuseid tasemeid....

10.5128/erya18.03 article EN cc-by-nc Eesti Rakenduslingvistika Ühingu aastaraamat Estonian Papers in Applied Linguistics 2022-06-15

Tänaseni puudub ülevaade eesti keele kui sihtkeele õppijate tekstiloomest eri keeleoskustasemetel, mis põhineks tekstide automaatanalüüsi andmete statistilisel töötlusel. Eesmärk on kindlaks teha, millised arvuliselt mõõdetavad tunnused iseloomustavad A2–C1-taseme eksamite loovkirjutiste leksikaalset keerukust ning sõnaliikide ja -vormide kasutust, olles seejuures keeleoskustasemete piiritlemisel nii statistiliselt ka sisuliselt olulised. Esile tulevad järjestikuseid tasemeid (A2–B1, B1–B2,...

10.5128/lv31.01 article ET cc-by-nc Lähivõrdlusi Lähivertailuja 2021-10-31
Coming Soon ...