NFDI4DS | UHH-SEMS - Publication Details

Kais Allkivi-Metsoja

ORCID: 0000-0003-3975-5104

Publications

Citations

Views

---

Saved

---

About

Contact & Profiles

A5075104136

Research Areas

Natural Language Processing Techniques
Second Language Acquisition and Learning
EFL/ESL Teaching and Learning
AI in Service Interactions
Topic Modeling
Lexicography and Language Studies
Speech and dialogue systems
Linguistics and Cultural Studies
Second Language Learning and Teaching
Linguistic Education and Pedagogy
Text Readability and Simplification

Tallinn University
2014-2025

Towards better language representation in Natural Language Processing

OPENALEX - Publications

Arianna Masciolini Andrew Caines Orphée De Clercq Joni Kruijsbergen Murathan Kurfalı and 25 more

Abstract This paper introduces MultiGEC, a dataset for multilingual Grammatical Error Correction (GEC) in twelve European languages: Czech, English, Estonian, German, Greek, Icelandic, Italian, Latvian, Russian, Slovene, Swedish and Ukrainian. MultiGEC distinguishes itself from previous GEC datasets that it covers several underrepresented languages, which we argue should be included resources used to train models Natural Language Processing tasks which, as itself, have implications Learner...

10.1075/ijlcr.24033.mas article EN International Journal of Learner Corpus Research 2025-04-01

The Dawn of the Human-Machine Era: A forecast of new and emerging language technologies

OPENALEX - Publications

Dave Sayers Rui Sousa‐Silva Sviatlana Höhn Lule Ahmedi Kais Allkivi-Metsoja and 40 more

New language technologies are coming, thanks to the huge and competing private investment fuelling rapid progress; we can either understand foresee their effects, or be taken by surprise spend our time trying catch up. This report scketches out some transformative new that likely fundamentally change use of language. Some these may feel unrealistically futuristic far-fetched, but a central purpose this - wider LITHME network is illustrate mostly just logical development maturation currently...

10.17011/jyx/reports/20210518/1 preprint EN cc-by 2021-05-18

Ilukirjanduskeelest uue pilguga

OPENALEX - Publications

Jekaterina Trainis Kais Allkivi-Metsoja

Artiklis kirjeldatakse 20. sajandi teise poole eesti ilukirjanduskeele kasutusmustreid, mis näitavad, kuidas emakeelekõneleja eelistab oma mõtteid kirjalikult väljendada. Uurimisaines on saadud Tartu Ülikooli pindsüntaktiliselt märgendatud ja ühtlustatud ilukirjanduskorpusest. Rakendatud klasteranalüüsi, toob tekstivalimis sageduse alusel esile ühesuguseid morfo- süntaksimärgendite lineaarseid järgnevusi. Valitud trigrammid, esinesid korpuses kaks enam korda. Keelekasutuse üldised mustrid...

10.5128/erya10.18 article ET cc-by-nc Eesti Rakenduslingvistika Ühingu aastaraamat Estonian Papers in Applied Linguistics 2014-04-01

Autocorrect for Estonian texts: final report from project EKTB25

OPENALEX - Publications

Agnes Luhtaru Martin Vainikko Krista Liin Kais Allkivi-Metsoja Jaagup Kippar and 2 more

The project was funded in 2021-2023 by the National Programme of Estonian Language Technology. Its main aim to develop spelling and grammar correction tools for language. challenge very small amount available error data needed such development. To mitigate this, (1) we annotated more model training testing, (2) tested transfer-learning, i.e. retraining machine learning models created other tasks, so as not depend solely on data, (3) compared developed method with alternatives, including...

10.48550/arxiv.2402.11671 preprint EN arXiv (Cornell University) 2024-02-18

Keelekasutusreeglite tuletamine ja veatuvastus määrsõna sisaldavate sõnaliigijärjendite näitel

OPENALEX - Publications

Kais Allkivi-Metsoja Pille Eslon Jaagup Kippar

10.3176/esa69.01 article ET The Yearbook of the Estonian Mother Tongue Society 2024-01-01

ELLE – Estonian Language Learning and Analysis Environment

OPENALEX - Publications

Kais Allkivi-Metsoja Pille Eslon Taavi Kamarik Karina Kert Jaagup Kippar and 3 more

10.22364/bjmc.2024.12.4.17 article EN cc-by-sa Baltic Journal of Modern Computing 2024-01-01

C1-tasemega eesti keele õppijate ja emakeelekõnelejate kirjaliku keelekasutuse võrdlus verbialguliste tetragrammide näitel

OPENALEX - Publications

Kais Allkivi-Metsoja

Written language use of C1 learners Estonian and native speakers in comparison: Analysis verb-initial fourgrams This paper comparatively describes morphosyntactic patterns the written level Estonian, i.e. proficient L2 users, educated speakers. For this purpose, were inves- tigated. A further aim study is to help provide research-based linguistic content define acquisition levels.

10.5128/lv26.02 article EN cc-by-nc Lähivõrdlusi Lähivertailuja 2016-10-31

Pronominal Doubling in Estonian Complex Wh-Questions

OPENALEX - Publications

Kais Allkivi-Metsoja

10.3176/lu.2018.2.01 article EN Linguistica Uralica 2018-01-01

Teksti keelekasutusmustrid ja lingvistiline klasteranalüüs

OPENALEX - Publications

Pille Eslon Kais Allkivi-Metsoja

Suurte korpuste automaatsel töötlemisel kasutatakse erinevat keeletarkvara ja statistilist analüüsi, mille valik ning kombineerimisvõimalused sõltuvad keelest, uurimisobjektist eesmärkidest. Artiklis tutvustame teksti keelekasutusmustrite otsimiseks mõeldud integreeritud tarkvararakendust Klastrileidja selle toimesüsteemi, anname ülevaate lingvistilise klasteranalüüsi abil saadud uurimistulemustest. Eesmärk on seletada, mida meetodi rakendamine loomuliku keele töötluse käigus võimaldab...

10.5128/lv28.01 article ET cc-by-nc Lähivõrdlusi Lähivertailuja 2018-10-30

A2–C1-taseme eksamitekstide käändsõnakasutus

OPENALEX - Publications

Kais Allkivi-Metsoja

Keeleoskustaseme automaatseks hindamiseks on tarvis kindlaks teha mõõdetavad tunnused, mis võimaldavad eri tasemete keelekasutust usaldusväärselt määrata. Siinses artiklis tähelepanu keskmes eesti keele A2–C1-taseme eksamitekstide käändsõnatunnused. Analüüsitakse käändsõnavormide sagedust ja varieerumist nii summaarselt kui ka käändsõnaliikide võrdluses. Tuuakse välja need korrelatsioonis keeleoskustasemega muutuvad kasvavas või kahanevas suunas, piiritledes järjestikuseid tasemeid....

10.5128/erya18.03 article EN cc-by-nc Eesti Rakenduslingvistika Ühingu aastaraamat Estonian Papers in Applied Linguistics 2022-06-15

Eesti keele A2–C1-taseme kirjalike tekstide võrdlev automaatanalüüs

OPENALEX - Publications

Kais Allkivi-Metsoja

Tänaseni puudub ülevaade eesti keele kui sihtkeele õppijate tekstiloomest eri keeleoskustasemetel, mis põhineks tekstide automaatanalüüsi andmete statistilisel töötlusel. Eesmärk on kindlaks teha, millised arvuliselt mõõdetavad tunnused iseloomustavad A2–C1-taseme eksamite loovkirjutiste leksikaalset keerukust ning sõnaliikide ja -vormide kasutust, olles seejuures keeleoskustasemete piiritlemisel nii statistiliselt ka sisuliselt olulised. Esile tulevad järjestikuseid tasemeid (A2–B1, B1–B2,...

10.5128/lv31.01 article ET cc-by-nc Lähivõrdlusi Lähivertailuja 2021-10-31

Coming Soon ...