- Natural Language Processing Techniques
- Second Language Acquisition and Learning
- EFL/ESL Teaching and Learning
- AI in Service Interactions
- Topic Modeling
- Lexicography and Language Studies
- Speech and dialogue systems
- Linguistics and Cultural Studies
- Second Language Learning and Teaching
- Linguistic Education and Pedagogy
- Text Readability and Simplification
Tallinn University
2014-2025
Abstract This paper introduces MultiGEC, a dataset for multilingual Grammatical Error Correction (GEC) in twelve European languages: Czech, English, Estonian, German, Greek, Icelandic, Italian, Latvian, Russian, Slovene, Swedish and Ukrainian. MultiGEC distinguishes itself from previous GEC datasets that it covers several underrepresented languages, which we argue should be included resources used to train models Natural Language Processing tasks which, as itself, have implications Learner...
New language technologies are coming, thanks to the huge and competing private investment fuelling rapid progress; we can either understand foresee their effects, or be taken by surprise spend our time trying catch up. This report scketches out some transformative new that likely fundamentally change use of language. Some these may feel unrealistically futuristic far-fetched, but a central purpose this - wider LITHME network is illustrate mostly just logical development maturation currently...
Artiklis kirjeldatakse 20. sajandi teise poole eesti ilukirjanduskeele kasutusmustreid, mis näitavad, kuidas emakeelekõneleja eelistab oma mõtteid kirjalikult väljendada. Uurimisaines on saadud Tartu Ülikooli pindsüntaktiliselt märgendatud ja ühtlustatud ilukirjanduskorpusest. Rakendatud klasteranalüüsi, toob tekstivalimis sageduse alusel esile ühesuguseid morfo- süntaksimärgendite lineaarseid järgnevusi. Valitud trigrammid, esinesid korpuses kaks enam korda. Keelekasutuse üldised mustrid...
The project was funded in 2021-2023 by the National Programme of Estonian Language Technology. Its main aim to develop spelling and grammar correction tools for language. challenge very small amount available error data needed such development. To mitigate this, (1) we annotated more model training testing, (2) tested transfer-learning, i.e. retraining machine learning models created other tasks, so as not depend solely on data, (3) compared developed method with alternatives, including...
Written language use of C1 learners Estonian and native speakers in comparison: Analysis verb-initial fourgrams This paper comparatively describes morphosyntactic patterns the written level Estonian, i.e. proficient L2 users, educated speakers. For this purpose, were inves- tigated. A further aim study is to help provide research-based linguistic content define acquisition levels.
Suurte korpuste automaatsel töötlemisel kasutatakse erinevat keeletarkvara ja statistilist analüüsi, mille valik ning kombineerimisvõimalused sõltuvad keelest, uurimisobjektist eesmärkidest. Artiklis tutvustame teksti keelekasutusmustrite otsimiseks mõeldud integreeritud tarkvararakendust Klastrileidja selle toimesüsteemi, anname ülevaate lingvistilise klasteranalüüsi abil saadud uurimistulemustest. Eesmärk on seletada, mida meetodi rakendamine loomuliku keele töötluse käigus võimaldab...
Keeleoskustaseme automaatseks hindamiseks on tarvis kindlaks teha mõõdetavad tunnused, mis võimaldavad eri tasemete keelekasutust usaldusväärselt määrata. Siinses artiklis tähelepanu keskmes eesti keele A2–C1-taseme eksamitekstide käändsõnatunnused. Analüüsitakse käändsõnavormide sagedust ja varieerumist nii summaarselt kui ka käändsõnaliikide võrdluses. Tuuakse välja need korrelatsioonis keeleoskustasemega muutuvad kasvavas või kahanevas suunas, piiritledes järjestikuseid tasemeid....
Tänaseni puudub ülevaade eesti keele kui sihtkeele õppijate tekstiloomest eri keeleoskustasemetel, mis põhineks tekstide automaatanalüüsi andmete statistilisel töötlusel. Eesmärk on kindlaks teha, millised arvuliselt mõõdetavad tunnused iseloomustavad A2–C1-taseme eksamite loovkirjutiste leksikaalset keerukust ning sõnaliikide ja -vormide kasutust, olles seejuures keeleoskustasemete piiritlemisel nii statistiliselt ka sisuliselt olulised. Esile tulevad järjestikuseid tasemeid (A2–B1, B1–B2,...