Digidokumendist tekstikorpuseks: Semperi ja Barbaruse kirjavahetuse töötlemine masinanalüüsitavaks päringusüsteemis KORP

Estonian
DOI: 10.12697/jeful.2019.10.2.02 Publication Date: 2020-02-10T07:18:50Z
ABSTRACT
Kirjandusteadlaste ja arvutilingvistide koostöös katseprojektina valminud Johannes Semperi Barbaruse kirjavahetuse korpus on nii kirjanduslooliselt kui tekstilingvistiliselt huvipakkuv digitaalandmestik. Kirjandusteadlastele avab kaasaegsete digitaalsete meetodite kasutuselevõtt huvitavaid uurimisperspektiive vanade uurimistulemuste ülekontrollimise võimalusi arvutuslike meetoditega. Korpuslingvistidele aga väljakutseks ajaloolise isikupärase keelekasutusega, erinevatest keeltest kubiseva rohkete koha-, aja- isikuviidetega tekstimaterjali ettevalmistamine rikkalikult märgendatud korpuseks. Artikkel peatub üksikasjalikumalt käsikirjalise materjali digitaalseks tekstiandmestikuks ettevalmistamise ka analüüsi- märgendamisprotsessi probleemidel nende võimalikel lahendustel. Kasutajatele tutvustatakse korpuste päringusüsteemi KORP sarnaste tekstide uurimiseks.
 Abstract. Marin Laak, Kaarel Veskis, Kadri Vider, Neeme Kahusk, and Olga Gerassimenko: Turning from digital document to text corpus: conversion of correspondence between Semper Barbarus a machine-readable unit in KORP. The article describes joined pilot project literary scholars language technologists that resulted corpus Estonian avant-garde poets Barbarus. is an inspiring dataset both for linguistic researches. Contemporary methods allow find new interesting research perspectives revise the old results with computational methods. Corpus linguists can challenges historically personally unique use correspondents, multiple languages used citations play, references places, events persons textual material was transformed annotated corpus. preparation typed-in manuscript detail, problems annotation analysis their possible solutions. reader will get insight possibilities query system offers similar material.
SUPPLEMENTAL MATERIAL
Coming soon ....
REFERENCES (0)
CITATIONS (1)