Читање и кориговање

Радна акција дигитална библиотека 100 српских романа

Cost akcija: CA16204 – Distant Reading for European Literary History

Проф. Цветанa Крстев руководи српским тимом у COST акцији D-reading у оквиру ког се креира корпус ELTeC (European Literary Text Collection).

Позивамо волонтере да нам се придруже у радној акцији читања и кориговања романа на српском за ELTeC корпус.

Детаљи везани за акцију, корекцију и припрему текстова су дати и у презентацији са последњег семинара Јертеха: [pdf].

Сви заинтересовани за акцију ће добити један текст у облику .txt документа (после аутоматске корекције) и оригинал, тј. сканирану слику.

.txt документ треба учитати и кориговати у програму по збору – препоручујемо Notepad++.
Може се користити и Word, али тада треба укључити да буду видљиви „скривени карактери“ и не треба намерно или ненамерно уносити било какво какво фоматирање (италик, већи фонт и сл.).

Сканирани документ служи за корекцију – НЕПОХОДАН ЈЕ – можете га и одштампати ако је тако лакше.

Како ће изгледати .txt

Као кориговани текст на сликама у наставку. Број корекција ће зависити од успешности OCR-а, ако је солидан онда су кориговане само прекинуте речи на крају ретка (спојене су, ако спојене дају реч из речника).

Како ће акцијаши поступати (случај 2)

У другом, лакшем, случају треба само читати и исправљати грешке на које се наиђе. Биће потребно да се гледа у сканирани текст само изузетно, кад није баш јасно да ли је у питању грешка или нека баш непозната реч (у овим старим текстовима ће их увек бити баш доста, неминовно).

Посебно ће обратити пажњу на речи означене с *** испред – то су спојене речи на крају ретка, може да промакне грешка, тј. да их није требало спојити.

Нпр. после OCR-а је било ђу- туре, после аутоматске корекције ***ђутуре – остаје тако како је

Биће и случајева кад речи на крају ретка нису спојене – то ће се десити када спојене дају (за речник) непознату реч. У тим случајевима их треба спојити и обавити потребне корекције,

Нпр. После OCR-а је било дунђе- рин, после аутоматске корекције ***дунђе- ***рин (јер ни дунђерин, ни дунђе ни рин нису у речнику) треба спојити у ***дунђерин.
Нпр. После OCR-а је било основ- ј ном, после аутоматске корекције основ- ***ј ***ном (јер основ јесте у речнику, а ј и ном нису); треба избацити ј вишка и спојити у основном.

Какав је значај *** када је неки део већ прочитан и по потреби коригован? Никакав, могу се брисати а не морају. Акцијаш не мора да губи време на њихово брисање или додавање.

Како ће акцијаши поступати (случај 1)

У првом, мало захтевнијем случају треба читати и исправљати грешке на које се наиђе, а посебно обратити пажњу:

На речи означене с *** – то су речи које нису пронађене речником, па могу бити:

Исправне речи (бар према скану!) али нису у речнику ***абдеслуку (посебно место у кући где се узима абдест (Шкаљић))
Неисправне речи (јер има непредвиђених грешака) ***фе-***мшшзмом – треба поправити у ***феминизмом; овде је дошло до грешке јер замена шш у ини као релативно ретка није предвиђена;
Спојене приликом OCR-овања (!) ***збогкорсета – треба их раставити ***због корсета;

Речи означене с +++реч+++ су кориговане речи, њих ће бити највише и оне ће најчешће (али не и обавезно!) бити оно што на том месту и треба да буде:

Посебно треба обратити пажњу на случајеве где је за једну погрешно OCR-овану (!) реч добијено више могућих понуда +++реч1+++реч2+++ (може их некада бити и 4, а и више). Треба обрисати све непотребне понуде, оставити само праву:
- +++нише+++пише+++ – треба задржати +++нише+++ ако је у питању именица ниша, односно +++пише+++ ако је у питању глагол писати (после OCR-а је било ипше)

Као и у претходном случају, после прочитаног и коригованог ни *** ни +++ немају више значај. Акцијаш не мора да губи време на њихово брисање или додавање.

Ситуације које ће гњавити (случај 1)

Биће неких случајева који ће изгледати посебно досадни за исправљање.

Због честог бркања слова п и н врло честа реч ни (ћирилично) ће бити погрешно OCR-рована, а онда ће се као исправке добити

+++пи+++ни+++ии+++ (узвици пи и ии)

Овде треба приступити функцијама Find/Replace и заменити свако +++пи+++ни+++ии+++ са +++ни+++ (можда ипак без глобалне замене!)

После извесног времена, дочека вас непријатно изненађење. Опет исто!

+++ни+++ии+++пи+++

Видимо да су понуде исте али није редослед; до тога долази зато што су у тексту, у овом конкретном случају, могле да буду разне могућности пп нн пн нп ип ин. Треба понови Find/Replace.

Неки случајеви су посебно осетљиви (а чести)

+++пије+++није+++

Овде треба бити стрпљив јер заиста може да буде и једно и друго.

О чему посебно треба водити рачуна (сви)

Сви сканирани текстови ће бити на ћирилици (с обзиром да ће махом бити оригинална издања), па ће се и корекције вршити на ћирилици, а то значи:

ОБАВЕЗНО ТРЕБА УКЉУЧИТИ ЋИРИЛИЧНУ ТАСТАТУРУ

Ово је нарочито деликатно јер су нека слова иста па може изгледати да је корекција исправна, а није (у последњој провери ће речник на тим местима да сигнализира, али боље је да тога и нема). Треба задржати ТВРДИ КРАЈ РЕДА јер ће на основу њега аутоматска процедура обележити пасусе.

Приликом OCR-овања програм углавном задржава крај пасуса, али не увек – рецимо код прекида странице обично прекине пасус.
Како ћемо знати где је тај „тврди крај реда“?
- У Notepad++ ће сваки „пасус“ бити засебан ред са засебном нумерацијом;
- У Word-у ће се то лепо видети ако се укључе „скривени карактери“. Крај пасуса се тада види као карактер ¶

Проблем који ће се јавити у неким текстовима

Речено је да ће сканирани текстови бити на ћирилици, па ће се приликом OCR-овања изабрати опција „препознај све као ћирилицу“ јер се то показало као најбоље. Али, у неким текстовима се појављују мањи делови на страном језику (француском, енглеском…).

Мисли се на делове који су на страном језику и написани алфабетом и правописом тог језика, а не рецимо да звуче турски али је прилагођено спрском правопису и писму.

Ти делови с обзиром да је одабрана „само ћирилица“ никако не могу бити добри. Изгледаће отприлике овако:

БопЧ вреак зо јооИзту! Уместо Don’t speak so foolishly!

Ни не личи! Овде је једино решење да се погледа у сканирани текст, укључи латинична тастатура, прекуца текст на оригиналном језику, ВРАТИ ЋИРИЛИЧНА ТАСТАТУРА. Колика је вероватноћа да вас при кориговању ово снађе:

Може се десити да тога уопште нема (у Хаџи-Ђери не причају ни на ком страном језику);
Мало и веома ретко (Дошљаци);
Поприлично (Нове – младотуркиње знају и воле да причају и енглески и француски).

Шта не треба радити

Не треба нормализовати текст. Под тим се подразумева да текст не треба прилагођавати ни на који начин данашњем правопису. Он треба да остане веран оригиналу. Примери:

по крупној неравној чаршиској калдрми…

Не треба поправљати чаршиски у чаршијски;

Биће... како да кажем...нечег из Официрске Задруге?

Не преба поправљати Официрске Задруге у Официрске задруге.

Треба исправити само евидентне грешке у куцању из саме књиге (треба консултовати, ако постоји, Еррата на крају књиге):

Нпр. У Нове се два пута јавило налуне уместо нануле. Ја сма закључила да је грешка и да налуне није неки стари назив за нануле. Погрешан закључак! Зато не треба исправљати НИШТА осим ако се нашло у Еррата на крају књиге.

Шта би можда требало радити, али ја нисам радила: У неким текстовима се много више него што је данас обичај речи записују с знаком наглашавања

и преводи преко срата...

Oвде би требало да буде као умлаут изнад р.

Требало би то урадити, али прво би за сваки такав случај требало пронаћи место у Unicode-у… У овом тренутку немамо ресурсе за то. Можда једном касније.

Ако желите да видите боје у Notepad++

Треба да скинете датотеку [стилови ELTeC12.zip]
и да је отпакујете. У Notepad++ треба да отворите мени „Language“ а онда у њему бирате опцију „Define your language“; Отвориће се нова картица, у њој у левом горњем углу бирате дугме „Import“.

Питаће Вас шта да импортујете: изабраћете ELTeC1.xml;

Поново ћете притснути дугме „Import“ и избаратиELTeCNo2.xml

Изаћи ћете из Notepad++ и поново га покренути са Вашим текстом:

Ако желите да буду обојене само некориговане речи, у менију „Language“ ћете одабрати језик „ELTeC1“ Ако желите да буду обојене и исправљане речи, у менију „Language“ ћете одабрати јетик „ELTeC2“.

Какав је значај читачица и читача

Да ли је заправо потребно да акцијаши баш све читају? Зар није довољно да само иду од *** до *** и исправљају потенцијално погрешне речи? Значај читања је велики, јер има случајева, нажалост не мало, када се реч OCR-ује погрешно, али у неку другу легалну реч. У том случају, немамо ни назнаку о грешци ни покушаја исправљања.

Могле би да се „исправљају“ све речи, а не само непрепознате, али то би тек дало претерано много непотребних понуда исправки.

А то значи, да се мора читати да би се те грешке уочиле. Ево неких честих примера:

пего уместо него (именица пега);
трн уместо три;
жепа уместо жена (нека именица жеп).

Шта се нуди је у табели

Може се десити да је табела већ филтрирана, па су понуђени само расположиви романи, а ако није можете сами филтрирати:

Филтрирати колону „дигитално“ да у њој стоји само вредност „не“
Филтрирати колону „акцијаш“ да садржај буде празан
Ако не можете да чекате, онда филтрирајте колону „scan“ да у њој стоји „OK“

Изаберите Ваш роман:

Немојте сами мењати ништа у табели, јавите шта је Ваш избор на адресу CvetanaJK@gmail.com