Обележавање текста

Радна акција дигитална библиотека 100 српских романа

Cost akcija: CA16204 – Distant Reading for European Literary History

Проф. Цветанa Крстев руководи српским тимом у COST акцији D-reading у оквиру ког се креира корпус ELTeC (European Literary Text Collection).

Позивамо волонтере да нам се придруже у радној акцији читања и кориговања романа на српском за ELTeC корпус.

Детаљи везани за акцију, корекцију и припрему текстова су дати у презентацији са последњег семинара Јертеха: [pdf], а стилови за за Notepad++ се могу преузети овде: [стилови ELTeC12.zip]

Упутство за корекцију и припрему текстова за корпус и дигиталну библиотеку ELTeC (100 српских романа/приповедака 1840-1920)

Етикетирање текста

Све етикете су овде објашњене са примерима:

Поглавља

Почетак поглавља иде са етикетом <div type=“chapter“ xml:id=“broj“> и завршава се с етикетом </div>. Број треба да буде број поглавља (1, 2, 3…). Уколико постоји неки увод (ауторски), пролог и сл., њему дати број 0 (а ако их има више додавати нуле 0, 00, 000…).

Ако је роман подељен и на делове унутар којих има више поглавља онда сваки део треба почети с етикетом <div type=“part“ xml:id=“broj“> где је broj број поглавља, а завршава се са </div>. У том случају, ако нумерација поглавља почиње од почетка у сваком делу, онда сва поглавља треба да носе и ознаку дела (1.1, 1.2, итд.) Пример:

<div type="part" xml:id="1">
<div type="chapter" xml:id="1.1">
...
</div>
<div type="chapter" xml:id="1.2">
...
</div>
<div type="chapter" xml:id="1.3">
...
</div>
</div>
<div type="part" xml:id="2">
<div type="chapter" xml:id="2.1">
...
</div>
...
</div>
Наслови

Наслови поглавља иду са етикетом <head> и завршавају се с етикетом </head>. Овај елемент може и да се понавља ако поглавље или део има више наслова. Пример:

<div type="chapter" xml:id="3.7">
<head>ГЛАВА СЕДМА.</head>
<head>СФИНКС.</head>
Прекиди у тексту поглавља

Ако у тексту поглавља има прекида који се обично означава звезицом *, неким другим симболом или знатно већим проредом између пасуса, на том месту треба ставити етикету <milestone/>, а звездицу или неки други симбол који је служио за раздвајање избрисати.

Нумерација страница

У тексту треба обележити етикетом <pb n=“broj“/> места на којима се у штампаном документу прелази на нову страну и задржати нумерацију из оригинала. Етикета са одређеним бројем се ставља на почетак странице са тим бројем. broj је број странице из оригиналног штампаног документа (тј. скана који ви видите). Ако су на почетку бројеви страна дати римским бројевима, нека тако остане и у овој етикети, нпр. <pb n=“VII“/>.

Ако се реч прекида на крају стране, ознаку <pb n=“broj“/> треба ставити иза спојене речи. Око ове ознаке нека свакако буду размаци. Пример:

Калимегдана и узеле по један сладолед пред киоском. При повратку ударили смо преко Панчићевог парка. Мајка седе на једну клупу. Било јој је тешко. Рече ми да је назебла и да јој <pb n="150"/> није добро. Дисала је доста тешко.
Епиграф

Ако се на почетку романа, дела или поглавља појављује епиграф као некакав цитат треба користити етикету <quote> (са </quote> се цитат завршава), а за аутора цитата, ако је наведен, етикету <p> (са </p> се аутор завршава). Пример:

<quote>
    <l>Devičanstvo, ti me ostavljaš</l>
    <l>Kud Odlaziš?</l>
</quote>
<p>SAFO.</p>
Елемент текста – наслов

Ако се у тексту појављује нешто што представља наслов неког дела или новина, филма, позоришне представе и сл. треба користити етикету <title> (са </title> се наслов завршава). Пример:

Јеси ли видео у <title>Српској Ријечи</title>... како да кажем...легат за основну школу...
Елемент текста – на страном језику

Ако се у тексту појављује део из неког страног језика (на алфабету и правопису тог језика) треба користити етикету <foreign xml:lang=“jez“> (са </foreign> се део на страном језику завршава). jez је двословни код страног језика: EN за енглески, FR за француски, DE за немачки. За остале језике ISO 639-1 https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes. Пример:

- <foreign xml:lang="FR">Que vous êtes bêtes, tous les trois</foreign>! - одговори она.
Елемент текста – истакнуто

Ако се у тексту појављује нешто што је променом фонта некако истакнуто (курзив, масна слова, и сл.) треба користити етикету <hi> (са </hi> се истакнути део завршава). Пример:

- Како то? Она непрестано говори о својој <hi>пен-зији</hi>... Објасни ми.
Фусноте

Ако се у тексту има фуснота оне се смештају у засебну датотеку, за то припремљену. Све фусноте се нумеришу од броја један навише, без обзира како су нумерисане у самом тексту. На место на коме се у тексту појавила фуснота ставља се етикета <ref target=“#notebr“/> где је br број фусноте (ова етикета је самостална, нема завршну). Сама фуснота иде у засебну датотеку и смешта се унутар етикета <note xml:id=“#notebr“> и </note>. Јединствени број фусноте повезује место фусноте у тексту и саму фусноту. Пример:

У тексту:
— ми бисмо били увек у центру те безграничне сфере!...<ref target="#note1"/>
<pb n="5"/>
„И бесконачност времена аналог
У датотеци фуснота:
<note xml:id="note1"><foreign xml:lang="FR">Une sphère dont la centre est par tout, la circonférence nille part</foreign> <hi>(Pascal)</hi>.</note>
Слике у тексту

Ако је у тексту било слика оне се, наравно, у тексту неће појавити. На том месту треба ставити етикету <gap unit=“graphic“/> која указује да ту нешто недостаје. Ако је слика имала своје заглавље и оно је у тексту сканирано њега треба оставити као коментар између ознака <! – – и – – >. Ако је слика заузимала целу страницу онда једну ознаку за почетак странице треба ставити испред ознаке <gap>, а једну иза (ова етикета је самостална, нема завршну). Пример:

а кад се с том средином сроди, онда <pb n="40"/> <gap unit="graphic"/> <!-- caption: Земља гледана са Месеца--> <pb n="41"/> се у њој почне чак и да развија

Comments are closed.