It-Sr-NER CLARIN compatible NER and geoparsing web services for parallel texts: case study Italian and Serbian

Позив:  „Bridging Gaps – A Call for Expressions of Interest to Connect CLARIN to External Language Technology Tools“ 2022

Трајање пројекта: 1.6.2022-30.9.2022.

Носилац пројекта: Оља Перишић, Универзитет у Торину, Департман за стране језике и културе

Пројектни тим такође укључује чланове Друштва за језичке ресурсе и технологије – ЈеРТех: Душко Витас, Ранка Станковић, Милица Иконић Нешић. Значајан допринос су дали и: Цветана Крстев, Саша Модерц, Михајло Шкорић.

Главни циљ: развој веб-сервиса за препознавање именованих ентитета (NER ) у паралелним текстовима са студијом случаја на италијанском и српском језику, под називом It-Sr-NER. Веб-сервиси су компатибилни са CLARIN инфраструктуром. Сервиси могу бити коришћени за препознавање и класификацију именованих ентитета у двојезичним текстовима. Улаз представљају паралелизовани текстови у формату датотеке TMX (Translation Memory eXchange), нпр. српски-италијански. It-Sr-NER препознаје 6 класа именованих ентитета: демониме (DEMO), уметничка дела (WORK), имена особа (PERS), места (LOC), догађаје (EVENT) и организације (ORG). Иако је првобитно развијен за поравнате текстове у формату TMX, могућа је употреба сервиса за анотацију именованих ентитета једнојезичких текстова.

Репозиторијум пројекта (Github): https://github.com/rankastankovic/It-Sr-NER/

Ресурси пројекта: https://github.com/rankastankovic/It-Sr-NER/tree/main/corpus

Веб-апликација и сервис It-Sr-NER: http://ners.jerteh.rs/

Корпус у репозиторијуму ILC4CLARIN.

Апликација It-Sr-NER у репозиторијуму ILC4CLARIN

Радионица у Београду, септембар 2022.
Радионица у Београду

Презентација пројекта у оквиру Семинара Друштва за језичке ресурсе и технологије 20.10.2022. „It-Sr-NER: CLARIN пројекат“ – Оља Перишић, Универзитет у Торину и ЈеРТех тим [pdf]

Извештај са презентације пројекта – Нове језичке технологије, лист Политика, 5. новембар 2022.

Comments are closed.