Позив: „Bridging Gaps – A Call for Expressions of Interest to Connect CLARIN to External Language Technology Tools“ 2022
Трајање пројекта: 1.6.2022-30.9.2022.
Носилац пројекта: Оља Перишић, Универзитет у Торину, Департман за стране језике и културе
Пројектни тим такође укључује чланове Друштва за језичке ресурсе и технологије – ЈеРТех: Душко Витас, Ранка Станковић, Милица Иконић Нешић. Значајан допринос су дали и: Цветана Крстев, Саша Модерц, Михајло Шкорић.
Главни циљ: развој веб-сервиса за препознавање именованих ентитета (NER ) у паралелним текстовима са студијом случаја на италијанском и српском језику, под називом It-Sr-NER. Веб-сервиси су компатибилни са CLARIN инфраструктуром. Сервиси могу бити коришћени за препознавање и класификацију именованих ентитета у двојезичним текстовима. Улаз представљају паралелизовани текстови у формату датотеке TMX (Translation Memory eXchange), нпр. српски-италијански. It-Sr-NER препознаје 6 класа именованих ентитета: демониме (DEMO), уметничка дела (WORK), имена особа (PERS), места (LOC), догађаје (EVENT) и организације (ORG). Иако је првобитно развијен за поравнате текстове у формату TMX, могућа је употреба сервиса за анотацију именованих ентитета једнојезичких текстова.
Репозиторијум пројекта (Github): https://github.com/rankastankovic/It-Sr-NER/
Ресурси пројекта: https://github.com/rankastankovic/It-Sr-NER/tree/main/corpus
Веб-апликација и сервис It-Sr-NER: http://ners.jerteh.rs/
Корпус у репозиторијуму ILC4CLARIN.
Апликација It-Sr-NER у репозиторијуму ILC4CLARIN
Презентација пројекта у оквиру Семинара Друштва за језичке ресурсе и технологије 20.10.2022. „It-Sr-NER: CLARIN пројекат“ – Оља Перишић, Универзитет у Торину и ЈеРТех тим [pdf]
Извештај са презентације пројекта – Нове језичке технологије, лист Политика, 5. новембар 2022.