ELG ресурси и алати

Следе језички ресурси и алати развијени под окриљем Друштва ЈеРТех а доступних путем портала ELG.

Корпуси

  • SrpELTeC-gold – Named Entity Recognition Training corpus for SerbianКорпус за тернирање препознавања именованих ентитета је поткорпус књижевног корпуса српског језика који садржи 11 романа у пуном тексту и исечке 15 романа написаних пре више од једног века. У првој фази припреме је обележен системом SrpNER. Садржи 330.119 токена, 7 класа: особе, организације, локације, догађаји, дела, демоними, улоге (професије), лиценца CC-BY-NC-SA-4.0.
  • SrpKor4Tagging – Корпус је формиран комбинацијом књижевних (⅓) и административних (⅔) текстова на српском језику. Обележен је са два скупа ознака за врсте речи: Universal POS и SrpLemKor (скуп креиран на основу традиционалне, дескриптивне граматике српског језика) и лематован,
    342,803 токена, лиценца CC-BY-4.0.
  • RudKorP – Српски јавни корпус текстова из области рударства и обраде минералних сировина настао на Универзитету у Београду, Рударско-геолошком факултету. Sадржи 2.34 милиона речи, лиценца CC-BY-4.0.
  • ELTEC – Колекција европских романа у оквиру које је и српски скуп https://distantreading.github.io/ELTeC/srp/index.html (4.931.503 речи), такође доступно и на https://github.com/COST-ELTeC/ELTeC-srp ниво 2 укључује 100 романа: речима придружене леме и врсте речи, обележено 7 класа именованих ентитета, лиценца CC-BY-4.0.
  • INTERA Corpus – the Serbian-English part – паралелни корпус од милион речи за српски и милион речи за енглески, упарено на нивоу реченице, лиценца CC-BY-4.0. 1.
  • INTERA Corpus – the Serbian POS annotated part of the SR-EN pair  – милион речи, лиценца CC BY 4.0.
  • Орвелова 1984. – аутоматски анотиран и ручно коригован пуним граматичким категоријама, врстама речи и лемама, у оквиру вишејезичног пројекта, лиценца MULTEXT-East CC BY-NC-SA 4.0.
  • Пут око света за 80 дана паралелни корпус са 3.700 упарених сегмената, углавном реченица, лиценца CC-BY-NC-SA-4.0.

Модели

  • SrpCNNERNamed Entity Recognizer for Serbian (7 classes) – Препознавач именованих ентитета обучен да препознаје 7 типова именованих ентитета, са архитектуром Конволуцијске неуронске мреже (Convolutional Neural Network – CNN), са скором F1 од око 91% на тестном скупу података. Лиценца CC-BY-NC-SA-4.0.
  • SrpKor4Tagging-TreeTagger – TreeTagger модел за обележавање скуповима ознака Universal POS и SrpLemKor, обучен коришћењем анотираног корпуса SrpKor4Tagging и речника SrpMD4Tagging.
    Лиценца CC-BY-4.0.
  • SrpKor4Tagging-spaCy – Модели spaCy за обележавање врстама речи коришћењем скупа ознака Universal POS и SrpLemKor, обучени коришћењем анотираног корпуса SrpKor4Tagging.
    Лиценца CC-BY-4.0.

Речници

  • SrpMD – Serbian Morphological Dictionaries – Морфолошки речници за српски језик следе методологију и формат (познат као DELAS/DELAF) који су развијени у Лабораторији LADL (Laboratoire d’Automatique Documentaire et Linguistique), 10.288 вишечланих речи, 88.753 речи и 3.753.750 флективних облика, лиценца CC-BY-NC-SA-4.0.
  • SrpMD4Tagging – Serbian Morphological Dictionaries for Tagging – Морфолошки речници српског језика за обележавање изведени из Морфолошких речника српског језика (Krstev & Vitas)  као референтни речници за придруживање леме и ознаке врсте речи облику речи пронађеном у тексту. Доступне су две датотеке са скупом ознака за обележавање врстама речи: Univesal Dependencies и традиционални скуп ознака Serbian POS, број анотираних речничких облика 935.466, лиценца CC-BY-NC-SA-4.0.
  • GeolISSTerm – Речник геолошких термина је електронски речник у виду таксономије посебне намене основних геолошких појмова и термина. GeolISSTerm је део Геолошког информационог система Србије (GeolISS) и користи се за валидацију, класификовање и спецификовање уочених и интерпретираних геолошких атрибута. Садржи: 2.631 двојезичних термина са дефиницијама и синонимима, CC-BY-NC-SA-4.0.

Алати

  • Bibliša – Алат за вишејезичне дигиталне библиотеке Библиша је јавно доступна дигитална библиотека развијена за управљање, претрагу и прелиставање поравнатих двојезичних текстуалних колекција. Заснована је на бази података MongoDB (NoSQL).Претрага у два нивоа, са и без логовања.
  • LeximirkaЛексичка база података и апликација на вебу која служи за развој, управљање и истраживање лексичких података. Омогућава контролу лексичких записа, аутоматску допуну речника, вишекориснички рад и успостављање веза међу лексичким записима. Претрага захтева логовање.

ELG сервиси

  • SrpCNNER service – Веб-сервис који омогућава обележавање текста коришћењем SrpCNNER следећим скуповима ознака: PERS, ROLE, LOC, DEMO, ORG, WORK & EVENT. Доступан онлине без логовања.

Comments are closed.