ELG ресурси и алати

Следе језички ресурси и алати развијени под окриљем Друштва ЈеРТех а доступних путем портала ELG.

Корпуси

  • SrpELTeC-gold – Named Entity Recognition Training corpus for SerbianКорпус за тернирање препознавања именованих ентитета је поткорпус књижевног корпуса српског језика који садржи 11 романа у пуном тексту и исечке 15 романа написаних пре више од једног века. У првој фази припреме је обележен системом SrpNER. Садржи 330.119 токена, 7 класа: особе, организације, локације, догађаји, дела, демоними, улоге (професије), лиценца CC-BY-NC-SA-4.0.
  • SrpKor4Tagging – Корпус је формиран комбинацијом књижевних (⅓) и административних (⅔) текстова на српском језику. Обележен је са два скупа ознака за врсте речи: Universal POS и SrpLemKor (скуп креиран на основу традиционалне, дескриптивне граматике српског језика) и лематован,
    342,803 токена, лиценца CC-BY-4.0.
  • RudKorP – Српски јавни корпус текстова из области рударства и обраде минералних сировина настао на Универзитету у Београду, Рударско-геолошком факултету. Sадржи 2.34 милиона речи, лиценца CC-BY-4.0.
  • ELTEC – Колекција европских романа у оквиру које је и српски скуп https://distantreading.github.io/ELTeC/srp/index.html (4.931.503 речи), такође доступно и на https://github.com/COST-ELTeC/ELTeC-srp ниво 2 укључује 100 романа: речима придружене леме и врсте речи, обележено 7 класа именованих ентитета, лиценца CC-BY-4.0.
  • INTERA Corpus – the Serbian-English part – паралелни корпус од милион речи за српски и милион речи за енглески, упарено на нивоу реченице, лиценца CC-BY-4.0. 1.
  • INTERA Corpus – the Serbian POS annotated part of the SR-EN pair  – милион речи, лиценца CC BY 4.0.
  • Орвелова 1984. – аутоматски анотиран и ручно коригован пуним граматичким категоријама, врстама речи и лемама, у оквиру вишејезичног пројекта, лиценца MULTEXT-East CC BY-NC-SA 4.0.
  • Пут око света за 80 дана паралелни корпус са 3.700 упарених сегмената, углавном реченица, лиценца CC-BY-NC-SA-4.0.

Модели

  • SrpCNNERNamed Entity Recognizer for Serbian (7 classes) – Препознавач именованих ентитета обучен да препознаје 7 типова именованих ентитета, са архитектуром Конволуцијске неуронске мреже (Convolutional Neural Network – CNN), са скором F1 од око 91% на тестном скупу података. Лиценца CC-BY-NC-SA-4.0.
  • SrpKor4Tagging-TreeTagger – TreeTagger модел за обележавање скуповима ознака Universal POS и SrpLemKor, обучен коришћењем анотираног корпуса SrpKor4Tagging и речника SrpMD4Tagging.
    Лиценца CC-BY-4.0.
  • SrpKor4Tagging-spaCy – Модели spaCy за обележавање врстама речи коришћењем скупа ознака Universal POS и SrpLemKor, обучени коришћењем анотираног корпуса SrpKor4Tagging.
    Лиценца CC-BY-4.0.

Речници

  • SrpMD – Serbian Morphological Dictionaries – Морфолошки речници за српски језик следе методологију и формат (познат као DELAS/DELAF) који су развијени у Лабораторији LADL (Laboratoire d’Automatique Documentaire et Linguistique), 10.288 вишечланих речи, 88.753 речи и 3.753.750 флективних облика, лиценца CC-BY-NC-SA-4.0.
  • SrpMD4Tagging – Serbian Morphological Dictionaries for Tagging – Морфолошки речници српског језика за обележавање изведени из Морфолошких речника српског језика (Krstev & Vitas)  као референтни речници за придруживање леме и ознаке врсте речи облику речи пронађеном у тексту. Доступне су две датотеке са скупом ознака за обележавање врстама речи: Univesal Dependencies и традиционални скуп ознака Serbian POS, број анотираних речничких облика 935.466, лиценца CC-BY-NC-SA-4.0.
  • GeolISSTerm – Речник геолошких термина је електронски речник у виду таксономије посебне намене основних геолошких појмова и термина. GeolISSTerm је део Геолошког информационог система Србије (GeolISS) и користи се за валидацију, класификовање и спецификовање уочених и интерпретираних геолошких атрибута. Садржи: 2.631 двојезичних термина са дефиницијама и синонимима, CC-BY-NC-SA-4.0.

Алати

  • Bibliša – Алат за вишејезичне дигиталне библиотеке Библиша је јавно доступна дигитална библиотека развијена за управљање, претрагу и прелиставање поравнатих двојезичних текстуалних колекција. Заснована је на бази података MongoDB (NoSQL).Претрага у два нивоа, са и без логовања.
  • LeximirkaЛексичка база података и апликација на вебу која служи за развој, управљање и истраживање лексичких података. Омогућава контролу лексичких записа, аутоматску допуну речника, вишекориснички рад и успостављање веза међу лексичким записима. Претрага захтева логовање.

ELG сервиси

  • SrpCNNER service – Веб-сервис који омогућава обележавање текста коришћењем SrpCNNER следећим скуповима ознака: PERS, ROLE, LOC, DEMO, ORG, WORK & EVENT. Доступан онлине без логовања.

replique montre suisse replique montres de luxe
Fussball hallenschuhe detské kopačky voetbalschoenen sale fotbollsskor webshop Scarpe calcio scontate chaussure de football pas cher billige fotballsko på nett på Fotbalove Dresy futbalove dresy na predaj billige fotballdrakter maglie calcio online maillot de foot personnalisé billige fodboldtrøjer replica uhren kaufen fussball trikots kaufen koszulki nba sklep køb billige nba trøjer