Home » LeXimir – софтверски алат за руковање лексичким ресурсима и експанзију упита

LeXimir – софтверски алат за руковање лексичким ресурсима и експанзију упита

Развој различитих типова ресурса, кроз дуги низ година и кроз различите пројекте, па самим тим и унутар различитих методолошких оквира, мотивисао је чланове Групе да приступе развоју софтверских система, односно софтверских алата, који ће са једне стране олакшати њихов даљи развој и одржавање, а са друге њихову интеграцију, чиме се омогућава знатно лакше обављање низа задатака везаних за обраду текстова у е-облику. Један од њих, који је добио назив LeXimir омогућава сихронизовано коришћење разнородних ресурса, и већ се успешно користи за различите врсте послова и задатака у Групи. Претходна верзија овог алата је имала акроним WS4LR[1], од енглеског Workstation for Lexical Resources (Радна станица за лексичке ресурсе). Као надградња овог алата у Групи за језичке технологије је развијена веб апликација VebRanka а проширивање упита, чији је циљ да омогући развој и коришћење језичких ресурса за српски језик и на вебу. Развијени су и одговарајући веб сервиси (wsQueryExpand), који су посебно интересантни, јер се, као засебна компонента, у принципу, могу и независно користити.

LeXimir садржи неколико компоненти које извршавају различите функције:

  • Конверзије омогућавају различите врсте трансформација ресурса (једне датотеке или скупа датотека) које могу садржати текст, локалне граматике, електронске речнике формата DELAS и DELAF, и сл. Конверзије између различитих формата ресурса се углавном односе на конвертовање из Intex или Unitex формата у NooJ формат речника, графова и регуларних израза.
  • Подсистем за одржавање система морфолошких речника омогућава управљање скупом одабраних речника у DELA формату који садрже просте или сложене речи. Одабрани речници могу да буду дистрибуирани у више датотека. Главна снага алата је могућност ефикасног претраживања и издвајања подскупа лема на основу услова поређења лема, врсте речи, кода флективне класе, и синтаксичких и семантичких ознака. Подсистем обезбеђује везу са регуларним изразима и са FSA графовима који описују флективна својства изабране леме, тако да се они могу прегледати и кориговати ако је потребно. Едитор лема омућава формирање леме из почетка, или копирање неке постојеће сличне леме која се затим модификује. Веза са флективним регуларним изразима и FSA графовима омогућава да се одмах генеришу сви флективни облици нове леме и тако провери исправност одабраног кода флективне класе.
  • Развој и унапређење ворднета је компонента која подржава рад са појединачним ворднетом али и синхронизован рад два ворднета који се остварује преко јединственог идентификатора ИЛИ. Осим тога, синсетови се могу селектовати коришћењем различитих метода, која иду од једноставног сравњивања ниски до комплексних XPath израза за које су припремљени обрасци који одговарају често постављаним захтевима. Нови синсетови се могу додавати wорднету коришћењем предефинисаних форми. Неструктуиране, двојезичне листе пружају помоћ и препорука за могуће кандидате за литерале новог синсета, посебно у случају када се један wорднет развија синхронизовано са неким већ развијеним (PWN). У овај модул су такође уграђене различите опције за проверу конзистентности података.
  • Подсистем за интеракције система електронских речника и онтологија омогућава размену информација између ворднета и морфолошких речника, наиме, морфо-синтаксичке информације из морфолошких речника се могу придружити литералима у синсету, а семантичке информације из синсетова се могу придружити лемама у речницима. Овим модулом се могу креирати Intex/Unitex графови који проналазе у тексту све форме свих литерала из изабраног синсета, коме се могу додати одабрани литерала из синсетива који су надређени изабраном.
  • Окружење за изградњу и експлоатацију паралелизованих текстова и конверзију TEI-формата ка другим стандардима, апосебно ка ТМX-у. Паралелизовани текстови у ТМX формату се могу визуелизовати на различите начине коришћењем унапред припремљених XSLT скриптова. Интеграција ресурса у WS4LR се најбоље илуструје кроз претрагу паралелизованих текстова. Корисник као упитни образац може да зада једну ниску, лему, што значи да се претраживање обавља свим флективним облицима или концепт, што значи да се претраживање обавља свим литералима из изабраних синсетова и њихових надређених појмова, а задовољавање ових упита захтева укључивање практично свих расположивих ресурса. У издвојеним паралелизованим сегментима, појављивања која одговарају критеријумима претраге су осветљена другом бојом. На основу везе између синсетова у синхронизованим ворднетима која се остварује преко јединственог идентификатора ИЛИ, могућа је и паралелна вишејезична претрага и означавање нађених речи у одговарајућим текстовима.
  • Подсистем за генерисање класа сложених речи на основу резултата морфолошке анализе, систем продукционих правила и описа морфолошких својстава српског језика користећи FSD.
  • Веб апликација за језичке ресурсе VebRanka користи веб сервис wsQueryExpand који пружа различите могућности проширења упита, и омогућава експанзију упита на вебу користећи Google AJAX Search API. Највећи скуп предвиђених корисничких функција везан је за експанзију упита, боље рећи за разноврсне могућности подешавања упита (јер сем проширивања, омогућава и његово сужавање). VebRanka као и LeXimir, даје кориснику могућност да упит прошири морфолошки, семантички али и на још један језик (а који зависи од расположивих ресурса).

Мада се LeXimir углавном користи за српски језик, његово коришћење није зависно од језика. Једина предпоставка је да за неки језик ресурси постоје или да се развијају према описаним форматима и методологијама. Ефикасност у раду је обезбеђује могућност подешавања параметара радног окружења, којим се дефинишу ресурси језика којима се рукује. Систем може паралелно да ради са два језика, комбинујући било која два језика изабрана из предефинисаних параметара расположивих ресурса.

[1]WS4LR је развијен током рада на докторској дисертацији Ранке Станковић под називом “Модели експанзије упита над текстуелним ресурсима” чији је ментор био проф. др Душко Витас. Софтверско решење је настало под руководством проф. др Цветане Крстев. Значајан допринос развоју WS4LR су дали и проф. др Иван Обрадовић и др Милош Утвић. Даљи развој алата је настављен под називом LeXimir у оквиру Групе.