Проблеми на българските базии данни
| Информационни технологии | 2009-12-04 | 50 сваляния |
1
тема 3 - Проблеми на българските базии данни
Символно множества
Разпространени са 3 кодировки ( КОU-8, Windows, Unicode ). През последните години съществува тенденцията Unicode да се утвърди, поради своята универсалност. Поради големия брой поддържани от него езици обаче той се кодира с цели 2 байта. Това води до проблеми, тъй като повечето съществуващи сега системи са 1 байтово базирани.
За решаването на проблема с интернационалните символи се използва механизма на т.нар. програми филтри. Те са част от системата за управление на текстовите бази данни и работата им е изградена на следния принцип :
Когато идва документ на кирилица например, филтътрът го преобразува в подходящ за съхранение формат. Когато се извършва изтегляне на докумет филтърът работи в обратна посока от формата за запис го преобразува във формат за четене на кирилица.
Множествени форми и словоформи
За разлика от други езици, като английския на пример, в българския език множествените форми се образуват по много разнообразен начин. По тази причина табличното им описание, а оттам и компютърната им обработка са практически невъзможни. Друг проблем са и останалите словоформи, които също се подчиняват на много разнообразен набор от правила. Това силно затруднява компютърната им обработка. Въпреки това има сравнително успешни опити (като APIS), които донякаде се справят със словоформите при съществителните и прилагателните. При глаголните форми обаче нещата не стоят добре поради огромното им разнообразие.
Използване на тезаурус
Ако имаме разработена добра система за словоформи използването на тезаурса е просто. Не е необходимо да се включват всички словоформи, а само тези които имат отношение към проблема. За всяка отделна дума се формира гнездо от думи, които се намират в някакво отношение със словоформите на дадента дума. Обикновено се използват SRT и RT. Един груб начин е следния: Думите се сортират избира се една дума за главна (LT), а думите около нея за RT. Важното е между тях да не побадне дума която няма смислова връзка (обикновено думите около една дума са смислово свързани с нея).
Локализация
Удобно е интерфейса, съобщенията, help-a и езика за заявки да бъдат на български. В някой от съществуващите системи има възможност за редактиране на тези елементи. Т.е. позволява се те да бъдат на езици различни от английски.
Общи проблеми
Българския език е слабо изследван. Заради слабата теоритична постановка повечето spell check-ари не работят добре. Ключът към доброто кодиране е съществуването на система от точни и ясни правила за словообразуване. При формиране не думите се използват представки и наставки. Идеята е да се пази само корена, а думите да се образуват по определените правила. Този проблем обаче също е сложен. Друг проблем е за произхода на думите в българския език. Оказва се че влиянието на прабългарския е голямо. Не е необходимо да се пазят всички словоформи. Това е практически невъзможно. Достатъчно е да се знаят тези свързани с конкретната област на приложение.
Тагове от реферата: символно, пробеми, рскит











