Полезно за вас: Речник | Игри | Новини | Фирми | Рецепти | Обяви
Начало на реферати

Проблеми на българските базии данни


Информационни технологии | 2009-12-04 | 50 сваляния

1


тема 3 - Проблеми на българските базии данни


Символно множества

Разпространени са 3 кодировки ( КОU-8, Windows, Unicode ). През последните години съществува тенденцията Unicode да се утвърди, поради своята универсалност. Поради големия брой поддържани от него езици обаче той се кодира с цели 2 байта. Това води до проблеми, тъй като повечето съществуващи сега системи са 1 байтово базирани.

За решаването на проблема с интернационалните символи се използва механизма на т.нар. програми филтри. Те са част от системата за управление на текстовите бази данни и работата им е изградена на следния принцип :

Когато идва документ на кирилица например, филтътрът го преобразува в подходящ за съхранение формат. Когато се извършва изтегляне на докумет филтърът работи в обратна посока от формата за запис го преобразува във формат за четене на кирилица.


Множествени форми и словоформи

За разлика от други езици, като английския на пример, в българския език множествените форми се образуват по много разнообразен начин. По тази причина табличното им описание, а оттам и компютърната им обработка са практически невъзможни. Друг проблем са и останалите словоформи, които също се подчиняват на много разнообразен набор от правила. Това силно затруднява компютърната им обработка. Въпреки това има сравнително успешни опити (като APIS), които донякаде се справят със словоформите при съществителните и прилагателните. При глаголните форми обаче нещата не стоят добре поради огромното им разнообразие.


Използване на тезаурус

Ако имаме разработена добра система за словоформи използването на тезаурса е просто. Не е необходимо да се включват всички словоформи, а само тези които имат отношение към проблема. За всяка отделна дума се формира гнездо от думи, които се намират в някакво отношение със словоформите на дадента дума. Обикновено се използват SRT и RT. Един груб начин е следния: Думите се сортират избира се една дума за главна (LT), а думите около нея за RT. Важното е между тях да не побадне дума която няма смислова връзка (обикновено думите около една дума са смислово свързани с нея).


Локализация

Удобно е интерфейса, съобщенията, help-a и езика за заявки да бъдат на български. В някой от съществуващите системи има възможност за редактиране на тези елементи. Т.е. позволява се те да бъдат на езици различни от английски.


Общи проблеми

Българския език е слабо изследван. Заради слабата теоритична постановка повечето spell check-ари не работят добре. Ключът към доброто кодиране е съществуването на система от точни и ясни правила за словообразуване. При формиране не думите се използват представки и наставки. Идеята е да се пази само корена, а думите да се образуват по определените правила. Този проблем обаче също е сложен. Друг проблем е за произхода на думите в българския език. Оказва се че влиянието на прабългарския е голямо. Не е необходимо да се пазят всички словоформи. Това е практически невъзможно. Достатъчно е да се знаят тези свързани с конкретната област на приложение.


Проблеми на българските базии данни

Добави своя коментар:



Тагове от реферата: , ,

Изтегли в DOC | PDF | ZIP

Подобни материали


Семантика на програмните езици. Множеството Fn. Точни горни граници на Fn Информационни технологии | 2009-12-04 | 41 прочитания
Времеви анализ на сигналите Информационни технологии | 2009-12-04 | 62 прочитания
Множествено наследяване Информационни технологии | 2009-12-04 | 180 прочитания
ВЪВЕДЕНИЕ В ИЗКУСТВЕНИЯ ИНТЕЛЕКТ Информационни технологии | 2009-12-04 | 149 прочитания
Асемблери - Теми 5, 6, 7, 8 Информационни технологии | 2009-12-04 | 225 прочитания
Компютри. Компютърни мрежи Информационни технологии | 2009-12-04 | 105 прочитания
Клавиатура Информационни технологии | 2009-12-04 | 115 прочитания
Семантика на програмните езици. Компактни оператопи. Свойства Информационни технологии | 2009-12-04 | 53 прочитания
ПОЖАРОИЗВЕСТИТЕЛНИ СИСТЕМИ И СИСТЕМИ ЗА КОНТРОЛ НА ДОСТЪПА Информационни технологии | 2009-12-04 | 172 прочитания
Протокол 16 - Изследване на терморезисторен и термоелектрически термометър Информационни технологии | 2009-12-04 | 148 прочитания