Полезно за вас: Речник | Игри | Новини | Фирми | Рецепти | Обяви
Начало на реферати

Структура на ТБД


Информационни технологии | 2009-12-04 | 88 сваляния

1


тема 2 - Структура на текстовата база от данни





Всяка пълнотекстова система за разбота с данни се състои от програмна част и бази от данни. Базите от данни биват стандарни и конкатенирани. В една стандартна база от данни се съдържат само еднотипни документи. Конкатенираните бази от данни позволяват групирането на няколко стандартни бази от данни. Съвременните пълнотекстопви системи могат да работят с конкатенирани бази от данни. Когато търсенето се извършва в конкатенирана база от данни, то се декомпозира до търсене във всяка от съставляващите го стандартни бази от данни, като при това във всеки момент е текуща точно една стандартна база данни.

Както казахме всяка стандартна база данни се състои от множество еднотипни индексирани документи. Всеки документ може да се разглежда като поредица от параграфи. Различаваме 2 вида параграфи стандартни и пълнотекстови. Стандартните обикновено се състоят от дума, число, изречение или няколко изречения и съвпадат с граматическата формулировка на понятието параграф. Пълнотекстовите съдържат няколко граматически параграфа и се използват при големи обеми от текст (например при книги всяка глава може да е отделен пълнотекстови параграф). Въпреки, че не е задължително разделянето на параграфи дава възможност за по прецизно търсене. Въпреки, че пълнотекстовите параграфи съсдържат свързан текст възможно е търсенето да се прецизира и за техните подпараграфи.

Стандартните параграфите се състоят от изречения. Изречение е част от параграф започваща с главна буква и завършваща с един от символите . , ! , ? и т.н. Всяко изречение се състои от думи. Дума обикновено съвпада с граматичексата категория за дума. Друго определение е низ от индексируеми символи заграден от неиндексируеми символи. Освен това съществуват и така наречените стоп думи (съюзи прдлози и т.н., които не се индексират). От казаното по-горе личи, че съществуват както индексируеми така и неиндексируеми символи. В зависимост от системата при индексируемите може да се отчита или не капитализацията на буквите.


Уточнения

Основната градивна единица на всяка база данни са документите. Основната индексируема единица в документите е думата. В резултат на някакво търсене като резултат се връща текст. За по прецизно търсене се използват параграфи. Параграфите могат да се задават свойства като например как да се управляват думите с тире, притежателната форма в английския и т.н. Освен това може да се укаже даден параграф да не подлежи на визуализация, което не пречи на неговото индексиране. Изграждането на структурата на базата данни обикновено е грижа на проектантите или администраторите.

Структура на ТБД

Добави своя коментар:



Тагове от реферата: , , , , , ,

Изтегли в DOC | PDF | ZIP