Полезно за вас: Речник | Игри | Новини | Фирми | Рецепти | Обяви
Начало на реферати

Физическа организация на ТБД


Информационни технологии | 2009-12-04 | 183 сваляния

2


тема 3 - Физическа организация на ТБД


Когато към дадена пълнотекстова система се подаде заявка за търсене, тя се изпълнява сравнително бързо и точно въпреки големината на базата от данни. Това е така, защото самото търсене не се извършва чрез последователно претърсване на всички документи, а в специално генерирани за целта файлове. Те образуват т. нар. инвертирана файлова система.

Главните файлове в тази система са речниковия файл и инвертирания файл. При зареждането на документите в базата от данни става и генерирането на тези 2 файла. То се извършва съобразно спецификациите зададени за базата данни. В речниковия файл се съдържат всички думи които се срещат в заредените документи. За всяка от тези думи в същия файл се съдържат броя на срещанията и в документите, в колко документа се среща, както и указател към инвертирания файл. Този файл е много удобен при търсене от вида *<низ>. В инвертирания файл има поредица от записи . За всяка дума Кi от речника в инвертирания файл се съдържат Mi записа. Където Mi е броя на срещанията на думата в документите. Всеки запис има има следните полета: дума, номер на документ, номер на параграф, номер на изречение. Тази информация се използва за позиционно търсене. Въпреки, че не е задължително присъствието и на 4те кооординати от записа повечето съвременни пълнотекстопви системи ги използват за по лесно търсене.

Когато към базата от данни се добавят нови докумети, речниковия и инвертирания файл се обновявят, като новата информация се записва в края. Това не е удобно за системи в които се практикува често изменение и добавяне на нови документи. За целта може да се работи в два режима системи които се обновяват сравнително радко и измененията са пакетни и такива при които ъпдейта е редовен и на малки порции. При първия режим обикновено при обновяване се променя и самата структура на Базата данни. Това не е съществен недостатък тъй като се базата се обновява рядко. При втория режим се използва малко по различна структура за инвертираната файлова система. Тук имаме двусвързан списък,. Всеки елемент на списъка има указатели сочещи към началото и края на обалст от инвертирания файл която съдържа записи за дадена дума. Освен това всеки възел от двъсвързания списък сочи към предишния и следващия възел на списъка.

Дотук разгледахме основните файлове необходими за функционирането на ТБД. В добавка се използват още няколко файла улесняващи различните видове търсения. Един такъв опционен файл е обратния речников файл. Той съдържа информация както в речниковия, но думите тук са зададени наобратно. Той спомага за лесното търсене на думи отговарящи на шаблони от следния тип : *<низ>. Друг опционен файл е т. нар. текстов файл. той съдържа текстове на изрично указани документи. Освен очевидното удобство и бързината която се постига обче присъствието на думи в опционните файлове води до очевидно излишество на информация. При прекомерно нарастване на инвертирания и текстопвия файл те автоматично се разделят на част. Възможно е и присъствието на текстови индексен файл. За всеки документ от БД той съдържа по един запис с права за достъп и т.н. Още един файл намира място в инвертираната файлова система файл съдържащ описание на формата на БД.


флагове за параграфи:

Биват:

  • флагове влияещи върху търсенето в параграфа

  • флагове влияещи върху извеждането на параграфа

  • флагове задаващи компресията


search/no search индексиране или не на думите от параграфа

ABBREV - параграфа съдържа съкращения и търсенето може да е и по тях

INITIAL определя списъка със съкращения за всеки параграф.

Флагове определящи индексирането на числата. Има следните видове:

123.32 се индексира като 12332.

123.32 се индексира като 123 и 32 два пъти се индексира

123.32 се индексира като 123.

числото се индексира като дума

Физическа организация на ТБД

Добави своя коментар:



Тагове от реферата: , , , , , , , ,


Подобни материали


Линукс. Клиенти под Linux Информационни технологии | 2009-12-04 | 56 прочитания
Линукс. Можем ли да се доверим на LINUX Информационни технологии | 2009-12-04 | 67 прочитания
Пищов тема 6 - Управление на процесора Информационни технологии | 2009-12-04 | 161 прочитания
Реферат - _Tornado_, Европейският смерч Информационни технологии | 2009-12-04 | 64 прочитания
Протокол 1 - Изследване на линейна ел.верига при синусоидален режим Информационни технологии | 2009-12-04 | 306 прочитания
Език за програмиране Информационни технологии | 2009-12-04 | 93 прочитания
Семантика на програмните езици. Минимални неподвижни точки. Теорема на Кнастер-Тарски Информационни технологии | 2009-12-04 | 96 прочитания
Лекция 6 - Цена на труда Информационни технологии | 2009-12-04 | 63 прочитания
Използване на заявки с параметър Информационни технологии | 2009-12-04 | 166 прочитания
Методология за изграждане на обощени мрежи Информационни технологии | 2009-12-04 | 47 прочитания