Физическа организация на ТБД
| Информационни технологии | 2009-12-04 | 183 сваляния |
2
тема 3 - Физическа организация на ТБД
Когато към дадена пълнотекстова система се подаде заявка за търсене, тя се изпълнява сравнително бързо и точно въпреки големината на базата от данни. Това е така, защото самото търсене не се извършва чрез последователно претърсване на всички документи, а в специално генерирани за целта файлове. Те образуват т. нар. инвертирана файлова система.
Главните файлове в тази система са речниковия файл и инвертирания файл. При зареждането на документите в базата от данни става и генерирането на тези 2 файла. То се извършва съобразно спецификациите зададени за базата данни. В речниковия файл се съдържат всички думи които се срещат в заредените документи. За всяка от тези думи в същия файл се съдържат броя на срещанията и в документите, в колко документа се среща, както и указател към инвертирания файл. Този файл е много удобен при търсене от вида *<низ>. В инвертирания файл има поредица от записи . За всяка дума Кi от речника в инвертирания файл се съдържат Mi записа. Където Mi е броя на срещанията на думата в документите. Всеки запис има има следните полета: дума, номер на документ, номер на параграф, номер на изречение. Тази информация се използва за позиционно търсене. Въпреки, че не е задължително присъствието и на 4те кооординати от записа повечето съвременни пълнотекстопви системи ги използват за по лесно търсене.
Когато към базата от данни се добавят нови докумети, речниковия и инвертирания файл се обновявят, като новата информация се записва в края. Това не е удобно за системи в които се практикува често изменение и добавяне на нови документи. За целта може да се работи в два режима системи които се обновяват сравнително радко и измененията са пакетни и такива при които ъпдейта е редовен и на малки порции. При първия режим обикновено при обновяване се променя и самата структура на Базата данни. Това не е съществен недостатък тъй като се базата се обновява рядко. При втория режим се използва малко по различна структура за инвертираната файлова система. Тук имаме двусвързан списък,. Всеки елемент на списъка има указатели сочещи към началото и края на обалст от инвертирания файл която съдържа записи за дадена дума. Освен това всеки възел от двъсвързания списък сочи към предишния и следващия възел на списъка.
Дотук разгледахме основните файлове необходими за функционирането на ТБД. В добавка се използват още няколко файла улесняващи различните видове търсения. Един такъв опционен файл е обратния речников файл. Той съдържа информация както в речниковия, но думите тук са зададени наобратно. Той спомага за лесното търсене на думи отговарящи на шаблони от следния тип : *<низ>. Друг опционен файл е т. нар. текстов файл. той съдържа текстове на изрично указани документи. Освен очевидното удобство и бързината която се постига обче присъствието на думи в опционните файлове води до очевидно излишество на информация. При прекомерно нарастване на инвертирания и текстопвия файл те автоматично се разделят на част. Възможно е и присъствието на текстови индексен файл. За всеки документ от БД той съдържа по един запис с права за достъп и т.н. Още един файл намира място в инвертираната файлова система файл съдържащ описание на формата на БД.
флагове за параграфи:
Биват:
-
флагове влияещи върху търсенето в параграфа
-
флагове влияещи върху извеждането на параграфа
-
флагове задаващи компресията
search/no search индексиране или не на думите от параграфа
ABBREV - параграфа съдържа съкращения и търсенето може да е и по тях
INITIAL определя списъка със съкращения за всеки параграф.
Флагове определящи индексирането на числата. Има следните видове:
123.32 се индексира като 12332.
123.32 се индексира като 123 и 32 два пъти се индексира
123.32 се индексира като 123.
числото се индексира като дума
Тагове от реферата: пълнотекстова, пълнява, ърсене, подаде, сравнитно, организия, големина, Въпреки, система











