Начало на реферати

Формализацията на българския език и разработката на лингвистичен процесор (морфология


left,right:ref

END;

ntab = RECORD {Запис, съдържащ на тип}

n :1..200;

next:tab;

END;

buk = RECORD {Възел на поддърво, за думи}

c : char; {с еднаква машинна основа}

uk: tab;

brat,sled:spi

END;


Следва схематично описание на структурата на възлите:

ш а б л о н

W O R D

неизмен.част изменяема част

k e y m a s k

указател към номер на тип

u t

указател към др. измен. части

u b

балансьор

b a l

указател към ляв наследник

l e f t

указател към десен наследник

r i g h t

Първият символ "*" е винаги след неизменяемата част, затова той се изпуска в записа. За думите с една и съща машинна основа се организира допълнително поддърво към възела, състоящо се от буквите на изменяемите им части.

Например: за вяра, вятър, връх, в; с шаблони съответно:

в*р*, в*т*р, в*р*х,в

към възела с ключ "в" се организира следното поддърво:

ш а б л о н

W O R D

неизмен.част изменяема част

k e y m a s k

указател към номер на тип

u t

указател към др. измен. части

u b

балансьор

b a l

указател към ляв наследник

l e f t

указател към десен наследник

r i g h t

За думи, които имат еднакви изменяеми и неизменяеми части (шаблонни омоними) се изгражда списък към възела, в който се намират. Той се състои от номерата на типовете.Например:

син V съществително, на тип 1

син V прилагателно, на тип 86

ш а б л о н

W O R D

неизмен.част изменяема част

k e y m a s k

указател към номер на тип

u t

указател към др. измен. части

u b

балансьор

b a l

указател към ляв наследник

l e f t

указател към десен наследник

r i g h t

Структурата на дървото позволява актуализация, като основната операция е добавяне на нова, непозната до момента дума. По номера на типа на словоизменение се генерира автоматично шаблон и се вмъква в дървото.

4.ОСНОВНИ РЕЗУЛТАТИ

Системата работи в реално време, като анализира средно по 720 словоформи в минута. Определят се граматическите категории на всяка дума, чийто шаблон се намира в речника. Резултатите могат да се извеждат на различни изходни устройства (диск, монитор, принтер). Речникът се състои от 8536 основни форми, като 5002 са съществителни, 1703 - прилагателни, 99 - местоимения, 66 - числителни, 1421 - глаголи, 121 - наречия, 10 - частици, 23 - съюзи, 46 - предлози и 15 междуметия. За създаването му е използуван [9]. Средно от една основна форма се пораждат 10 словоформи. По такъв начин общият брой думи на които може да се направи разбор е около 85 000.

5.ПЕРСПЕКТИВИ ЗА РАЗВИТИЕ И ИЗПОЛЗУВАНЕ НА СИСТЕМАТА

Основна цел на системата е поставянето на основите за изграждане на лингвистичен процесор. Структурите от данни и резултатите от автоматичния морфологичен анализ ще залегнат в основата на морфологичен анализ на непознати (несъществуващи в речника) думи. По такъв начин в речника на системата могат да се съхраняват само характерни за дадена предметна област думи плюс някои особени, а граматическите категории на останалите ще се определят с използуване на "приближен" морфологичен анализ.

Системата може да се използува още и за:

- проверка на правописа;

Формализацията на българския език и разработката на лингвистичен процесор (морфология facebook image

Увод във функционалното програмиране 9 out of 10 based on 2 ratings. 2 user reviews.