Начало на реферати

Формализацията на българския език и разработката на лингвистичен процесор (морфология


Една от словоформите се приема за основна. В почти всички речници се дава само тази основна форма. Това изискване с оглед икономия на памет стои и при машинните речници. За голяма част от думите обаче, при преминаване от една словоформа към друга се изменя и основата. Трудността се състои в намирането на основната форма на постъпилата от даден текст словоформа, след което вече да се определят морфологичните характеристики на словоформата. Неизменяемите думи са тези, които не могат да менят формата си, т. е. имат само една единствена форма, например: сега, после, утре, ах, и, или, ще и др. Такива са наречията, предлозите, съюзите, междуметията и частиците. В работата е описан метод за автоматичен морфологичен анализ на българското изречение и практическата му реализация.

2.ГРАМАТИЧЕСКИ КАТЕГОРИИ НА ИЗМЕНЯЕМИТЕ ЧАСТИ НА РЕЧТА

Изменяемите части притежават определен брой граматически категории. За съществителните и прилагателните това са род, число, определеност и др. ; за местоименията - род, число, за някои само лице и падежни форми; за числителните - определеност, за някои род, число и мъжколична форма; за глаголите - лице, число, залог, вид, време, наклонение и т. н.

Броят на словоформите за различните части на речта е пряко свързан с граматическите им категории. Словоформите се отличават една от друга поне по едно граматическо значение, т. е. те представят различни граматически категории, въпреки че имат едно и също лексикално значение. Най-многобройни форми има глаголът, защото той притежава най-много граматически категории.

Изменяемостта на словоформите в българския език е отразена в редица граматически правила. Например:

Правило

Пример

промяна на "а" в "и"

жена -жени

метатеза "ръ" в "ър"

връх -върхове

редукция на "е"

силен - силни

добавяне не окончания

град - градове



Класификация на словоизменяемостта в зависимост от тези правила е направена в [5]. Според тези правила съществителните имат 75 различни типа на словоизменение при получаване на различните словоформи, прилагателните - 14, местоименията - 41, числителните - 11 и глаголите - 42. Всяка дума в българския език може да бъде отнесена към един от тези типове (187 на брой), допълнени с още 5 за неизменяемите части - 188 (наречия), 189 (частици), 190 (предлози), 191 (съюзи) и 192 (междуметия).

В системата тези правила са сведени до два основни вида. За всяка основна форма, в зависимост от типа на словоизменение [5] се построява шаблон, който заедно с номера на типа се пази в речника. В този шаблон променливите символи се изобразяват със "*". В следващата таблица се дават примери за образуване на шаблони.

дума

промяна

шаблон

театър

редукция на "ъ"

теат*р

вяра

я -е, а -и

в*р*

аналог

г - з

анало*

вятър

я-е,редукия на "ъ"

в*т*р



Правилата от първия вид (с номера 30 - 48 вкл. , вж табл. 1) заменят * със съответния (включително и празен - 30 правило) символ. Тези от втория вид (1 -29) добавят окончанието.

1 а

8 йо

15 са

22 ьове

29 йте

36 

43 ц

2 е

9 на

16 та

23 ю

30

37 к

44 ч

3 еве

10 не

17 те

24 я

31 а

38 н

45 ш

4 и

11 о

18 то

25 ят

32 г

39 о

46 ъ

5 илища

12 ове

19 ът

26 ко

33 е

40 с

47 ю

6 ища

13 овце

20 ь

27 ете

34 з

41 т

48 я

7 ия

14 вци

21 ьо

28 

35 и

42 х

Таблица 1

Понеже глаголните форми са със специфични окончания, то правилата за добавянето им (36 на брой ) са отделени в локален за обработващата ги процедура масив. От посочените тук правила при тях се използуват само тези за замяна.

За всеки тип словоизменение съществува набор от такива формализирани правила, който позволява от шаблона да се образуват всички словоформи на дадена дума. Шаблоните на неизменяемите части на речта съвпадат със самите думи. Например:за съществителното вятър номер на тип е 4, шаблон в*т*р, а правилата за словообразуване са дадени в следната таблица:


Поредност на

словоформата

1-ва слово-

форма

2 -ра слово-

форма

3-та слово

форма

4-та слово

форма

5-та слово

форма

Граматични характеристики

осн.форма

ед.ч.

кратък чл.

ед.ч.

пълен чл.

ед.ч.

мн.число

мн.число

членувано

Списък правила

48,46

48,46,1

48,46,19

33,30,12

33,30,12,17

За изменяемите части на речта в системата са изградени съответни таблици. Това са двумерни целочислени масиви, в които редовете съответствуват на типовете словоизменения, като съдържат номерата на правилата за замяна или добавяне. За по-голяма компактност на тези масиви някои от правилата, отнасящи се до подобласти от типове на словоизмение (като членуването например) са изнесени извън тях и се прилагат допълнително.

Формализацията на българския език и разработката на лингвистичен процесор (морфология facebook image

Увод във функционалното програмиране 9 out of 10 based on 2 ratings. 2 user reviews.