Христюк Лідія Миколаївна,

учитель української мови Золотоніської

загальноосвітньої санаторної

школи-інтернату І-ІІІ ступенів

ВИКОРИСТАННЯ МОРФЕМНО-СЛОВОТВІРНОГО ФОНДУ У НАВЧАЛЬНІЙ РОБОТІ

Поява комп’ютера і можливість моделювання з його допомогою різноманітних
мовних об’єктів покликала до життя ідею створення комп’ютерних, або
машинних фондів національних мов – сукупність баз даних та знань про
будову та функціонування певної національної мови. Вони мислилися як, з
одного боку, скарбниці відомостей про будову та функціонування мови, а з
другого, — як якісно нове фактичне підґрунтя для вивчення мови та
опрацювання мовної інформації. Перші такі фонди з’явилися за кордоном (у
США, Великобританії, Італії, Франції, Німеччині, Швеції) ще в середині
50-х років минулого століття. Залежно від конкретних завдань, які
ставили перед собою розробники таких комп’ютерних систем опрацювання
мовної інформації, вони будувалися як словнико- або текстозорієнтовані
бази даних про мову.

З 1988 р. колектив дослідників відділу структурно-математичної
лінгвістики, очолений д.ф.н. Н.Ф.Клименко, а також Є.А.Карпіловська,
Л.І.Комарова, Н.В.Сніжко, Л.П.Кислюк поставили перед собою основне
завдання: створити базу даних про морфемну будову сучасного українського
слова на матеріалі найбільш показових і різнотипних за способом опису
лексикону словників сучасної української мови і розробити засоби
автоматизованого укладання морфемних та словотвірних словників,
комп’ютерні моделі аналізу та синтезу слів. У різний час з цим
колективом працювали математики-програмісти В.С.Карпіловський,
Г.В.Колєнов, С.Г.Буригін, М.А.Перельмутер, Т.І.Недозим. За характером
поставленого завдання створюваний комп’ютерний фонд і було названо
морфемно-словотвірним фондом української мови. Наприкінці 1991 р. було
завершено формування бази даних у форматі та обсягах, передбачених
першою чергою реалізації проекту побудови цього фонду. Сам проект і
теоретичне осмислення перших результатів його опрацювання було
висвітлено у низці публікацій його розробників, як колективних, так і
індивідуальних. Від початку реалізації цього проекту паралельно
здійснювалися формування словникозорієнтованої бази даних
морфемно-словотвірного фонду української мови та виконання власне
дослідницьких лінгвістичних завдань. За матеріалами фонду було укладено
комп’ютерні «Словник символьних моделей морфемної будови слова»,
«Словник афіксальних морфем української мови» (виданий у паперовому
вигляді 1998 р.), «Кореневий гніздовий словник української мови»
Є.А.Карпіловської (К., 2002). У версії словника 127 найчисельніших
словотвірних гнізд українських іменників, дієслів, прикметників,
числівників, у складі яких описано понад 16 тис. слів активного складу
сучасною українського лексикону.

База даних морфемно-словотвірного фонду Інституту мовознавства ім.
О.О.Потебні НАН України 7 зон інформації: 1 головна і 6 залежних, які
складають так званий інформаційний кортеж до головної зони із вміщеним у
ній об’єктом опису — словом, поділеним на морфеми . Зони інформаційного
кортежу містять інформацію про наявність слова в реєстрах
словників-джерел формування фонду та про його частиномовну належність.
Як джерела формування бази даних фонду відібрано 5 словників сучасної
української мови з різними аспектами опису слів, що й зумовило різний
спосіб представлення в цих словниках кількісного та якісного складу
сучасного українського лексикону. Це: тлумачний «Словник української
мови» в 11 тт. (К., 1970-1980) (далі — СУМ), 2-томний словник-довідник
І.Т.Яценка «Морфемний аналіз» (К., 1980-1981), 2-томний «Частотний
словник сучасної української художньої прози» (К., 1981), «Словник
іншомовних слів» за ред. О.С.Мельничука (К., 1974) та орфографічна
частина «Словника-довідника з правопису та словоживання» С.І.Головащука
(К., 1989), яка містить багато нових слів, що не потрапили до реєстру
СУМу. Отже, реєстри названих словників доповнювали один одного, а в
результаті дали можливість сформувати певне об’єктивоване й
різноаспектне представлення складу сучасного українського лексикону.

Зведений за матеріалами цих словників реєстр слів сучасної української
мови — стрижень морфемно-словотвірного фонду — налічує 166385 одиниць
(для порівняння — реєстр СУМу містить близько 137 тис. слів,
академічного «Українського орфографічного словника» 2002-го року -понад
143 тис. слів). 2003 р. у видавництві «Перун» (Ірпінь) вийшов друком
«Великий зведений орфографічний словник сучасної української лексики»
(укладачі В.Т.Бусел, М.Д.Василега-Дерибас, О.В.Дмитрієв, Г.В.Латник,
Г.В.Степенко), реєстр якого містить понад 253 тис. слів. Це на сьогодні
вичерпний перелік українських слів, засвідчених словниками та
енциклопедіями, виданими в Україні у другій половині XX і в перші роки
XXI століть.

За правилами синхронного морфемного аналізу у словах виділено мінімальні
значущі одиниці – морфеми – 5-ти класів: корені, префікси, суфікси (до
них залучено і дієслівний постфікс -ся), флексії канонічних форм слів і
в складних словах-композитах – з’єднувальні голосні. Для кожного класу
морфем вироблено спеціальні маркери. Корінь подано у скісних дужках.
Префікси в простому слові позначені знаком & (амперсант), якщо їх більше
одного, то вони один під одного відокремлені знаком +. У складних словах
префікси, розташовані між коренями, позначено символом :. Суфікси в
простому слові містяться між знаками скісної дужки кореня і комою як
показником межі зони слова. Якщо суфіксів більше одного, то вони також
відокремлюються один від одного знаком +. У складних словах між коренями
суфікси позначено символом $. Перед флексіями як у простих, так і в
складних словах ставиться знак *, цей знак без літер після нього
позначає нульову флексію. У слові обов’язково відзначено наголос
(наголоси – у складних словах на зразок думати-гадати). Для унаочнення
йотації, що відбувається на морфемних швах, до запису морфемної будови
слова вводиться літера j. До кожного слова обов’язково подано інформацію
про його частиномовну належність. Крім 10 частин мови, виділених у
традиційній граматиці, спеціальними символами у цій зоні позначено
дієприкметники та дієприслівники як лексико-граматичні розряди слів зі
своєрідними формальними, змістовими та функціональними властивостями.
Символи обрано за першою літерою найменування частини мови; в разі збігу
перших літер найменувань використовувалися двобуквені символи, пор.: І
-іменник, Д – дієслово, П – прикметник, ПС – прислівник, 3 – займенник,
Ч – числівник, ПР – прийменник, ЧК – частка, С – сполучник, В – вигук,
ДП – дієприкметник та ДС – дієприслівник.

?

3позначення самого словника, змістової інформації – наповнення зони, а
саме: для зон Т та X – кількість значень слова, а для зони F – показник
абсолютної частоти вживання слова у півмільйонній текстовій вибірці, на
основі якої було укладено «Частотний словник сучасної української
художньої прози». Ось, наприклад, як виглядає у записах бази даних
морфемно-словотвірного фонду інформація про слова комп’ютер, мова,
український, лінгвістика, студент.

&/комп’ютер*, Т1, G, Х1,І

&/мов/*а, Т6, F129, І

&/україн/ськ*ий, М,Т2, F94, П

&/лінгв/істик*а, М, Т1, Х1, І

&/студ/ент*,Т1, F56,І

Записи дають змогу виявити ступінь вживаності того чи іншого слова,
показником якого може служити наявність такого слова в одному чи більше
словників. З огляду на якість реєстрів словників-джерел бази можна
встановити причину того чи іншого ступеня вживаності лексеми. Наприклад,
якщо слово зустрілося лише в словнику «Морфемний аналіз», словнику
іншомовних слів або в словнику С.І.Головащука, реєстри яких широко
подають різногалузеву термінологічну лексику, то мале поширення його в
загальномовному лексиконі можна пояснити спеціалізованим характером його
семантики. Якщо ж слово трапилося лише в частотному словнику сучасної
української художньої прози, в реєстрі якого чимало
індивідуально-авторських новотворів, розмовної, а то й жаргонної
лексики, то ступінь вживаності таких лексем можна пояснити оказіональним
характером таких одиниць. Наприклад, до лексем з обмеженою сферою
вживання належать такі слова, відзначені лише реєстром «Частотного
словника сучасної української художньої прози»:

&/рад/іс+н+о-/б!л/*ий, F1, П

&/фарт/ов*ий, F1, П

&/філіжаноч/к*а, F1, І

&/рай//гус/ак*, F1, І

або лексеми, відзначені лише реєстром «Словника іншомовних слів»:

&ана/лог/ов*ий, Х1, П

&/гум/ін+ов*ий, Х1, П

Максимальний ступінь вживаності мають слова, засвідчені реєстрами всіх
словників-джерел, пор.:

&/абстракц/іj*а, М, ТЗ, F1, ХЗ, G, І

&/гімназ/ іj *а, М, Т1, F12, Х1, G, І

Зауважимо однак, що цей критерій не завжди дозволяє зарахувати такі
лексеми до ядра сучасного українського лексикону, оскільки принаймні в
художніх прозових текстах вони мають, як бачимо, низьку частоту
вживання. Отже, для з’ясування активності тієї чи іншої лексеми в
сучасній українській мові показник її залучення до словників, різних за
способом формування та опису реєстрів, слід узгоджувати з показниками
частоти її вживання в текстах різних функціональних стилів та різної
тематики.

На основі цієї основної бази даних створено кілька похідних від неї баз,
баз-сателітів, які містять інформацію про морфеми окремих класів у
складі її слів, а також про моделі морфемної будови таких слів. Таких
баз-сателітів 6: 5 — для морфем окремих класів і 1 — для моделей
морфемної будови слів, що становлять організовані сукупності
символів-маркерів класів морфем. Бази даних про морфеми окремих класів
побудовано у вигляді упорядкованих за алфавітом реєстрів конкретних
морфем — коренів, префіксів, суфіксів, флексій та з’єднувальних голосних
з показниками їхньої частоти вживання в словах основної бази. Порядкові
номери морфів у реєстрах баз-сателітів важливі для подальшого
опрацювання морфемної структури слів і для зберігання й перетворення
основної бази даних, оскільки структури реальних слів у разі потреби
можна замінити сукупностями порядкових номерів морфів, що входять до
їхнього складу.

Наприклад, база префіксів, реєстр якої налічує 145 одиниць (морфів у
реальних словах мови), виглядає таким чином:

Порядковий номер Префікс Кількість вживань у словах реєстру31

1. а 198

2. ан 69

3. анти 142

4. архі 19

5. без 1099

6. в 3267

7. ви 4296

8. від 3018

9. віді 74

10. відо 5

Одиницею опису в базі даних про моделі морфемної будови слів є
послідовність символів класів морфем у складі конкретних слів основної
бази. Вони згруповані в реєстрі навколо моделей з мінімальною кількістю
певних символів, а отже, сама ця база подає можливе розгортання певних
ядерних моделей морфемної будови слова. Наприклад, вище з морфемної
сітки простих іменників ми дізналися, як в ній може ускладнюватися —
«розгортатися» вліво та вправо — модель морфемної будови слова R. А ось
як вона може розгортатися в складних словах. Коло кожної такої моделі
подано кількісні показники її реалізації в словах фонду

Порядковий номер Модель Кількість слів

1. R 8823

2. RR 1929

3. RRR 240

4. RRRR 14

5. RRRRR 2

6, RRRRS 1

7. RRRRSRFRRS 1

8. RRRRSF 5

9. RRRRF 1

10. RRRRFRF 2

Усього в цій базі 694 символьні моделі: 51 — для простих і 643 — для
складних слів. Це в стисненому вигляді механізм творення морфемної
будови слів сучасної української мови, а морфемні сітки, або орієнтовані
графи впорядкування таких одиниць становлять моделі такого
словопороджувального механізму мови.

Для роботи користувачів як з основною базою даних, так і з
базами-сателітами створено спеціальний інтерфейс — засоби доступу до них
і отримання з них потрібної інформації. Такий засіб зв’язку між
користувачем і базою даних у морфемно-словотвірному фонді становить
діалогова система «МОРФОЛОГ», яка дозволяє працювати з базою в
інтерактивному режимі, її створили лінгвісти-розробники фонду
(Н.Ф.Клименко та ЄА.Карпіловська) разом з математиками-програ-містами
(С.Г.Буригіним, МАПерельмугером та В.С.Карпіловським). Інтерактивний,
або онлайновий режим, режим опрацювання інформації в масштабі реального
часу на відміну від так званого пакетного режиму уможливлює роботу з
інформацією бази з втручанням користувача в процес її опрацювання або з
можливим візуальним (на дисплеї комп’ютера) контролем ходу виконання
поставленого завдання. Крім того, система «МОРФОЛОГ» дає змогу
користувачеві вибрати той масив інформації, який його цікавить: основну
чи залежні бази, загальну інформацію про склад бази, в основній базі
працювати тільки зі словом без інформаційного кортежу до нього чи із
записом в базі в цілому (слово + його інформаційний кортеж), а також
визначити різновид роботи з базою: виконання дослідницьких завдань,
одержання з бази довідкової інформації чи редагування записів бази
даних. Для роботи з окремим словом чи зі словом та інформаційним
кортежем до нього створено спеціальні засоби переведення запису слова в
морфемах в його орфографічний запис і навпаки. Для цих різновидів роботи
з базою розроблений спеціальний інтерфейс з відповідним меню. Меню
називають певний виведений на екран дисплею список можливих способів
(режимів) роботи з базою даних. У системі «МОРФОЛОГ„ меню має вигляд
дерева впорядкування типів інформації про слово, поданих в основній базі
даних. У свою чергу, кожен з типів інформації, вміщених у такому дереві,
становить окремий спосіб доступу й роботи з базою для одержання з неї
такого роду інформації.

Список використаної літератури

1. Карпіловська Є.А. Вступ до прикладної лінгвістики: комп’ютерна
лінгвістика: Підручник. Є Донецьк: ТОВ «Юго-Восток», Лтд», 2006. – 188
с.

PAGE

PAGE 2

PAGE

PAGE 2

Похожие записи