Лінгвістичні інформаційні системи (реферат)

Реферат

на тему:

Лінгвістичні інформаційні системи

Не зупиняючись на відмінностях в інтерпретації поняття “лінгвістичне
забезпечення” в сучасній проектній документації та класичній
інформатиці, розглянемо його розробку для інформаційних, зокрема
бібліотечних систем, як одну з прикладних задач комунікативної
лінгвістики. При цьому процес роботи користувача із системою в режимі
діалогу будемо інтерпретувати як вигляд мовного спілкування між двома
комунікантами.

При дослідженні діалогу між двома комунікантами виділяються такі його
аспекти, як комунікативна установка (інтенція, намір) розмовляючого,
пресупозиціональна вимога спілкування, тобто “загальний фон знань” (база
знань) користувача і системи, актуальне розчленовування тексту (тобто
співвідношення нового і старого, відомого в структурі його смислового
змісту), а також способи знакового вираження значення, що передається,
які в сукупності з “фоном знань” забезпечують адекватну передачу
інформації, тобто узгодження передаючої та приймаючої частин системи
комунікації. Справа в тому, що передаючому (розмовляючому) доводиться
моделювати в своїй свідомості того, що приймає (адресата, що розуміє),
настроюватися на свого співрозмовника, точніше – на його систему знань,
способи вираження значення, комунікативну установку.

При розробці інформаційних систем створюються спеціальні засоби
лінгвістичного забезпечення (ЛЗ) банків даних, які за можливістю
оптимальним чином формують умови для необхідного “розуміння” в
комунікативній системі “людина – машина” та успішного вирішення
інформаційно-пошукових задач. Засоби формування цих умов – формати
представлення елементів машиночитаємих записів, інформаційно-пошукові
мови (ІПМ) для тематичного або фактографічного пошуку і структура
діалогу.

Якщо не звертати увагу на який-небудь аспект мовної комунікації
користувача і системи, можуть виникати ситуації, коли відмінності в
моделюванні ситуації спілкування, нерідко виникаючи і в розмові двох
співрозмовників-людей, призведуть до істотних втрат інформації, до шуму
при пошуку або іншого несприятливого результату.

Причина звертання в бібліотеку і, зокрема, до електронного каталогу (ЕК)
– загальна комунікативна установка читача отримати документи (видання,
рукописи), що володіють відомими йому характеристиками: належать певному
автору, мають конкретні заголовки, опубліковані даним видавництвом,
відповідають певній темі, трактують даний предмет і т.д., або відомості
про наявність (місцезнаходження) таких документів.

“Установка” АІБС ЕК як комуніканта може бути лише одна – надати
користувачеві максимально сприятливі умови для пошуку і забезпечити
пошук необхідної інформації за довільним поєднанням пошукових ознак.
Можливі “наміри” читачів розглядаються в ЕК як пошукові задачі.
Розробник ЛЗ має в структурі ЛЗ передбачити засоби ідентифікації
відповідних пошукових ознак і методи їх виявлення у записах бази даних.
Природно, це виливається у розробку передмашинних форматів представлення
елементів запису (наприклад, бібліографічних або
авторитетних/нормативних) і засобів відображення смислового змісту
документів.

Приступаючи до діалогу з ЕК, читач передбачає (можливо, несвідомо,
аналогічно із зверненням до людини), як передумову, наявність в
електронному каталозі деяких необхідних “знань” енциклопедичного
характеру, зокрема, про ієрархічні або асоціативні зв’язки між
поняттями. Крім того, читач може вимагати від ЕК “розуміння”
(ідентифікації), що таке “автор”, “рік видання” або “тема”, інакше
можуть виникнути непорозуміння, не кажучи вже про значне збільшення часу
пошуку за кожною характеристикою шляхом суцільного перегляду машиною
бібліографічних записів (БЗ) у базі даних ЕК.

Розумно вважати, що, насамперед, ЕК має пристосуватися до читача,
відповідно до своєї “установки”, і меншою мірою – читач до каталогу. У
зв’язку з цим розробник забезпечує пресупозиціональні умови (попередню
домовленість, попередні умови) комунікації, у цьому випадку – загальний
фон знань комунікантів.

Знання бібліографічного характеру, як це прийнято в більшості систем,
задаються машині у вигляді згаданого передмашинного формату. Так звані
“енциклопедичні” знання про структуру предметних сфер фіксуються в
спеціальній базі даних ЕК, умовно званій “базою знань”, що має вигляд
словника-тезауруса або класифікації.

Як правило, в бібліотеках використовуються також такі допоміжні
картотеки, або довідники, як “Картотека різночитань іноземних прізвищ”,
“Найменування організацій” (перейменування організацій, варіанти
найменувань, абревіатури) і т.п. Їх введення до електронного каталогу у
формі нормативних записів означає формування цілої низки довідкових баз
даних як додаткової пресупозиціональної умови успішного спілкування
читача з ЕК. Дійсно, фіксація допустимих способів вираження одного і
того самого поняття дає читачеві та ЕК шляхом звертання того або іншого
з них до довідкових баз даних забезпечити однозначність вираження і
сприйняття значення в діалозі. Таку ж саму роль узгодження лексики
спілкування із системою виконують переліки допустимих значень окремих
елементів БЗ. Слушні приклади – переліки кодів назв країн, видів носіїв,
кодів мов і т.д. Тут необхідність взаємодії бібліотек є безперечною.

Щодо підготовки форматів, співпраця бібліотек в Україні і між
бібліотеками різних країн є досить розвиненою. Прикладами можуть служити
міжнародні конференції та семінари з форматів UNIMARC і USMARC, робочі
групи з підготовки комунікативних форматів для бібліографічних і
нормативних (авторитетних) записів на основі UNIMARC-форматів для
відповідних записів.

Зараз, відповідно до спеціальної угоди, РДБ України (Республіканська
державна бібліотека) бере участь у спільних дослідженнях з фахівцями
Бібліотеки Конгресу США, Національної бібліотеки Канади і Британської
бібліотеки, спрямованих на зближення форматів з метою створення єдиного
формату представлення елементів бібліографічних записів для вказаних
бібліотек.

Що стосується забезпечення “взаєморозуміння” між читачем і ЕК на основі
“баз знань”, то, наприклад, РДБ пропонує використати формалізовану і
модернізовану Бібліотечно-бібліографічну класифікацію (ББК) у
машиночитаємому вигляді з предметним входом до неї.

Користувач ЕК уводить гіпотетичний набір понять, висловлених звичайною
мовою як пошуковий аргумент. Програмне забезпечення демонструє при
виведенні на екран варіанти найменувань ділень класифікації, пов’язаних
з цими словами, і показує семантичні відносини між найменуваннями. Потім
користувач вибирає потрібну тему (предмет), і система показує на екрані
бібліографічні записи. При цьому індекси він може не використовувати.

Цю відповідність між предметами (поняттями, термінами) і найменуваннями
ми називаємо “предметним входом, або доступом” в ЕК або класифікації.
Предметний доступ може служити засобом з’єднання лексичних одиниць
різних природних мов з діленнями різних класифікацій і дескрипторів
різних тезаурусів. Користувач зможе побачити найменування ділень з
різних класифікацій, пов’язаних з пошуковим аргументом.

Як проект майбутнього, можна уявити собі банк даних, що утримує
багатомовний словник слів і словосполучень, які пов’язані з
нормативними/авторитетними записами для різних класифікацій і
тезаурусів. Використання такого масиву даних корисне при пошуку в чужих
базах даних. Бібліотеки не залежатимуть при цьому від відмінностей у
мові, типів класифікації власного ЕК і придбаної бази даних або бази
даних на чужому комп’ютері. Такий проект може сприяти організації
тематичного пошуку в Internet.

Невеликим експериментом у даному напрямі можна вважати випуск у 1995 р.
декількома організаціями загального CD-ROM “Класифікаційні системи”.
Програмне забезпечення, що використовується на цьому диску, дозволяє
здійснювати пошук за словом одразу в різних класифікаціях і
класифікаторах, отримуючи на екрані список відібраних ділень (рубрик).

Багато бібліотек у наш час вирішили використати в своїх автоматизованих
системах тезауруси, але при цьому відчувається, що ними майже не
використовується колишній досвід у цій сфері, накопичений при створенні
інформаційно-пошукових систем.

Перші пропозиції про використання тезаурусів в інформаційно-пошукових
системах з’явилися в 1957 р., а перші тезауруси для підвищення якості
пошукових процесів створювалися на початку 60-х рр. У 60-70-ті рр.
повністю розроблено теорію інформаційно-пошукових тезаурусів,
опубліковано десятки, якщо не сотні, робіт зарубіжних і вітчизняних
авторів. У публікаціях пропонуються методичні принципи збору і
лексикографічної обробки ключових слів (КС), принципи встановлення
семантичних відносин між ними, описується стандартна структура
тезауруса.

Ми розглядаємо метод побудови тезаурусів за категоріальним принципом.
Він заснований на концептуальній моделі системи знань і використовувався
в ряді ІПС.

Мова представлення знань розглядається в структурі людської діяльності,
а формалізація семантики складається у вичлененні та формалізованому
представленні деяких компонентів діяльності. Спосіб моделювання знань
базується на гіпотезі про організацію знань у людській свідомості при
пошуку інформації в масиві текстів.

Кожна сфера діяльності людини (галузь науки, техніки, господарства)
виділяється з низки інших або за об’єктом діяльності, або за специфікою
процесів, що складають дану діяльність, або за засобами здійснення
деякого класу процесів. Коротке визначення сфери діяльності можна дати,
як правило, за допомогою пари вигляду ,
або трійки ,
, в яких один з елементів виступає як
ведучий.

У результаті виділяються наступні семантичні категорії елементів:
процеси доцільної діяльності, або просто “процеси”; об’єкти діяльності
та її засоби, тобто “предмети” як деякі матеріальні або ідеальні
сутності (речі, особи, теорії, конструкти і т.д.); елементи, що
характеризують “процеси” або “предмети” або що є наслідком їх
здійснення, існування, появи (“супутні процеси, явища, стани)”,
“негативні явища”, “характеристики” і “умови”.

Подальший розподіл за більш вузькими категоріями виливається у процес
побудови ієрархічних дерев відносно до “роду-вигляду”.

При цьому в одні й ті самі точки гілок цих дерев попадають ключові слова
(КС), семантично умовно еквівалентні в даній сфері знання з погляду
інтересів інформаційного пошуку. Вони утворять дескриптори.

Вважаємо, що використання КС і тезаурусів доцільно лише у спеціальних
бібліотеках, з каталогами з досить обмеженої тематики. В універсальних
бібліотеках це веде або до невиправданих витрат на непомірно трудомісткі
розробки, або за їх відсутність – до дуже великих, спочатку непомітних,
але незворотних втрат інформації при пошуку.

Аналогічно з теорією актуального розчленовування тексту в лінгвістиці,
можна вважати, що, видаючи на екран меню і маски як повідомлення (реми),
ЕК задає теми текстів – відповідей користувача. Тексти-відповіді
виходять шляхом введення користувачем реми для запропонованої теми у
вигляді тексту при заповненні екранних масок або номерів вибраних рядків
меню.

Слід зауважити, що екранні тексти, які розробляються для ЕК, виявляються
тим більше працездатними, чим, по-перше, повніше і точніше виражають
майбутню тему тексту читача і, по-друге, чим менших знакових засобів
вираження реми вимагають для формування повноцінного тексту-відповіді
читача. Очевидно, що в людино-машинній системі мовної комунікації
однозначно зрозуміла тема (про що говориться на даному кроку діалогу) і
максимально обмежені способи вираження реми стають однією із застав
успіху роботи ЕК при пошуку. ЕК як би веде діалог за системою “підказка
читачеві”. Маска, меню, HELP і уточнення способів вираження по
довідкових базах даних і являють собою не що інше, як чотири типи
підказки. Саме в цьому і полягає значення вдосконалення структури
діалогів в інформаційних системах.

Нашли опечатку? Выделите и нажмите CTRL+Enter