РЕФЕРАТ

на тему:

Сховище даних та основи їх створення

Під сховищем даних розуміють особливу базу даних, котра призначеня для
зберігання в погодженому вигляді історичної інформації, що надходить з
різних оперативних систем та зовнішніх джерел. В основі концепції
сховища даних лежить розподіл інформації, що використовують в системах
оперативної обробки даних (ОLTP) і в системах підтримки прийняття
рішень.

Основними характеристиками сховищ даних є наступні:

Предметна орієнтація. Дані в сховищі зорієнтовані на бізнес-поняття, а
не на бізнес-події.

Інтегрованість. Перш ніж потрапити до сховища даних оперативні дані
перевіряють, очищують та певним чином агрегують.

Підтримка хронології. Дані в сховищі даних накопичуються у вигляді
історичних пластів.

Незмінність. Дані у сховищі даних, на відміну від даних в базі даних, не
підлягають ніяким змінам.

Мінімальна надлишковість. Не дивлячись на те, що інформація до сховища
даних потрапляє від багатьох OLTP-систем, надлишковість інформації в
сховищі даних зведена до мінімуму.

Ключовим компонентом побудови та використання сховищ даних є
OLAP-технологія (On-Line Analytical Processing), що заснована на
багатовимірному аналізі даних.

Наведемо основні вимоги до сховища даних.

Адекватність відображення логіки предметного середовища у відповідні
моделі даних.

Оптимальна надмірність даних. БД повинна являти собою єдину сукупність
інтегрованих даних.

В системах, що не використовують бази даних, кожне застосування має свої
файли. Наприклад, застосування, пов’язане з обліком персоналу, і
застосування, пов’язане з обліком навчання персоналу можуть мати свої
власні файли з інформацією о персоналі. Це призводить до надмірності
даних, що зберігаються. Наслідком надмірності даних може бути
суперечність даних, наприклад, коли два записи про одного і того ж
співробітника не погоджуються одна з одною.

Наявність ефективних засобів ведення баз даних ( засоби створення,
накопичення, модифікації, видалення та пошуку даних ).

Засоби створення даних — це засоби завантаження даних з зовнішнього,
орієнтованого на користувача, уявлення у системне.

Цілісність даних ( наприклад, забезпечення вимоги унікальності усіх
записів БД ) та їх узгодженість при виконанні користувачами операцій над
ними. Керування одночасними модифікаціями.

Задача цілісності полягає в забезпеченні правильності і точності даних в
базі даних. Протиріччя між двома записами, що зображують один і той
самий факт — є прикладом недостачі цілісності. У більшості продуктів баз
даних підтримка контролю цілісності розвинена слабо.

Безпека даних — захист від несанкціонованого доступу до даних та від
руйнування БД з наміром або без наміру.

Централізована природа системи баз даних вимагає наявності хорошої
системи безпеки. Доступ до даних дозволяється лиш тим користувачам, що
мають на те право.

Можливість реструктуризації БД — наявність засобів змінювання структури
даних при змінюванні запитів до БД.

Наявність повних, зручних та простих у вивченні мовних засобів
визначення та маніпулювання даними.

Такими засобами є мова визначення даних та мова маніпулювання даними.
Автономну мову даних, тобто мову, що не включена в універсальну мову,
називають також мовою запитів.

Наявність документації.

Простота вивчення.

Взаємна незалежність програм та даних.

БД повинна зберігати працездатність при розвитку програмного та
апаратного забезпечення. Зміна фізичної організації даних або параметрів
запам’ятовуючих пристроїв не впливають на користувача, або, точніше, на
прикладну програму. Зміна уявлення користувача не потребує затрат на
реорганізацію та зміну механізму доступу до файлів фізичних даних.
Незалежність даних забезпечує можливість функціонування системи при
змінах з обох сторін ( тобто зі сторони користувача та фізичних даних )
і є найбільш важливою властивістю і основною метою БД. Вона впливає на
наявність інших властивостей, таких як, надмірність даних, можливість
забезпечення захисту та цілісності та ін.

Незалежність даних можна визначити як імунітет програм до змін в
структурах зберігання даних і в методах доступу до даних. Наприклад,
деяке застосування обробляє файл з інформацією о співробітниках і цей
файл проіндексований по деякому полю. Якщо програма враховує, що
послідовність записів у файлі визначена даним індексом, то неможливо
замінити індексований файл на хешований без внесення суттєвих змін у
програму.

Дані в OLAP-моделі подаються як показники (measures), кожен з яких
визначений на деякій множині вимірів (dimensions). В задачі “Аналіз
кредитного портфеля банку” можна виділити такі показники як “Кредитна
сума”, “Залишки заборгованості”. Вимірами цих показників будуть: “Тип
клієнту”, “Звітна дата”, “Вид кредиту”, “Валюта”, “Категорія ризику” та
інші. При відомих значеннях всіх вимірів ми можемо отримати результатні
дані показника, що нас цікавить. Виміри утворюють деякий віртуальний
простір, в якому зберігаються показники – гіперкуб. Користувач із
даними, що подані в багатовимірному вигляді може робити ряд
OLAP-операцій: піднімання (консолідація по деяким напрямкам), спуск
(деталізація по деякому напряму), поворот (зміни напряму сортування),
відбір і проекція даних в будь-який вимір.

Для аналізу кредитного портфеля можна застосовувати наступні архітектури
OLAP-систем: MOLAP (Multidimentional OLAP), засновані багатовимірних
СУБД (БСУБД), ROLAP (Relation OLAP), в основі яких лежать класичні
реляційні бази даних, HOLAP (Hybrid OLAP) – гібридні системи, DOLAP
(Desk OLAP) – настольні однокористувацькі системи.

Елементи автоматичної обробки і аналізу даних, що називають Data Mining
(знаходження знань) стають невід’ємною частиною концепції інформаційних
сховищ даних (data warehouse) та організації інтелектуальних обчислень.
Сховище даних — це предметно-орієнтований, інтегрований, прив’язаний до
часу, незмінний набір даних для підтримки процесу прийняття рішень.
Простий доступ користувача до сховища даних забезпечує тільки отримання
відповідей на питання, що були задані, в той час як технологія data
mining дозволяє побачити («знайти») приховані правила і закономірності у
наборах даних, які користувач не може передбачити, і застосування яких
може сприяти виявленню більш ефективного результату.

Інформація в сховищі об’єднується в цілісну структуру по різних рівнях
деталізування, що забезпечує необхідні користувачам міри узагальнення
даних. У цій концепції центральне місце займають метадані — дані про
дані. Управління метаданими забезпечує автоматизацію процесу збору і
обробки інформації. При цьому в сховищі також вміщуються результати
перетворення даних, їх сумаризації і верифікації.

Чим більше аналітик може «грати» з даними, будувати моделі, оцінювати
результати, тим краще може бути результат. Робота з даними стає більш
ефективною, коли можлива інтеграція наступних компонентів: візуалізація,
графічний інструментарій, засоби формування запитів, оперативна
аналітична обробка, що дозволяють зрозуміти дані й інтерпретувати
результати, і, нарешті, самі алгоритми, що будують моделі.

З основних видів моделей, що використовуються для виявлення й аналізу
знань на основі даних інформаційного сховища, можна виділити принаймні
шість методів:

класифікація (виявлення ознак, що характеризують групу, до якої належить
той чи інший об’єкт, за допомогою аналізу вже класифікованих об’єктів і
формулювання деякого набору правил);

кластеризація (виділення різних однорідних груп даних, відрізняється від
класифікації тим, що самі групи заздалегідь не задані);

регресія (кількісне вираження відношення між змінними у виді деякої
комбінації цих змінних, яке використовується для передбачення значення,
що може приймати цільова змінна, яка обчислюється на заданому наборі
значень вхідних змінних);

прогнозування часових послідовностей (побудова математичної моделі за
«історичною» інформацією, що зберігається в інформаційних сховищах у
вигляді часових рядів);

асоціація (має місце в тому випадку, якщо кілька подій зв’язані між
собою);

послідовність (має місце, коли існує ланцюжок зв’язаних у часі подій).

Перші три використовуються, головним чином, для передбачення, у той час
як останні зручні для опису існуючих закономірностей в даних.

Зараз відбувається стрімкий зріст числа програмних продуктів, що
використовують нові технології з організацією інтелектуальних обчислень,
а також типів задач, застосування яких надає значного ефекту. Одним з
них є пакет прикладних програм IDAMS, призначений для валідації,
маніпулювання і статистичного аналізу даних. IDAMS виробляється та
вільно поширюється UNESCO. Він включає в себе інструменти маніпулювання
й аналізу даних, що є доступними через інтерфейс користувача та командну
мову. Однією з особливостей IDAMS є проведення вичерпної валідації даних
(перевірки їх коректності та логічності) перед проведенням аналізу.

IDAMS дозволяє підраховувати базові статистичні параметри вибірки —
середні, частотні характеристики, кореляції та ін. Основний набір
статистичних процедур включає також декілька важливих видів аналізу,
таких як кластерний (підтримується шість алгоритмів), дискримінантний,
факторний (метод головних компонент і аналіз відповідностей),
регресійний та дисперсійний.

Декілька процедур IDAMS дозволяють побудувати різноманітні узагальнення
регресійної моделі, призначених для виявлення внутрішніх
взаємозалежностей і зв’язків у структурі даних. Це множинний
класифікаційний аналіз та деякі інші тести із множини прогнозування та
класифікації.

Крім тестів, що виконуються за допомогою командного синтаксису, частину
важливих процедур можна підраховувати інтерактивно з використанням
зручних діалогових вікон WinIDAMS. Таких типів аналізу три:
багатовимірні таблиці, інтерактивне графічне дослідження та блок аналізу
часових рядів.

Для того щоб знайти нове знання на основі даних великого сховища
недостатньо просто взяти алгоритми Data Mining, запустити їх і чекати
появи цікавих результатів. Знаходження нового знання — це процес, що
містить у собі кілька кроків, кожний з яких необхідний для ефективного
застосування засобів інтелектуальних обчислень:

визначення проблеми (постановка задачі, визначення мети майбутнього
аналізу);

збір та підготовка даних (оцінка даних, об’єднання й очищення, відбір й
перетворення даних);

побудова моделі (оцінка й інтерпретація, зовнішня перевірка);

використання моделі;

спостереження за моделлю.

Однією з найбільш перспективних сфер застосування вищезгаданих
алгоритмів є електронні бібліотеки, що містять великі обсяги даних і
відповідають концепціям інформаційних сховищ даних:

предметна орієнтація (дані об’єднані в категорії);

інтегрованість (наявність єдиної централізованої сукупності даних);

прив’язка до часу (сховище можна розглядати як сукупність «історичних»
даних);

незмінність (дані у сховище лише долучаються).

Використана література:

1. Информатика для юристов и экономистов/ Симонович С.В. и др. — СПб:
Питер, 2001. -688 с.

2. Фигурнов В.Э. IBM PC для пользователя. Краткий курс. Изд. 7-е. М.:
ИНФРА-М, 1997, 432 с.

3. Бородич Ю.С. и др. Паскаль для персональных компьютеров: Справ.
Пособие.-Мн.:высш. шк.: БФ ГИТМП «Ника», 1991.-365 с.

4. М.І. Жалдак, Ю.С.Рамський. Інформатика. Київ, «Вища школа», 1991.

5. Ю. Шафрин. Информатика. Информационные технологии: в 2 ч. М.:
Лаборатория Базовых Знаний, 2001.

6. Куперштейн. В. Современные информационные технологии в производстве и
управлении.-СПб.:БХВ, 2000.-304 с.

Похожие записи