Лабораторна робота

на тему:

“Кореляційний аналіз в системі міжнародних відносин”

1. Мета роботи

Ознайомитись з базовими поняттями кореляції випадкових величин.
Оволодіти навичками кореляційного аналізу та дослідження залежностей
кореляції від вибору шкали вимірювання.

2. Порядок виконання роботи

1. Попереднє опрацювання теоретичного матеріалу.

2. Отримання допуску до виконання лабораторної роботи.

3. Опрацювання типового навчального завдання.

4. Виконання індивідуального завдання.

5. Оформлення звіту.

6. Захист роботи.

3. Короткі теоретичні відомості

3.1. Кореляційний аналіз

Кореляційний аналіз — сукупність методів виявлення кореляційної
залежності між випадковими величинами чи ознаками.

Для числової оцінки можливого зв’язку між двома випадковими величинами:
Y(із математичним очікуванням My і середньоквадратичним відхиленням
Sy) та X (із математичним очікуванням Mx і середньоквадратичним
відхиленням Sx) використовується коефіцієнт кореляції:

де n — кількість спостережень,

, що ґрунтується на використанні змішаного моменту між випадковими
величинами Х та У.

Цей коефіцієнт може приймати значення від -1 до +1 — у залежності від
тісноти зв’язку між даними випадковими величинами.

Основні властивості коефіцієнта кореляції :

Числове значення коефіцієнта кореляції знаходиться в межах -1(Rxy(1.

Залежність між X і Y тим сильніша, чим (Rxy( ближче до 1.

Якщо Rxy(1, тоді зі зростанням X у середньому зростає і Y.

Якщо Rxy(1, тоді при зростанні X величина Y у середньому зменшується.

При Rxy=1 спостерігається лінійний зв’язок між X і Y (саме тому часто
говорять про лінійну кореляцію).

При Rxy=0, величини X і Y називають некорельованими ї їх можна вважати
випадковими та незалежними.

Значення коефіцієнта парної кореляції вказує на близькість залежностей
властивостей X і Y до функціональної та про ступінь інтенсивності їх
зв’язку. Слабка кореляція, тобто слаба «чутливість» однієї властивості
до змін іншої через її «недостатню реакцію» (тільки в середньому),
зумовлює слабку «керованість» однієї властивості шляхом зміни іншої.

В системному аналізі доводиться вирішувати питання і про зв’язок
декількох (більше за двох) випадкових величин, тобто питання про
множинну кореляцію.

Нехай X, Y і Z — випадкові величини, за результатами спостереженнями над
який встановлено їх математичні очікування Mx, My, Mz і
середньоквадратичні відхилення Sx, Sy, Sz.

Тоді можна знайти парні коефіцієнти кореляції Rxy, Rxz, Ryz по
приведеній вище формулі. Але цього явно недостатньо — адже для кожного
із трьох коефіцієнтів відсутні відомості про вплив третьої випадкової
величини.

Якщо змінна X корелює зі змінною Y, після обліку впливу всіх інших
незалежних змінних, таку кореляцію іноді називають приватною кореляцією.

Якщо одна величина корелюється з іншою, то це може бути відображенням
того факту, що вони обидві корелюються з третьою величиною чи із
сукупністю величин.

У випадках множинного кореляційного аналізу розраховуються приватні
коефіцієнти кореляції — наприклад, оцінка впливу Z на зв’язок між X і
Y:

Коефіцієнти множинної кореляції Rx.yz, Ry.zx, Rz.xy визначають який
зв’язок між даною випадковою величиною і сукупністю інших, формули для
обчислення яких побудовані по тим же принципам — обліку зв’язку однієї
з величин із всіма іншими в сукупності.

3.2. Шкалювання випадкових величин

Прийнято використовувати чотири види шкал:

Nom. номінальна шкала — застосовується до тих величин, що не мають
природної одиниці виміру. Якщо деяка величина може приймати на
номінальній шкалі значення X, Y чи Z, то справедливими вважаються тільки
вираження типу: (X(Y), (X=Z).

Ord. порядкова (рангова) шкала — застосовується до тих величин, що не
мають природних одиниць виміру, але дозволяють застосовувати поняття
переваги одного значення над іншим. Іноді говорять про ранги значень
таких величин. Якщо деяка величина може приймати на порядковій шкалі
значення X, Y чи Z, то справедливими вважаються тільки вираження типу:
(X(Y), (X=Z), (X(Y), (Y(Z), (Z(X), (Z(Y).

Кількісні шкали: Int. інтервальна шкала; Rel. відносна шкала.

Ці дві шкали застосовується до тих величин, що мають натуральні
розмірності. Для таких величин припустимі всі арифметичні дії. Якщо
деяка величина може приймати на кількісній шкалі значення X, Y чи Z, то
справедливими вважаються вираження типу: (X(Y), (X=Z), (X(Y), (Y(Z),
(Z(X), (Z(Y), (X(Y), (Z(X), (Y(Z), (Z(X).

Різниця між інтервальною та відносною шкалою:

Схематично інтервальна шкала виглядає: 0_______________(,

а відносна: (_______________0_______________(,

тобто інтервальна шкала не має від’ємних значень, а 0 (нуль) на
інтервальній шкалі означає відсутність значення.

Оскільки в аналітичному досліджені можуть бути використані різні типи
шкал (номінальна, рангова, інтервальна, відносна) то виникає питання про
особливості обрахування коефіцієнту кореляції при використанні даних, що
виміряні за різними шкалами.

3.3. Обидві змінні обмірювані за номінальною шкалою

Для таких величин коефіцієнт кореляції можна обчислити за формулою:

, де

px — частка об’єктів, що мають одиницю по X ;

qx — частка об’єктів, що мають нуль по X;

py — частка об’єктів, що мають одиницю по Y;

qy — частка об’єктів, що мають нуль по Y;

pxy — частка об’єктів, що мають одиницю по X і по Y одночасно.

3.4. Обидві змінні вимірюються за ранговою (порядковою) шкалою

Для таких величин вихідні дані можуть бути перетворені в ранги або
просто бути рангами, при цьому обчислюються коефіцієнти рангової
кореляції. Таких коефіцієнтів декілька, один з яких коефіцієнт рангової
кореляції Спірмена -Rs:

де

змінні X і Y набувають значення 1,2,…,n ;

n — кількість рангів;

(xi-yi)- різниця між рангом i-го об’єкта по X і його ж рангом по Y.

Коефіцієнти рангової кореляції вимірюють тісноту зв’язку між величинами
які можна розставити за зростанням чи зниженням ступеня інтенсивності
кожної. Така процедура має назву ранжування ряду.

Ряд величин можна ранжувати за двома і більше властивостями і якщо існує
тенденція одночасного збільшення (зменшення) двох властивостей, то це
означає, що між цими властивостями існує зв’язок.

При наявності n послідовних і необ’єднаних рангів 1,2,…,n,
використовується коефіцієнт рангової кореляції Кендала:

Р — кількість пар рангів з прямим порядком;

Q — кількість пар рангів з зворотним порядком;

n — загальна кількість рангів.

При (=+1 всі пари рангів мають прямий порядок; при (=-1 всі пари мають
зворотний порядок рангів; при (=0 кількість пар з прямим і зворотним
порядками рангів однакова.

Також для обчислення коефіцієнта рангової кореляції ( можна
використовувати способи, що не потребують складання таблиці, кількість
пар рангів. Для цього формула ( перетворюється так, щоб вона містила або
кількість пар рангів з прямим порядком Р, або зі зворотним порядком Q:

Коефіцієнт рангової кореляції Спірмена перевищує коефіцієнт рангової
кореляції Кендела, хоча значення двох коефіцієнтів достатньо великі, що
свідчить про істотний зв’язок між величинами Х та У.

Відмінність між цими коефіцієнтами полягає в тому, що при визначенні
коефіцієнта коефіцієнт рангової кореляції Кендела ( фіксується тільки
факт прямого або зворотного розташування рангів для кожної пари
елементів незалежно від віддалення рангів один від одного.

3.5. Обидві змінні виміряні за кількісними шкалами

У цьому випадку обчислюється лінійний коефіцієнт кореляції Пірсона -rxy:

де K — кореляційний момент;

Sx Sy- середні квадратичні відхилення.

3.6. Одна із змінних виміряна за ранговою шкалою, а інша — за кількісною

Припустимо, що X вимірюється в ранговій шкалі, Y — в інтервальній шкалі
(або відносній). Для таких величин можна перетворити оцінки Y в ранги і
знайти коефіцієнти рангової кореляції Спірмена або Кендала.

3.7. Одна із змінних вимірюється за номінальною, а інша — за кількісною
шкалою

Для таких величин визначення зв’язку між X і Y зручно використовувати
наступну формулу:

, де

— середнє по X об’єктів, що мають одиниці по Y;

— середнє по X об’єктів, що мають нуль по Y;

(x — стандартне відхилення n значень по X;

— число об’єктів, що мають одиницю по Y;

— число об’єктів, що мають нуль по Y.

4. Типове навчальне завдання

Приклад 4.1.: перевіряється статистична гіпотеза про існування
кореляційного зв’язку між валовим внутрішнім продуктом на душу населення
та членством країни в Європейському Союзі. В якості прикладу обрано 15
європейських країн, дані по яких подані у вигляді таблиці:

7200 НІ

15 Болгарія 3000 НІ

Як нульова гіпотеза приймається: Њ0 =»існує позитивний зв’язок», як
альтернативна: Њ1=»зв’язку немає».

Нехай величина X це — «ВВП на душу населення (дол. США)», а величина У
це — «Членство в ЄС».

Властивість X приводимо до номінальної шкали: з варіантами X i ( 20000 і
X i ( 20000, відповідно X i приймає значення 1 та 0.

Властивість У визначається за номінальною шкалою з варіантами відповідей
«Так» і «Ні», відповідно yi приймає значення 1 та 0.

Розподіл випадкових величин X та У поданий у вигляді таблиці:

нія 0 0

12 Білорусь 0 0

13 Литва 0 0

14 Латвія 0 0

15 Болгарія 0 0

За даними таблиці:

px = 6/15=0,4 (частка об’єктів, що мають одиницю по X);

qx = 9/15=0,6 (частка об’єктів, що мають нуль по X);

py = 8/15=0,53 (частка об’єктів, що мають одиницю по Y);

qy = 7/15=0,47 (частка об’єктів, що мають нуль по Y);

pxy =6/15=0,4 (частка об’єктів, що мають одиницю по X і по Y одночасно);

Гіпотеза Њ0 підтвердилась: між величинами X і Y існує сильний позитивний
зв’язок (при збільшення X значення Y також збільшується).

Приклад 4.2.: перевіряється статистична гіпотеза про існування
кореляційного зв’язку між валовим внутрішнім продуктом на душу населення
та народжуваністю на 1000 одиниць населення. В якості прикладу обрано 15
європейських країн, дані по яких подані у вигляді таблиці:

№ Країна ВВП на душу населення (дол. США) Народжуваність на 1000 од.
нас.

1 Люксембург 36400 12.25

2 Данія 25500 11.96

3 Бельгія 25300 10.74

4 Австрія 25000 9.9

5 Нідерланди 24400 11.85

6 Німеччина 23400 9.35

7 Іспанія 18000 9.26

8 Греція 17200 9.83

9 Чехія 12900 9.1

10 Угорщина 11200 9.26

11 Естонія 10000 8.7

12 Білорусь 7500 9.27

13 Литва 7300 9.77

14 Латвія 7200 7.8

15 Болгарія 3000 8.06

Як нульова гіпотеза приймається: Њ0 =»існує позитивний зв’язок», як
альтернативна: Њ1=»зв’язку немає».

Нехай величина X це — «ВВП на душу населення (дол. США)», а величина У
це — «Народжуваність на 1000 од. нас.».

Властивість X визначається за ранговою шкалою, відповідно X i приймає
значення від 1 та 15, де 1 найвищий ранг, а 15 найнижчий.

Властивість У визначається за ранговою шкалою, відповідно yi приймає
значення від 1 та 15, де 1 найвищий ранг, а 15 найнижчий.

Розподіл випадкових величин X та У поданий у вигляді таблиці:

№ Країна ВВП на душу населення (дол. США) Ранг ВВП Народжуваність на
1000 од. нас. Ранг нар.

Х

У

1 Люксембург 36400 1 12.25 1

2 Данія 25500 2 11.96 2

3 Бельгія 25300 3 10.74 4

4 Австрія 25000 4 9.9 5

5 Нідерланди 24400 5 11.85 3

6 Німеччина 23400 6 9.35 8

7 Іспанія 18000 7 9.26 10

8 Греція 17200 8 9.83 6

9 Чехія 12900 9 9.1 12

10 Угорщина 11200 10 9.26 10

11 Естонія 10000 11 8.7 13

12 Білорусь 7500 12 9.27 9

13 Литва 7300 13 9.77 7

14 Латвія 7200 14 7.8 15

15 Болгарія 3000 15 8.06 14

За даними таблиці:

n =15 (кількість рангів);

n(n2-1)=15(152-1)=3360

(Xi-Yi) = (1-1)2 + (2-2)2 + (3-4)2 + (4-5)2 + (5-3)2 + (6-8)2 + (7-10)2
+ (8-6)2 + (9-12)2 + (10-10)2 + (11-13)2 + (12-9)2 + (13-7)2 + (14-15)2
+ (15-14)2 = 83

(різниця між рангом i-го об’єкта по X і його ж рангом по Y).

Гіпотеза Њ0 підтвердилась: між величинами X і Y існує сильний позитивний
зв’язок (при збільшення X значення Y також збільшується).

Приклад 4.3.: перевіряється статистична гіпотеза про існування
кореляційного зв’язку між кількістю користувачів Інтернет та
виробництвом програмного забезпечення. Як нульова гіпотеза приймається:
Њ0 =»існує позитивний зв’язок», як альтернативна: Њ1=»зв’язку немає». В
якості прикладу обрано 10 гіпотетичних країн (замість назв
використовуються перші 10 літер латинського алфавіту), величина X це —
«місце країни за доступом населення до мережі Інтернет «, а величина У
це — » місце країни за виробництвом програмного забезпечення».
Властивості X та У визначаються за ранговою шкалою, відповідно приймають
значення від 1 та 10, де 1 найвищий ранг, а 10 найнижчий. Дані подані у
вигляді таблиці:

НАЗВА РАНГ

Х РАНГ

У

A 5 7

B 10 8

C 4 3

D 2 4

E 3 2

F 1 1

G 8 9

H 7 5

I 6 6

J 9 10

При розташуванні елементів другого стовпчика за зростанням картина
відповідності елементів Х та У стане чіткіша. Дані представлені у
вигляді таблиці:

НАЗВА РАНГ

Х РАНГ

У

F 1 1

D 2 4

E 3 2

C 4 3

A 5 7

I 6 6

H 7 5

G 8 9

J 9 10

B 10 8

З порівняння рядів випливає, що існує певний зв’язок між Х та У,
оскільки виявляється тенденція до скупчення менших значень рангів на
початку і великих значень рангів наприкінці третього стовпчика (У).
Отже, порядок розташування рангів по Х відносно рангів по У визначає
ступінь їх взаємозалежності. Ступінь безладу визначається кількістю пар
по У, розташованих у зворотному порядку (D і C- 4 і 3; А і I — 7 і 6;
…), оскільки саме така кількість операцій потрібна для зворотної
перестановки елементів у парах, щоб перетворити ряд У на впорядкований.

Метод №1: визначимо всі можливі пари рангів, кожній парі з прямим
порядком елементів присвоїмо значення «+1», а із зворотним — значення
«-1″. Дані представлені у вигляді таблиці:

Пара рангів Порядок рангів Пара рангів Порядок рангів Пара рангів
Порядок рангів Пара рангів Порядок рангів

AB +1 BF +1 DE -1 FH +1

AC +1 BG -1 DF +1 FI +1

AD +1 BH +1 DG +1 FJ +1

AE +1 BI +1 DH +1 GH +1

AF +1 BJ -1 DI +1 GI +1

AG +1 CD -1 DJ +1 GJ +1

AH -1 CE +1 EF +1 HI -1

AI -1 CF +1 EG +1 HJ +1

AJ +1 CG +1 EH +1 IJ +1

BC +1 CH +1 EI +1

BD +1 CI +1 EJ +1

BE +1 CJ +1 FG +1

За даними таблиці:

Р = 38 (кількість пар рангів з прямим порядком);

Q = 7 (кількість пар рангів з зворотним порядком);

n =10 (загальна кількість рангів);

S = P-Q= 38-7=31

Гіпотеза Њ0 підтвердилась: між величинами X і Y існує сильний позитивний
зв’язок (при збільшення X значення Y також збільшується).

.

Приклад 4.4.: перевіряється статистична гіпотеза про існування
кореляційного зв’язку між валовим внутрішнім продуктом на душу населення
та народжуваністю на 1000 одиниць населення. В якості прикладу обрано 15
європейських країн.

Як нульова гіпотеза приймається: Њ0 =»існує позитивний зв’язок» , як
альтернативна: Њ1=»зв’язку немає».

Нехай величина X це — «ВВП на душу населення (дол. США)», а величина У
це — «Народжуваність на 1000 од. нас.».

Властивість X та У визначаються за інтервальною (кількісною) шкалою
відповідно приймають природні значення..

Розподіл випадкових величин X та У поданий у вигляді таблиці:

№ Країна ВВП на душу населення (дол. США) Народжуваність на 1000 од.
нас.

Х У

1 Люксембург 36400 12.25

2 Данія 25500 11.96

3 Бельгія 25300 10.74

4 Австрія 25000 9.9

5 Нідерланди 24400 11.85

6 Німеччина 23400 9.35

7 Іспанія 18000 9.26

8 Греція 17200 9.83

9 Чехія 12900 9.1

10 Угорщина 11200 9.26

11 Естонія 10000 8.7

12 Білорусь 7500 9.27

13 Литва 7300 9.77

14 Латвія 7200 7.8

15 Болгарія 3000 8.06

За даними таблиці:

Гіпотеза Њ0 підтвердилась: між величинами X і Y існує сильний позитивний
зв’язок (при збільшення X значення Y також збільшується).

Приклад 4.5.: перевіряється статистична гіпотеза про існування
кореляційного зв’язку між валовим внутрішнім продуктом на душу населення
та членством країни в Європейському Союзі. В якості прикладу обрано 15
європейських країн.

Як нульова гіпотеза приймається: Њ0 =»існує позитивний зв’язок» , як
альтернативна: Њ1=»зв’язку немає».

Нехай величина X це — «ВВП на душу населення (дол. США)», а величина У
це — «Членство в ЄС».

Властивість X визначається за інтервальною (кількісною) шкалою,
відповідно X i приймає природні значення.

Властивість У визначається за номінальною шкалою з варіантами відповідей
«Так» і «Ні», відповідно yi приймає значення 1 та 0.

Розподіл випадкових величин X та У поданий у вигляді таблиці:

горщина 11200 0

11 Естонія 10000 0

12 Білорусь 7500 0

13 Литва 7300 0

14 Латвія 7200 0

15 Болгарія 3000 0

За даними таблиці:

=(36400+25500+25300+25000+24400+23400+18000+17200)/8=24400

= (12900+11200+10000+7500+7300+7200+3000)/7=8442.86

(x= 9464.43 (стандартне відхилення n значень по X);

= 8 (число об’єктів, що мають одиницю по Y);

=7 (число об’єктів, що мають нуль по Y);

R=0.87

Гіпотеза Њ0 підтвердилась: між величинами X і Y існує сильний позитивний
зв’язок (при збільшення X значення Y також збільшується).

5. Індивідуальне завдання.

Запропонувати та самостійно проаналізувати систему в галузі міжнародних
відносин.

Використовуючи методи кореляційного аналізу перевірити наявність та силу
зв’язку між досліджуваними величинами, дослідження проводити за схемою
типового завдання (Приклад 4.1- 4.5.).

6. Питання допуску до лабораторної роботи

Охарактеризувати типи шкал, що використовуються для вимірювання
випадкових величин в системі.

Охарактеризувати основні етапи кореляційного аналізу.

Охарактеризувати коефіцієнт кореляції, та його показники.

Охарактеризувати поняття множинної кореляції.

Охарактеризувати поняття приватної кореляції.

Визначити коефіцієнт кореляції, що використовується для номінальних
величин.

Визначити коефіцієнт кореляції, що використовується якщо одна із змінних
вимірюється за номінальною, а інша — за кількісною шкалою.

Визначити для яких величин застосовується коефіцієнт кореляції Спірмена.

Визначити для яких величин застосовується коефіцієнт кореляції Кендела.

Визначити для яких величин застосовується коефіцієнт кореляції Пірсона.

7. Питання до захисту лабораторної роботи

Обґрунтувати вибір системи для виконання індивідуального завдання.

Визначити ціль та задачу дослідження проведеного в індивідуальному
завданні.

Охарактеризувати запропоновану систему за основними характеристиками.

Обґрунтувати причинно-наслідкові зв’язки в системи, що досліджувалась в
індивідуальному завданні.

Обґрунтувати вибір змінних величин, що обрано для дослідження
проведеного в індивідуальному завданні.

Проаналізувати дослідження залежностей кореляції від вибору шкали
вимірювання.

Порівняти отримані в індивідуальному завдані числові показники
коефіцієнтів кореляції, обґрунтувати їх розбіжності.

Визначити обмеження застосування кореляційного аналізу.

ДЖЕРЕЛА ІНФОРМАЦІЇ

Гондюл В.П., Добржанська О.Л. Методичні вказівки до виконання
лабораторних робот з нормативної дисципліни «Системний аналіз». —
К.:ІМВ, 2003.- 57 с.

Макарова Н. В., Трофимец В. Я. Статистика в Ехсеl. — М.: Финансы и
статистика, 2002. — 368 с.

Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере/ под
ред. В.Э. Фигурнова — М.: Инфра-М, 1998. – 528с.

Циба В.Т. Математичні основи соціальних досліджень: кваліметричний
підхід. — К.:МАУП, 2002. — 248 с.

Томенко М., Бадешко Л., Гребельник В. Гребельник О., Грицяк І., Міхеєнко
Ю., Палій О. Парахонський Б., Погарський Я., Томенко В. Абетка
Української політики. — К.: Смолоскип, — 2002. — 368.

Боровиков В. STATISTICA: искусство анализа данных на компьютере. Для
профессионалов. – СПб.: Питер, 2001. – 656 с.

Казиев В.М. Введение в системный анализ и моделирование. ИМОАС, 2001. –
115 с.

Корнилов Г.И. Основы теории систем и системного анализа. Кривой Рог.:
Институт делового администрирования, 1996. – 76 с.

Похожие записи