Розділ «ТЕМА 2. МЕТОДИ БАГАТОМІРНОГО СТАТИСТИЧНОГО АНАЛІЗУ»

Ви є тут

Статистика

Серед відомих функцій відстані найрозповсюдженіша -евклідова відстань. Емпірична формула її має вигляд :

де хкі- значення к-ої ознаки в і - му об'єкті.

Враховуючи недоліки евклідової відстані, зумовлені неможливістю врахувати можливу нерівномірність осей простору, математична література рекомендує користуватися нормованою евклідовою відстанню. Розрахунок її аналогічний розрахунку величини а4, але за стандартизованими значеннями ознак.

Необхідність такого способу розрахунку пояснюється тим, що можливий випадок, коли два об'єкти досить схожі за всіма ознаками і значно різняться за однією. За цією ознакою у евклідовій відстані вони будуть далекі одна від одної. Іншими словами, величина

залежить від масштабу виміру ознак. Для забезпечення співставності ознак їх, як правило, нормують за середньоквадратичним відхиленням (сг). Евклідова відстань, як і аналогічні їй відстані Махаланобіса, відстань методу потенціальних функцій і т.п. прийнятна у розрахунках з ознаками, які мають кількісний вимір. Для якісних ознак, які приймають тільки два значення (о і 1), застосовують формулу відстані по Хеммінгу:

к=1

де хк;- значення к - ої ознаки в і - му об'єкті.

Якщо ознаки класифікуються з довільним числом градацій, рекомендується використовувати формулу міри близкості двох розбивань а(Е, д), яка має властивості геометричної відстані:

д)=2 ік*- а,*і,

2 г,г=1

де Ег8=1 якщо об'єкти х3, х2 знаходяться в одному класі; Ег8=0, якщо об'єкти х$, хг знаходяться в різних класах.

По розбиванню елемента Д розрахунки виконуються аналогічно ( Д,,ч 1 :Д,л 0,).

Суть завдання кластерного аналізу така: існуючу деяку множину об'єктів необхідно розділити за допомогою певного правила на раніше завдану або на завдану кількість класів. У символіці ці завдання можна сформулювати так: множину реалізацій, завданих у просторі х за допомогою вирішуваних функцій з у (за критерієм схожості), потрібно розділити на таку кількість і таких елементів алфавіту А, щоб втрати інформації не перевищували завданої величини К.

Таким чином, завдання кластерного аналізу зводиться до представлення первинної інформації у стислому вигляді без її втрати. Вирішенням такого завдання (як уже зрозуміло) проходить через класифікацію ознак (вимірів), якими характеризується кожний об'єкт. Але мова йде не про класичні принципи класифікації (наприклад, комбінаційне групування), а про принципи багатомірної класифікації. Суть її зводиться до об'єднання (класифікації) об'єктів не послідовно за окремими ознаками, а одночасно за великою чисельністю ознак. Такий набір їх створює так званий "ознаковий простір ". Кожній ознаці надається змістовність координати.

Оперуючи п ознаками, ми розглядаємо будь - який об'єкт як точку в п - мірному просторі, і завдання класифікації полягає у виявлені згущення точок (об'єктів) у цьому ознаковому просторі. Загальним для згущення точок є те, що групи (кластери) формуються на підставі "схожості" (наближення) об'єктів за великою кількістю ознак, тобто класифікація здійснюється одночасно за всім комплексом ознак, які характеризують об'єкт. При цьому жодна з ознак такого комплексу не є необхідною (або достатньою) умовою належності об'єкта до даної групи.

Формування груп об'єктів, близьких за комплексом ознак, більш ефективне у порівнянні з комбінаційним групуванням. Так, для останнього об'єкт, який має відхилення від меж групувальної ознаки (норми, характерної для даної групи за однією єдиною ознакою набору), буде виключений з групи. Легко уявити ситуацію, коли дана ознака використовується при першій градації об'єктів. У цьому випадку об'єкт може виявитися у групі досить віддаленої від тієї, з якою вона (ознака) має найбільшу схожість. У комбінаційному групуванні самі групи являють собою ні що інше як сектори ознакового простору. Здійснюючи класифікацію за названим групуванням, ми інколи штучно руйнуємо ознаковий простір завданими границями інтервалів груп, тоді як реально існують відокремлено однорідні класи.

Перевага методу кластерного аналізу в тому, що його математичний апарат дозволяє знайти і виділити реально існуюче в ознаковому просторі нагромадження об'єктів (точок) на підставі одночасного групування за великою кількістю ознак.

Кластерний аналіз, як і кореляційно - регресійний, є математичним апаратом вивчення статистичних зв'язків. Це метод пошуку емпіричних закономірностей, але для більш широкого класу зв'язків. Для регресійного аналізу є цілий ряд важко виконуваних умов (вимог) його застосування. Серед них вимоги нормальності багатомірного розподілу, неможливість використання якісних ознак, обмеження, які накладаються на алгебраїчну форму зв'язку (метод найменших квадратів ефективний для лінійних рівнянь ) і ін.

Для методу кластерного аналізу однорідність сукупності не є обов'язковою умовою. Більше того, сам метод дозволяє виявити і описати структурні закономірності, забезпечивши формування однорідних класів об'єктів. Дискретність кластерних моделей на відміну від неперервних регресійних моделей, зумовлена усередненням і деякими втратами інформації, забезпечує більш евристичний характер обчислювальних процедур, а також знімає обмежування, пов'язані з алгебраїчною формою зв'язку.

Нарешті, комплексне використання обох методів у вивченні статистичних зв'язків створює умови широкого використання методу кореляційно - регресійного аналізу, забезпечуючи умови для адекватного його додатка.

Сторінки


В нашій електронній бібліотеці ви можете безкоштовно і без реєстрації прочитати «Статистика» автора Опря А.Т. на телефоні, Android, iPhone, iPads. Зараз ви знаходитесь в розділі „ТЕМА 2. МЕТОДИ БАГАТОМІРНОГО СТАТИСТИЧНОГО АНАЛІЗУ“ на сторінці 14. Приємного читання.

Зміст

  • Вступ

  • МОДУЛЬ 1

  • ТЕМА 1. МЕТОДОЛОГІЧНІ ЗАСАДИ СТАТИСТИКИ

  • § 1.4. Метод статистики

  • ТЕМА 2. СТАТИСТИЧНЕ СПОСТЕРЕЖЕННЯ

  • ТЕМА 3. ЗВЕДЕННЯ І ГРУПУВАННЯ СТАТИСТИЧНИХ ДАНИХ

  • МОДУЛЬ 2

  • ТЕМА 4. УЗАГАЛЬНЮЮЧІ СТАТИСТИЧНІ ПОКАЗНИКИ

  • ТЕМА 5. АНАЛІЗ РЯДІВ РОЗПОДІЛУ

  • § 5.4. Моменти статистичного розподілу

  • § 5.5. Характеристика асиметрії і ексцесу

  • ТЕМА 6. АНАЛІЗ ПОДІБНОСТІ РОЗПОДІЛІВ

  • МОДУЛЬ 3

  • ТЕМА 7. СТАТИСТИЧНІ МЕТОДИ ВИМІРЮВАННЯ ВЗАЄМОЗВ'ЯЗКІВ

  • § 7.2. Кореляційно-регресійний аналіз

  • МОДУЛЬ 4

  • ТЕМА 8. АНАЛІЗ ІНТЕНСИВНОСТІ ДИНАМІКИ

  • ТЕМА 9. АНАЛІЗ ТЕНДЕНЦІЙ РОЗВИТКУ ТА КОЛИВАНЬ

  • ТЕМА 10. ІНДЕКСНИЙ МЕТОД

  • МОДУЛЬ 5

  • ТЕМА 11. ВИБІРКОВИЙ МЕТОД

  • ТЕМА 12. ПОДАННЯ СТАТИСТИЧНИХ ДАНИХ: ТАБЛИЦІ, ГРАФІКИ, КАРТИ

  • ПРОГРАМОВАНИЙ КОНТРОЛЬ ЗНАНЬ

  • МОДУЛЬ І

  • МОДУЛЬ 2

  • МОДУЛЬ 3

  • МОДУЛЬ 4

  • МОДУЛЬ 5

  • НАУКОВО-ПІЗНАВАЛЬНІ ТЕМИ

  • ТЕМА 2. МЕТОДИ БАГАТОМІРНОГО СТАТИСТИЧНОГО АНАЛІЗУ
  • Програмований контроль знань до науково-пізнавальних тем

  • Запит на курсову/дипломну

    Шукаєте де можна замовити написання дипломної/курсової роботи? Зробіть запит та ми оцінимо вартість і строки виконання роботи.

    Введіть ваш номер телефону для зв'язку, в форматі 0505554433
    Введіть тут тему своєї роботи