5.1. Структура сховища даних та оптимізація його обсягів
Методи інтелектуального аналізу інформації часто розглядають як природний розвиток концепції сховищ даних. Головна відмінність сховища від бази даних полягає в тому, що їх створення і експлуатація переслідують різну мету. База даних відіграє роль помічника в оперативному управлінні організацією. Це щоденні задачі отримання актуальної інформації: бухгалтерські звітності, облік договорів, тощо. Сховище даних накопичує всі необхідні дані для здійснення задач стратегічного управління в середньостроковому і довгостроковому періоді. Наприклад, продаж товару і генерація рахунку проводяться з використанням бази даних, а аналіз динаміки продажів за декілька років, що дозволяє спланувати роботу з постачальниками - за допомогою сховища даних.
Сховище даних (Data Warehouse) - це систематизована інформація з різнорідних джерел, яка є необхідною для обробки з метою ухвалення стратегічно важливих рішень
Сховище будується на основі клієнт-серверної архітектури, СУБД і утиліт підтримки прийняття рішень. Дані, що надходять у сховище, стають доступні тільки для читання.
Властивості сховища даних;
o предметна орієнтація (інформацію організовано відповідно до основних аспектів діяльності);
o інтегрованість даних (дані в сховище надходять з різних джерел і відповідно агрегуються);
o стабільність, інваріантність у часі (записи в DW ніколи не змінюються, являючи собою відбитки даних, зроблені у певний час);
o мінімізація збитковості інформації (перед завантаженням у сховища дані фільтруються, зберігаються у певній послідовності, а також формується деяка підсумкова інформація).
В сховищах даних надмірність даних є мінімальною (приблизно 1%), оскільки:
o при завантаженні у сховище дані сортуються і фільтруються;
o інформація у сховищах зберігається в хронологічному порядку, що майже повністю виключає перекриття даних;
o при завантаженні у сховище дані зводяться до єдиного формату, включаючи обчислення підсумкових (агрегованих) показників.
Сервери багатовимірних баз даних можуть зберігати дані по-різному, крім агрегованих показників формується ще й додаткова інформація: поля часу, дати; адресні посилання, таблиці метаданих тощо. Це приводить до значного збільшення інформації. Вхідний масив розміром 200 Mb може розростись до об'єму 5 Gb. Сховище даних повинне бути оптимально організованою базою даних, яка забезпечує максимально швидкий і оперативний пошук інформації.
Вітрина даних - це спрощений варіант сховища даних, що містить лише тематично орієнтовані, агреговані дані
Глобальне сховище даних складається з трьох рівнів:
1) сховище агрегованих даних;
2) вітрини даних, які базуються на інформації зі сховища даних;
3) клієнтські робочі місця, на яких встановлено засоби оперативного аналізу даних.
Сторінки
В нашій електронній бібліотеці ви можете безкоштовно і без реєстрації прочитати «Інформаційні технології та моделювання бізнес-процесів» автора Томашевський О.М. на телефоні, Android, iPhone, iPads. Зараз ви знаходитесь в розділі „5. Створення сховищ даних. Технології OLAP та Data Mining“ на сторінці 1. Приємного читання.