Magazynowanie danych jest jednym z bardziej powszechnych tematów w branży informatycznej. Gromadzone dane stanowią istotne źródło cennych informacji w wielu przedsiębiorstwach, zwiększając tym samym ich przewagę konkurencyjną. Coraz więcej przedsiębiorstw korzysta w swojej pracy z systemów typu Business Intelligence, które w szybki i przystępny sposób wspomagają procesy analityczne. Podstawą systemów BI są hurtownie danych i to o nich opowiemy szerzej w dzisiejszym artykule.


Czym jest hurtownia danych?


Hurtownia danych jest narzędziem, które gromadzi i przechowuje w jednym miejscu duże ilości danych, pochodzących z różnych, rozproszonych źródeł. Zebrane dane są ustrukturyzowane i przechowywane w podziale tematycznym. Hurtownie danych umożliwiają raportowanie, a także przeprowadzanie analiz, które stanowią istotne źródło informacji w przedsiębiorstwach, wspomagając tym samym proces podejmowania decyzji biznesowych. Warto wspomnieć, że hurtownie danych służą jedynie do odczytu danych, a więc użytkownik nie ma możliwości ich modyfikacji.


Cechy hurtowni danych


Patrząc na definicję hurtowni danych możemy wyczytać cztery główne cechy, które je charakteryzują. Są to:

  • zorientowanie na temat – dane gromadzone w hurtowniach są zorganizowane wokół głównych tematów,takich jak sprzedaż, produkt, czy klient;
  • integralność – dane przechowywane w hurtowni są jednolite, np. pod względem formatu, nazewnictwa, struktur kodowania (ujednolica się je zanim trafią do hurtowni);
  • czasowość – dane pochodzą z różnych przedziałów czasowych, hurtownia zawiera zarówno dane historyczne jak i teraźniejsze;
  • nieulotność – dane w hurtowni pozostają niezmienione, użytkownik nie ma możliwości ich modyfikacji, dzięki czemu mamy pewność, że za każdym razem uzyskamy takie same wyniki.

Architektura i działanie


W architekturze hurtowni danych można wyróżnić cztery podstawowe elementy składowe: źródła danych, oprogramowanie ETL, właściwą hurtownię danych oraz aplikacje analityczne. Na poniższej grafice przedstawiono uproszczony schemat budowy hurtowni danych.

 

źródło: https://teonite.com/pl/blog/czym-jest-hurtownia-danych/

 

Jak wynika z powyższej grafiki podstawą budowy każdej hurtowni danych są dane. Źródła tych danych są rozproszone – należą do nich m.in. systemy ERP, CRM, SCM, czy źródła internetowe (np. dane statystyczne).

Pobrane dane są przetwarzane i integrowane, a następnie ładowane do właściwej hurtowni danych. Etap ten nosi nazwę procesu ETL, od angielskich słów: extract, transform i load. Zgodnie z poszczególnymi etapami procesu dane są najpierw pobierane z dostępnych źródeł (extract). W kolejnym kroku następuje transformacja danych (transform), czyli przetworzenie ich w odpowiedni sposób (czyszczenie, filtrowanie, walidacja, czy usuwanie zduplikowanych danych). Ostatnim etapem jest ładowanie danych (load) do docelowej bazy danych, czyli do hurtowni danych.

Jak już wcześniej wspomnieliśmy dane zebrane w hurtowni danych są wyłącznie do odczytu. Użytkownicy wywołują dane z hurtowni przy użyciu odpowiednich zapytań, uzyskując w ten sposób dane przedstawione w bardziej przyjaznej formie, tj. raportów, schematów czy wizualizacji.


Główne zadania


Jako główne zadanie hurtowni danych należy wyróżnić przetwarzanie analityczne danych (OLAP, On-Line Analytical Processing). Pozwala ono na wykonywanie różnego rodzaju zestawień, raportów, czy wykresów, prezentujących znaczne ilości danych, np. wykres sprzedaży w I kwartale roku, zestawienie produktów generujących największy przychód.

Kolejnym zadaniem, jakie pełnią hurtownie danych jest wspomaganie decyzji w przedsiębiorstwach (DSS, Decision Support System). Biorąc pod uwagę ogromną ilość informacji, jakie znajdują się w hurtowniach danych stanowią one dla firm część systemu wspomagania decyzji. Dzięki zaawansowanym analizom prowadzonym z użyciem tych baz danych znacznie łatwiej wyszukać jest dominujące trendy, wzorce czy relacje między różnymi zdarzeniami, które w znaczy sposób mogą ułatwić kierownictwu podjęcie decyzji.

Innym z zadań tych specyficznych baz danych jest centralizacja danych w firmie. Dane pochodzące z różnych działów/szczebli przedsiębiorstwa są gromadzone w jednym miejscu, dzięki czemu każdy zainteresowany ma do nich dostęp, kiedy tylko ich potrzebuje.

Z centralizacją wiąże się kolejna rola hurtowni danych, jaką jest archiwizacja. Z uwagi na to, że dane gromadzone w hurtowni pochodzą z różnych okresów, a hurtownia na bieżąco jest zasilana w nowe, bieżące dane to samoistnie staje się ona również archiwum danych i informacji o danym przedsiębiorstwie.


Hurtownia danych to bez wątpienia przydatne i funkcjonalne narzędzie, które przynosi wiele korzyści przedsiębiorstwom. Wdrożenie tej bazy danych do swojej firmy może ułatwić i przyspieszyć część procesów zachodzących w przedsiębiorstwach. Biorąc pod uwagę ogrom danych i informacji, które są generowane każdego dnia, hurtownie danych są doskonałą odpowiedzią na przechowywanie tych informacji w jednym, bezpiecznym miejscu, dostępnym dla każdego pracownika.


Źródła:
  1. http://thedatadivers.com/hurtownia-danych-zalety/
  2. https://www.oracle.com/pl/database/what-is-a-data-warehouse/
  3. https://teonite.com/pl/blog/czym-jest-hurtownia-danych/
  4. https://edu.pjwstk.edu.pl/wyklady/hur/scb/rW1.htm
  5. [grafika] https://pixabay.com/photos/archive-boxes-documents-folders-1850170/