Hurtownia danych

Hurtownia Danych

Zawartość artykułu

Hurtownia danych jest jednym z bardziej powszechnych tematów w branży informatycznej. Gromadzone dane stanowią istotne źródło cennych informacji w wielu przedsiębiorstwach, zwiększając tym samym ich przewagę konkurencyjną. Coraz więcej przedsiębiorstw korzysta w swojej pracy z systemów typu Business Intelligence, które w szybki i przystępny sposób wspomagają procesy analityczne. Podstawą systemów BI są hurtownie danych i to o nich opowiemy szerzej w dzisiejszym artykule.

Czym jest hurtownia danych?

Hurtownia danych jest narzędziem, które gromadzi i przechowuje w jednym miejscu duże ilości danych, pochodzących z różnych, rozproszonych źródeł. Zebrane dane są ustrukturyzowane i przechowywane w zintegrowanej bazie danych. Hurtownie danych umożliwiają raportowanie, a także przeprowadzanie analiz. Stanowią one istotne źródło informacji w przedsiębiorstwach, wspomagając tym samym proces podejmowania decyzji biznesowych. Warto wspomnieć, że hurtownie danych służą jedynie do odczytu danych, a więc użytkownik nie ma możliwości ich modyfikacji.

Cechy hurtowni danych

Patrząc na definicję hurtowni danych możemy wyczytać cztery główne cechy, które je charakteryzują. Są to:

  • zorientowanie na temat – dane gromadzone w hurtowniach są zorganizowane wokół głównych tematów, takich jak sprzedaż, produkt, czy klient;
  • integralność – dane przechowywane w hurtowni są jednolite, np. pod względem formatu, nazewnictwa, struktur kodowania (ujednolica się je zanim trafią do hurtowni);
  • czasowość – dane pochodzą z różnych przedziałów czasowych, hurtownia zawiera zarówno dane historyczne jak i teraźniejsze;
  • nieulotność – dane w hurtowni pozostają niezmienione, użytkownik nie ma możliwości ich modyfikacji, dzięki czemu mamy pewność, że za każdym razem uzyskamy takie same wyniki.

Architektura i działanie hurtowni danych

W architekturze hurtowni danych można wyróżnić cztery podstawowe elementy składowe: źródła danych, oprogramowanie ETL, właściwą hurtownię danych oraz aplikacje analityczne. Na poniższej grafice przedstawiono uproszczony schemat budowy hurtowni danych.

Poglądowy schemat budowy hurtowni danych.
Rys. 1 Poglądowy schemat działania hurtowni danych.

Jak wynika z powyższej grafiki podstawą budowy hurtowni danych są dane. Źródła tych danych są rozproszone – należą do nich m.in. systemy ERP, CRM, SCM, czy źródła internetowe (np. dane statystyczne).

Pobrane dane są przetwarzane i integrowane, a następnie ładowane do właściwej hurtowni danych. Etap ten nosi nazwę procesu ETL, od angielskich słów: extract, transform i load. Zgodnie z poszczególnymi etapami procesu dane są najpierw pobierane z dostępnych źródeł (extract). W kolejnym kroku następuje transformacja danych (transform), czyli przetworzenie ich w odpowiedni sposób (czyszczenie, filtrowanie, walidacja, czy usuwanie zduplikowanych danych). Ostatnim etapem jest ładowanie danych (load) do docelowej bazy danych, czyli do hurtowni danych.

Jak już wcześniej wspomnieliśmy dane zebrane w hurtowni danych są wyłącznie do odczytu. Użytkownicy wywołują dane z hurtowni przy użyciu odpowiednich zapytań, uzyskując w ten sposób dane przedstawione w bardziej przyjaznej formie, tj. raportów, schematów czy wizualizacji.

Główne zadania

Jako główne zadanie hurtowni danych należy wyróżnić przetwarzanie analityczne danych (OLAP, On-Line Analytical Processing). Pozwala ono na wykonywanie różnego rodzaju zestawień, raportów, czy wykresów, prezentujących znaczne ilości danych, np. wykres sprzedaży w I kwartale roku, zestawienie produktów generujących największy przychód.

Kolejnym zadaniem, jakie pełnią hurtownie danych jest wspomaganie decyzji w przedsiębiorstwach (DSS, Decision Support System). Biorąc pod uwagę ogromną ilość informacji, jakie znajdują się w hurtowniach danych stanowią one dla firm część systemu wspomagania decyzji. Dzięki zaawansowanym analizom prowadzonym z użyciem tych baz danych znacznie łatwiej wyszukać jest dominujące trendy. Pozwalają one w znaczy sposób ułatwić kierownictwu podjęcie decyzji.

Innym z zadań tych specyficznych baz danych jest centralizacja danych w firmie. Dane pochodzące z różnych działów/szczebli przedsiębiorstwa gromadzi się w jednym miejscu, dzięki czemu każdy zainteresowany ma do nich dostęp, kiedy tylko ich potrzebuje.

Z centralizacją wiąże się kolejna rola hurtowni danych, jaką jest archiwizacja. Z uwagi na to, że dane gromadzone w hurtowni pochodzą z różnych okresów, a hurtownia na bieżąco zasila nowe, bieżące dane to samoistnie staje się ona również archiwum danych i informacji o danym przedsiębiorstwie.

Podsumowanie

Hurtownia danych to bez wątpienia przydatne i funkcjonalne narzędzie, które przynosi wiele korzyści przedsiębiorstwom. Wdrożenie tej bazy danych do swojej firmy może ułatwić i przyspieszyć część procesów zachodzących w przedsiębiorstwach. Hurtownie danych są doskonałą odpowiedzią na przechowywanie tych informacji w jednym, bezpiecznym miejscu, dostępnym dla analityków biznesowych. Jeśli chcesz wprowadzić hurtownię danych do swojej firmy, sprawdź nasz produkt Data Engineering.

Bibliografia

[1] https://www.oracle.com/pl/database/what-is-a-data-warehouse/