Grawitacja danych

0
737

Legenda głosi, że odkrycie grawitacji przez Isaaca Newtona zostało zapoczątkowane przez jabłko, które spadło mu na głowę. I choć historia ta jest barwną opowieścią samego Newtona, to faktem pozostaje, że 5 lipca 1687 r. autor w dziele Philosophiae naturalis principia mathematica sformułował obowiązujące do dziś prawo powszechnego ciążenia.

Prawo Newtona wiąże wielkość grawitacji z masą przyciągających się obiektów.

Newton nie mógł przewidzieć, że w XXI w. jego prawo będzie odwoływać się także do obiektów, które nie mają masy – do danych. Niedawno modne stało się pojęcie grawitacji danych. Oznacza ono, że im więcej danych znajduje się w naszych zbiorach, tym więcej przyciągają one… kłopotów.

Dane, użytkownicy i systemy

Naturalną konsekwencją posiadania w organizacji dużych zbiorów jest fakt, że przyciągają one kolejne zbiory danych. W firmach nieustannie powstają systemy IT, zbiory analityczne czy pliki Excel. Chcemy, aby te dane były dostępne w naszej hurtowni czy data lake. A że są potrzebne tu i teraz, to dodawane są bez uwzględnienia procedur czy zachowania odpowiedniej jakości.

Jeszcze trudniejsza sytuacja dotyczy danych pozyskiwanych spoza organizacji. Dane takie są często niższej jakości, a nasze rozumienie ich znaczenia jest na tyle małe, że wprowadza się je do firmowych zbiorów w dokładnie takiej postaci, jak je pozyskaliśmy.

Drugim elementem zjawiska grawitacji danych jest fakt, że zbiory danych przyciągają rzesze użytkowników. W konsekwencji zarządzenie uprawnieniami i bezpieczeństwem z czasem staje się coraz trudniejsze. Wydajność całego rozwiązania spada, szczególnie jeśli użytkownicy wykonują nieoptymalne zapytania.

Powszechną praktyką jest też tworzenie kopii zbiorów danych z niewielkimi zmianami na potrzeby własne użytkowników. Jeśli zsumujemy te trzy zjawiska, nasz zbiór problemów z danymi będzie rósł podobnie do kuli śnieżnej.

Trzecim elementem przyciąganym przez duże zbiory danych są wszelkie systemy IT istniejące w organizacji. Oczywiste jest, że CRM, automatyzacja marketingu, zarządzenie ryzykiem, wykrywanie nadużyć czy wszelkie raporty i modele machine learning potrzebują danych powstających w różnych miejscach naszej firmy.

Wyzwaniem jest niedopuszczenie do powstania „architektury spaghetti”, w której systemy połączone są w sposób losowy z różnymi zbiorami danych. Rozplątanie takiej architektury przypomina zmaganie z węzłem gordyjskim, tyle że podejście Aleksandra Macedońskiego nie wchodzi w grę. Musielibyśmy wyłączyć wszystkie systemy na dłuższy czas, a na to żaden biznes nie może sobie pozwolić.

Droga ratunku

Zwalczenie problemów związanych z grawitacją danych wymaga trzech elementów. Po pierwsze, musimy mieć plan na nasze dane. Jeśli rozpoczynamy projekt budowy hurtowni danych, to należy go poprzedzić stworzeniem „strategii danych”. Jeśli mamy już system tego typu, dokument strategii danych musimy poprzedzić audytem tego rozwiązania.

Drugim elementem jest stworzenie docelowej architektury przepływu danych w organizacji. Jest to krytyczny dokument, fundament zwalczania złych konsekwencji grawitacji danych. W obu powyższych elementach kluczowa jest wiedza ekspercka. Nie powierzajmy tak krytycznych zadań osobom, które nie zbudowały co najmniej pięciu hurtowni danych w różnych organizacjach.

Trzeci element jest bardzo prosty. Wystarczy konsekwentnie realizować założenia strategii i architektury danych.

Łukasz Nienartowicz
Data by Example