Jakość danych to gra zespołowa

0
757

Co jest gorszego od nieuwzględniania danych w procesach decyzyjnych? Uwzględnianie w nich błędnych danych. Skoro już decydujemy się wydawać pieniądze na integrację danych w hurtowniach czy Data Lake, budować systemy raportowe z setkami raportów czy skomplikowane modele machine learning – warto zacząć od zadbania o jakość danych, które wszystkie te systemy zasilą. Tylko jak to zrobić?

Kluczowe jest zebranie odpowiedniego zespołu specjalistów. Przekonanie, że jakość danych to problem IT, jest szkodliwym mitem, podobnie jak próba zrzucenia całej odpowiedzialności za jakość danych na biznesowych właścicieli systemów IT.

Aby zmierzyć się z tym problemem, potrzebujemy stworzyć w organizacji minimum cztery role – po dwie po stronie biznesu i IT.

Strona biznesowa

Pierwsze dwie role są mocno związane z biznesowym aspektem wytwarzania i wykorzystania danych. Musimy na początku określić właścicieli poszczególnych obszarów danych. Podział może tu przebiegać zarówno na linii systemów źródłowych, jak i obszarów danych – takich jak klient, polisa itp.

Do kluczowych zadań właściciela danych należą: dobra znajomość danych i procesów, w ramach których powstają, umiejętności określenia, kiedy dane są wysokiej, a kiedy niskiej jakości, oraz gotowość do wsparcia zmian w systemach im podległych, jeśli te pozwalają na generowanie danych niskiej jakości.

Druga rola, uważana za najważniejszą w tym procesie, to data steward. Jest ona odpowiedzialna za nadzorowanie jakości danych w organizacji lub wyznaczonej jej części. Ma zapewnić, by dane były poprawne, spójne i zgodne z obowiązującymi standardami.

Data steward pełni rolę pośrednika między właścicielem danych a stroną IT, a jego zadaniem jest dbanie o to, aby dane były zgodne z wymaganiami biznesowymi i technicznymi organizacji.

Strona IT

Kolejną rolą, zwykle występującą już po stronie IT, jest analityk danych. Osoba ta najczęściej łączy role analityczne związane np. z projektowaniem i dokumentacją danych do hurtowni z pracą właśnie nad jakością danych. Rolą analityka jest w dużej mierze prowadzenie dokumentacji dotyczącej oczekiwanej jakości danych oraz weryfikacji istniejących danych w kontekście spełniania tych oczekiwań.

Miejsce przechowywania dokumentacji dotyczącej zarówno opisu technicznego, biznesowego, jak i wymagań co do jakości nazywamy katalogiem danych. Natomiast samo ich weryfikowanie na poziomie wymagania vs realne dane nazywamy profilowaniem danych. Wykorzystanie obu tych narzędzi leży zwykle w odpowiedzialności analityka danych.

Ostatnia rola w zespole jakości danych to programista danych. Jego zadaniem jest implementacja zarówno algorytmów poprawiających jakość danych, jak i funkcji oceniających tę jakość. Na podstawie tych drugich programista jest w stanie przygotować raporty wizualizujące stan jakości danych na różnych poziomach firmy, które są niezwykle pomocne wszystkim pozostałym rolom na etapie monitorowania jakości danych. Dzięki nim wiemy, czy nasze starania nad poprawą jakości danych przynoszą pozytywne efekty w czasie.

Nie ma co czekać

Jakość danych będzie w najbliższym czasie kluczową zmienną w rozwoju nie tylko TU, ale i całej gospodarki. Dlaczego? Bo kiedy okiełznamy choć wstępnie możliwości modeli machine learning, to okaże się, że ich skuteczność jest wprost proporcjonalna do jakości danych, jakie im dostarczymy. A przykro by było czekać z gotowym modelem dwa lata, aż nasza organizacja uporządkuje temat jakości danych.

Łukasz Nienartowicz
Britenet