Specjalista Big Data – badacz danych, potrzebny od zaraz !
Wprowadzenie
Bazy danych, hurtownie danych, Internet, a w nim w szczególności dane w chmurach, portale najróżniejszego profilu i przeznaczenia (Facebook, Twitter, YouTube, Linkedln, …) to wszechogarniające, różnorodne co do sposobu przechowywania, rodzaju i treści źródła danych które mogą stanowić podstawę do zdobywania informacji i wiedzy użytecznej dla indywidualnego użytkownika ale też – przede wszystkim – użytecznej biznesowo.
Poprzez wykorzystywane media sami – czasem nie będąc tego w pełni świadomi – dostarczamy danych, sami korzystamy w wieloraki sposób z danych i wreszcie w oparciu o te dane – umiejętnie przetworzone, wykorzystane - najprzeróżniejsze podmioty i instytucje ( bankowość i finanse, edukacja, ochrona zdrowia, przemysł, handel, doradztwo, ubezpieczenia, turystyka, energetyka, szkolnictwo ...) wpływają na nas, definiują własne cele, kreują nowe wyzwania i znajdują sposoby ich realizacji. Jednym słowem – żyjemy w świecie Big Data. Za prekursorów tego świata uważa się Google i Amazon.
Big Data to przestrzeń wielowątkowa, wielowymiarowa – zjawisko, filozofia, technologia informatyczna, techniki pozyskiwania, przechowywania i analizy dużych zbiorów danych oraz nowe – coraz bardziej wyszukane i śmiałe – możliwości ich wykorzystania. W takiej sytuacji o jednoznaczną definicję Big Data jest trudno, po prostu taka nie istnieje.
W Wikipedii (pl.wikipedia.org) – bo nie da się bez Internetu o Big Data - przytoczona jest m.in. definicja Gartnera, według której Big Data to „zbiory informacji o dużej objętości, dużej zmienności
i dużej różnorodności które wymagają nowych form przetwarzania w celu podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów”.
Krótko podsumowując, Big Data to duże zbiory danych i stosowne do nich techniki przetwarzania prowadzące do przekształcenia danych w szeroko rozumianą użyteczną informację. Warto w tym miejscu zwrócić uwagę i bardzo mocno podkreślić, że rynkowa, biznesowa i każda inna wartość nie wypływa wprost z danych, ale z tego co potrafimy z nimi zrobić (przetworzenie, analiza, statystyka ...).
Big Data – według istniejącej, bogatej literatury - formalnie charakteryzują następujące składowe:
- Duża ilość danych (volume) - rozmiar danych liczony jest tera- i petabajtach (wręcz niewyobrażalne!),
- Duża zmienność danych (velocity) - tutaj chodzi zarówno o szybkość „zaciągania”, jak
i analizowania, analizy dokonywane są często w czasie rzeczywistym, - Duża niejednorodność danych (variety) - różnorodne źródła, struktury - wszystko co w nas i wokół nas to dane (słowo, tekst, obraz, liczba,... ), a poprzez aplikacje
i programy musi dokonać się strukturyzacja danych i dalsze ich przetworzenie,
a także (te składowe pojawiły się nieco później),
- Weryfikacja (wiarygodność) danych (veracity) - kontrola poprawności,
- Wartość danych (value) - selekcja, rozróżnienie, wyodrębnienie danych wartościowych.
Pięć wymienionych składowych stanowi podstawę modelu określanego mianem 5V, w którym formalnie funkcjonuje Big Data. Niemniej – na marginesie - wydaje się, że trzy pierwsze składowe tj. volume, variety i velocity rozróżniają dostatecznie dobrze Big Data od innych typów i zbiorów danych.
Informatyczny i informacyjny wymiar Big Data
Konstrukcja struktur przechowywania dużych zbiorów danych, przetwarzanie i analiza tych zbiorów to kolejne wyzwania, przed którymi stoją informatycy, numerycy, matematycy, statystycy – to nowy fascynujący, ciągle do końca niezgłębiony świat w którym kryją się fantastyczne, przeogromne możliwości. To jest – można to tak określić za Mayerem-Schonbergiem i Cukierem (pierwsza pozycja w wymienionej na zakończenie artykułu literaturze) – czas „danetyzacji” wszystkiego !.
Na wymiar informatyczny Big Data składają się ogólnie biorąc bazy danych i platformy ich przetwarzania.
Baza danych to – zgodnie z najogólniejszą definicją – logiczny sposób przechowywania danych. W Big Data są to przede wszystkim bazy NoSQL, które nie wymagają predefiniowanej struktury, mówiąc obrazowo akceptujące nieład w logicznej organizacji danych. Bazy NoSQL, bez specyficznego formatu danych, obejmować mogą zdjęcia satelitarne, dane atmosferyczne, fotograficzne, video, radarowe, sonarowe itd. Warto zwrócić uwagę, że nazwa NoSQL – nieco prowokująca – jest przeciwieństwem nazwy SQL, pod którą kryje się strukturalny język zapytań SQL, stanowiący podstawę operowania danymi w tzw. relacyjnym modelu danych tj. modelu, w którym jedyną strukturą w której przechowywane są dane jest matematycznie ujmując relacja tj. mówiąc wprost dwuwymiarowa tabela. Twórcą modelu relacyjnego był E.Codd z IBM który w latach 70-tych ubiegłego wieku sformułował 12 postulatów relacyjności. Bazy relacyjne (bazy SQL) np. PostgreSQL to też obok dominujących rozwiązań NoSQL współczesny, często wykorzystywany (szczególnie w aspekcie biznesowym) sposób przechowywania danych.
W obrębie baz NoSQL mieszczą się m.in. :
- Bazy dokumentowe (dokuments),
- Bazy klucz-wartość (key-value ),
- Bazy kolumnowe (columnar),
- Bazy grafowe (graph),
- Bazy obiektowe (object) itd.
Wśród platform przetwarzania na uwagę zasługują przede wszystkim MapReduce (Google) oraz Hadoop (Yahoo). Są to środowiska – najogólnej ujmując - równoległego przetwarzania danych. Hadoop – istniejący w wielu dystrybucjach - to zestaw narzędzi (framework) umożliwiający przetwarzanie na wielu komputerach, „odporny” na błędy w danych, odpowiedni do danych różnorodnych, o dużej wielkości.
W wymiarze informacyjnym Big Data mieszczą się sposoby, techniki pozyskiwania informacji
z danych. Duże zbiory danych stwarzają możliwości znalezienia związków i relacji o których dawniej nawet nie przypuszczaliśmy że istnieją. Z niby-chaosu wyłaniają się prawidłowości i korelacje.
Do technik pozyskiwania informacji należą przede wszystkim:
- Metody optymalizacji (Optimalization Methods)
- Klasyczne metody statystyczne (Statistics) i eksploracja danych (Data mining)
- Analiza tekstu (Text Analytics)
- Analiza danych typu audio (Audio Analytics)
- Analiza strumieni video (Video Analytics)
- Uczenie maszynowe (Machine learning , ML)
- Społeczna analiza sieciowa (Social Network Analysis, SNA)
Należy bardzo wyraźnie podkreślić, że przytoczone powyżej techniki to nawet nie próba systematyki, niektórzy Czytelnicy być może zauważą, że często Machine Learning uważa się za nierozłączną składową Data mining, itd.
Warto także dodać, że oprócz wymienionych technik istnieje potrzeba stwarzania nowych, jeszcze bardziej skutecznych, właściwych do dużych zbiorów, a szerzej traktując właściwych do Big Data
w modelu 5V.
Big Data w skali firmowo-biznesowej
W skali firmowo-biznesowej Big Data to pozyskiwanie i analiza danych pochodzących z wielu źródeł zewnętrznych (np. Internet) i wewnętrznych (bazy sprzedaży, klientów, dostawców, dane z maszyn, systemów pomiarowych, analiz jakościowych itd., zapisów audytowych) w celu poprawy rentowności firmy (wydajność, jakość, organizacja). Charakter Big Data leży w tych działaniach
w różnorodnym charakterze danych i wielu zróżnicowanych, niekiedy dość skomplikowanych narzędziach pozyskiwania z nich informacji.
Od strony informatycznej do dyspozycji, oprócz zasobów własnych, korporacyjnych, pozostają choćby narzędzia Open Source np. R, Python, PostgreSQL, MySQL, Firebird itd..
Główny akcent podejścia Big Data w omawianej skali to przede wszystkim wymiar informacyjny czyli analityczny tj. wykorzystanie skutecznych metod analizy danych. Na uwagę zasługują tutaj takie narzędzia jak:
- metody optymalizacji,
- klasyczne metody statystyczne: próbkowanie, wizualizacja danych, analizy wielowymiarowe (ANOVA, regresja, DOE, …) itd.,
- eksploracja danych: analiza skupień, drzewa klasyfikacyjne, regresja logistyczna, sieci neuronowe, istnieje standard CRISP-DM (Cross Industry Standard Process for Data Mining) określający metodologię eksploracji danych, odpowiedni dla zastosowań w przemyśle, biznesie, nauce… .
Istnieją przykłady wykorzystania w Big Data kart kontrolnych SPC, szczególnie karty wykładniczo- ważonej ruchomej średniej EWMA i sum skumulowanych CUSUM, narzędzi tzw. logiki rozmytej, uczenia maszynowego itd. – granice możliwości analizy ogranicza chyba tylko wyobraźnia. Od strony rachunkowej do dyspozycji pozostają tutaj np. Minitab, SPSS, Statistica, QDA itp.
Kapitalny przykład wykorzystania Big Data w przemyśle to optymalizacja kosztów procesu w oparciu
o analizę sieci społecznych (SNA) z wykorzystaniem programów UCINET, NetMiner, R, NodeXL, Gephi przedstawiają Lee i Sohn (druga pozycja w wymienianej na zakończenie artykułu literaturze).
Jest w czym wybierać i z czego korzystać, jak zawsze najważniejszy jest pierwszy krok, a potem - przemienić Big Data w wielki (też Big ) biznesowy sukces.
W podejściu czysto praktycznym wydaje się, że kolejne etapy wykorzystania Big Data na poziomie firmy powinny wyglądać następująco:
- „Czyszczenie” danych,
- Integracja danych pochodzących z wielu źródeł,
- Selekcja, wybór danych do analizy,
- Wykorzystanie narzędzi do wydobywania informacji z danych (wizualizacja, statystyka, data mining, itd.).
Zakończenie
Big Data to realizacje w dużej skali, sposób na cyfrowy potop danych, to wyzwania, korzyści ale także zagrożenia i mroczne strony (naruszenie prywatności, ochrona danych, niewłaściwe, nieuprawnione wykorzystanie i udostępnianie danych - oby nie była to dyktatura danych ! ). Big Data to pogodzenie się z różnorodnością danych i ich wręcz w trybie on-line wykorzystywanie do analizy zjawisk bieżących i przewidywania. Big Data to nasz świat i nasza rzeczywistość.
W skali firmowo-biznesowej to sposób na lepsze, efektywniejsze funkcjonowanie – bez danych i ich analizy nie ma mowy o stworzeniu strategii biznesowej. Big Data to wizjonerstwo, nowy sposób na nowe czasy, sposób który – jak w tytule tego artykułu – ma dostarczyć nowych biznesowych wartości.
Wydaje się zatem, że zainteresowanie Big Data jest potrzebne. Potrzebna jest także wiedza o Big Data i umiejętności wykorzystania tego podejścia. Jednym słowem – wracając tym razem do motta tego artykułu - pojawia się zapotrzebowanie na nową profesję, tj. badacza danych, który będzie wiedział i umiał jak się orientować w świecie danych i jak je zrozumieć.
Szkolenia powiązane:
Od Autora
Krótka forma tego artykułu - coś w rodzaju przeciwieństwa Big Data – sprawia, że nie sposób zawrzeć, choćby nagłówkowo i ogólnie, wszystkich treści związanych z przedstawianym przedmiotem. Istnieje bardzo bogata literatura dotycząca tego tematu. Zainteresowanym polecam – na początek - kilka moim zdaniem bardzo interesujących pozycji, w większości dostępnych w języku polskim, zamieszczonych w podanej niżej literaturze.
Literatura
- V. Mayer-Schonberger, K. Cukier – Big Data. Efektywna analiza danych. MT Biznes sp. z o.o., Warszawa 2017
- H. Lee, I. Sohn – Big Data w przemyśle. PWN, Warszawa 2016
- R.D. Paul, O.S. Jadhav – Some Contribution od Statistical Techniques in Big Data. A Review. International Journal on Recent and Innovation Trends in Computing and Communication. Vol.4, 2016, Link: http://www.ijritcc.org
- J.Hurwitz, A.Nugent, F. Halper, M.Kaufman – Big Data for Dummies, John Wiley & Sons, Inc., 2013
- N. Marz, J.Warren – Big data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym, Helion SA., Gliwice 2016
- F.Provost, T.Fawcett – Analiza danych w biznesie. Sztuka podejmowania skutecznych decyzji, Helion SA., Gliwice 2016
- F.Cyprowski – Big Data. Mini-podręcznik dla laików, Instytut Badań Rynkowych i Społecznych, 2014