Wprowadzenie

W kwietniu 2011 r. Si�y specjalne Stan�w Zjednoczonych zst�pi�y do kryj�wki Osamy bin Ladena, lidera grupy terrorystycznej al-Kaidy. Zabi� bin Ladena po ponad dekadzie �ycia w ukrywaniu i kierowaniu atakami jego wyznawc�w. Kto wi�c wiedzia�, gdzie si� znajduje? Odpowied� mo�e ci� zaskoczy�: wszyscy tak zrobili�my. Wed�ug Kaleva Leetaru, badacza z University of Illinois w Urbana-Champaign, analiza publicznych artyku��w prasowych na temat bin Ladena wskaza�a jego lokalizacj� w promieniu 200 kilometr�w. W bardzo realnym sensie jedna z najbardziej tajemniczych kryj�wek na �wiecie mog�a ostatecznie ujawni� si� z mozaiki pojedynczych punkt�w danych. Ka�dy dziennikarz mia� opini� na temat lokalizacji, a wszystkie opinie razem stanowi�y prawdziw� odpowied�. : Nie przeprowadzono ankiety i nie zapytano dziennikarza. W swoich artyku�ach ujawnili swoje pogl�dy na temat miejsca pobytu bin Ladena. To si�a publicznych i nieuporz�dkowanych danych. Najprawdopodobniej si�y ameryka�skie nie polega�y na takiej wiedzy opartej na crowdsourcingu. Wiemy dzisiaj, �e ameryka�skie agencje rz�dowe, takie jak NSA, korzystaj� z r�nego rodzaju �r�de� danych, od szpiegowania telefon�w polityk�w najwy�szego szczebla po komunikowanie si� z innymi przez dostawc�w poczty e-mail. Jednak zasada jest taka sama: inteligencja, kt�r� mo�na zastosowa�, pochodzi z agregacji indywidualnych, a w tym przypadku pozornie przypadkowych punkt�w danych. Na tym polega obietnica tego, co nazywamy big data. Sta�o si� jednym z najmodniejszych modnych s��w nowego tysi�clecia. Obejmuje gromadzenie danych wywiadowczych z wcze�niej zabronionego terytorium zestaw�w danych, kt�re s� zbyt du�e, aby mo�na je by�o traktowa� jako bazy danych, cz�sto zawieraj�ce terabajty, a nawet petabajty informacji. Jedn� z najbardziej przekonuj�cych obecnie form jest wykorzystanie danych w mediach spo�eczno�ciowych, dublowania, kt�re ujawnia, czego ka�dy z nas chce, potrzebuje i preferuje. Dane te, wzbogacone o nasze klikni�cia w Internecie, korzystanie z telefonu kom�rkowego i dane o lokalizacji, zapewni� niesamowity wgl�d w nas i nasz� przysz�o��. Firm� o nazwie Fisheye Analytics, oferuje oprogramowanie jako us�ug� analizuj�c� dane medialne na ca�ym �wiecie. Ka�dego miesi�ca analizuje oko�o 70 TB danych tekstowych dla swoich klient�w. Ale dowiedzieli�my si� r�wnie�, �e nie liczy si� rozmiar, ale w�a�ciwe pytanie i w�a�ciwe dane.

Cztery "V" danych

Dane zawsze mia�y warto�� strategiczn�, ale przy ogromnej ilo�ci dost�pnych dzisiaj danych i naszej zdolno�ci do przetwarzania sta�y si� now� form� klasy aktyw�w. W bardzo realnym sensie dane s� teraz nowym odpowiednikiem ropy naftowej lub z�ota. A dzisiaj obserwujemy boom danych rywalizuj�cy z boomem naftowym w Teksasie w XX wieku lub gor�czk� z�ota w San Francisco w XIX wieku. Stworzy� ca�� bran�� i w ostatnich latach przyci�gn�� wiele prasy biznesowej. Ta nowa klasa zasob�w du�ych zbior�w danych jest powszechnie opisywana przez to, co nazywamy "trzema V." Du�e zbiory danych to wszystko, co ma du�� obj�to�� [volume] i du�� pr�dko�� [velocity] i zawiera du�� r�norodno�� informacji [variety] . Opr�cz tych tradycyjnych trzech "V" dodajemy czwarte "V", warto�� [value]. To jest to, czego wszyscy szukaj� i dlatego du�e zbiory danych zyskuj� dzi� tak du�� uwag�. Big data mo�e przybiera� form� danych strukturalnych, takich jak transakcje finansowe, lub danych nieuporz�dkowanych, takich jak zdj�cia lub posty na blogu. Mo�e by� crowdsourcingowy, jak w przypadku Osamy bin Ladena, lub zebrany indywidualnie, jak ka�da firma ubezpieczeniowa od dawna. Paradoksalnie ta warto�� du�ych zbior�w danych jest zwykle reprezentowana w ma�ych danych. Na przyk�ad "Tak / Nie" w pytaniu "Mam kupi� t� firm�, czy nie?" Lub w kodzie geolokalizacyjnym miejsca pobytu Osamy bin Ladena. Poszukiwanie warto�ci to d��enie do ograniczenia du�ych zbior�w danych, aby sta�y si� one "cennymi" danymi. Big data nap�dza tak�e jeden z najwi�kszych trend�w XXI wieku: media spo�eczno�ciowe. Nasze wsp�lne dyskusje, komentarze, polubienia, niech�ci i sieci kontakt�w spo�eczno�ciowych s� teraz wszystkimi danymi, a ich skala jest ogromna. Gdyby wszyscy u�ytkownicy Facebooka byli krajem, by�by to jeden z najwi�kszych na �wiecie z ponad miliardem aktywnych u�ytkownik�w, podczas gdy u�ytkownicy Twittera wysy�aj� miliony tweet�w miesi�cznie na pocz�tku 2013 roku. To pierwszy raz, kiedy mo�emy studiowa� ludzi interakcje i ludzkie dyskusje na takiej g��boko�ci. Ka�dy tweep (u�ytkownik Twittera) lub ka�dy u�ytkownik w Sina Weibo pozostawia za sob� �lad publicznie dost�pnych danych. Ale r�wnie� nasza prywatna komunikacja na Facebooku lub w strefie Qzone mo�e dostarczy� �wietnych informacji: czego szukali�my? Co przeczytali�my? Gdzie poszli�my? Z kim si� kojarzymy? Co jemy? Co kupujemy W skr�cie, wszelkie wyobra�alne interakcje mi�dzyludzkie mo�na znale�� i bada� w sieciach spo�eczno�ciowych. Je�li potrafimy wydobywa� wszystkie te informacje, wyniki wydaj� si� nieograniczone. Wydaje si� nawet mo�liwe, �e mo�emy znale�� miejsce, w kt�rym ukrywa si� Osama bin Laden. W ten spos�b dane w mediach spo�eczno�ciowych zabij� ka�dy sekret. Jednocze�nie, jak ka�dy inny trend technologiczny w naszym �yciu, istnieje du�y szum wok� du�ych zbior�w danych i medi�w spo�eczno�ciowych. Na pocz�tku analizy medi�w spo�eczno�ciowych ludzie wierzyli, �e media spo�eczno�ciowe mog� by� wykorzystane do przekonania kogokolwiek o wszystkim, je�li zostan� po prostu poprawnie przeanalizowane. To oczywi�cie �le. Nawet najlepsze analizy predykcyjne nie mog� zapisa� niew�a�ciwego produktu. W innych przypadkach media spo�eczno�ciowe by�y postrzegane jako magiczna bro� dla marketer�w do tworzenia takiego samego "wirusowego" szumu wok� swoich produkt�w, jak wok� samych medi�w spo�eczno�ciowych. Zobaczymy p�niej, dlaczego tak si� nie sta�o. Dzisiejszy bieg analizy predykcyjnej i pomiaru w mediach spo�eczno�ciowych jest podobny do tego przeprowadzanego na stronach internetowych, gdy ci, kt�rzy uwa�ali, �e posiadanie strony internetowej jest gwarancj� sukcesu w 1996 roku. Tymczasem podstawy analizy du�ych zbior�w danych i medi�w spo�eczno�ciowych stan� si� technologiami wspomagaj�cymi dla wielu z nas, tak jak telefon i Internet. Przyby�y du�e zbiory danych. Zmienia nasze �ycie i spos�b, w jaki prowadzimy dzia�alno��. Ale sukces w przypadku du�ych zbior�w danych b�dzie wymaga� czego� wi�cej ni� tylko danych. Tak jak wojska ameryka�skie musia�y zdecydowa�, czy korzysta� z danych spo�eczno�ciowych crowdsourcingowych czy danych wewn�trznych, firmy b�d� musia�y zdecydowa�, kt�re dane wykorzysta�. Dane, kt�re posiada ka�da firma, mog� by� tak r�ne, jak same firmy, od plik�w dziennika, danych GPS, danych klienta lub maszyny do maszyny i ka�da z nich b�dzie musia�a wybra� swoje �r�d�o danych. Co wi�cej, b�dzie wymaga� w�a�ciwego sposobu analizy, a nast�pnie analizy danych za pomoc� w�a�ciwych analiz. B�dzie to wymaga�o umiej�tno�ci oddzielenia cennych informacji od szumu. Taki jest nasz cel : nauczy� ci� podstawowych zasad tego, co faktycznie wykaza�y badania, i pom�c ci sta� si� jedn� z firm, kt�re b�d� wykorzystywa� du�e zbiory danych do odniesienia sukcesu. �wiat danych jest ogromny i ka�da firma b�dzie musia�a przyjrze� si� w�asnemu zestawowi danych. W ca�ym tek�cie wykorzystamy wiele przyk�ad�w wska�nik�w medi�w spo�eczno�ciowych, nie dlatego, �e uwa�amy, �e media spo�eczno�ciowe s� najbardziej obiecuj�cym zestawem danych do analizy predykcyjnej. W rzeczywisto�ci w przypadku medi�w spo�eczno�ciowych jest odwrotnie. Media spo�eczno�ciowe zapewniaj� najtrudniejsze zbiory danych, o czym dowiemy si� p�niej. Jednak dane z medi�w spo�eczno�ciowych s� �atwo dost�pne dla prawie wszystkich; a zasady, struktury danych i wnioski wyci�gni�te z tego tekstu mo�na �atwo przenie�� na w�asne potrzeby i dost�pno�� danych osobowych. Najpierw sprawd�my, jak obietnica du�ych zbior�w danych mo�e wp�yn�� na Twoj� firm�.

Obietnica

Zwolennicy analizy danych obiecuj� �wietlan� przysz�o��, kt�ra zmieni nasze �ycie. Obiecuj�, �e mo�emy przewidzie� rzeczy, kt�rych nigdy wcze�niej nie znali�my, od punkt�w cenowych po wywiad wojskowy. I maj� racj�. Na przyk�ad w Santa Cruz w Kalifornii aplikacja przewiduje, kt�re miejsca i pory dnia s� najbardziej prawdopodobnymi porami dla przest�pstw. Ostatnio policja z�apa�a dwie kobiety, kt�re zagl�da�y do samochod�w, mia�y wyj�tkowe zachowania i przewozi�y narkotyki . Nie mieli poj�cia, �e dokona�a tego aplikacja do du�ych zbior�w danych, kt�ra z kolei pomog�a w zapobieganiu kilku przest�pstwom. Chocia� dane prognostyczne s� od wielu lat wykorzystywane w pracy policji, jest to przyk�ad wykorzystania ich w czasie rzeczywistym. Oczywi�cie policyjne metody predykcyjne to tylko jeden z najbardziej egzotycznych przyk�ad�w tego, w jaki spos�b mo�emy wykorzysta� moc du�ych zbior�w danych. Dzisiaj widzimy, �e dane s� coraz cz�ciej wykorzystywane w naszym �wiecie:

• Google wykorzystuje dane do przewidywania nast�pnej fali grypy.

• IBM wykorzystuje dane do optymalizacji przep�ywu ruchu w Sztokholmie i uzyskania najlepszej mo�liwej jako�ci powietrza.

• Zafu, 2Style4You i inni u�ywaj� samodzielnie zebranych danych dotycz�cych cia�a, aby sugerowa� ubrania, kt�re najlepiej do Ciebie pasuj�.

• Dr Jeffrey Brenner, lekarz z New Jersey, korzysta z danych rozliczeniowych w celu wyznaczenia gor�cych punkt�w, w kt�rych mo�na znale�� najbardziej z�o�one i kosztowne przypadki opieki zdrowotnej w jego mie�cie, w ramach programu obni�ania koszt�w opieki zdrowotnej.

• Narodowe Centrum Transformacji Akademickiej korzysta z eksploracji danych, aby zrozumie�, kt�rzy studenci maj� wi�ksze szanse na odniesienie sukcesu na danym kursie.

• Firmy ubezpieczeniowe oferuj� ni�sze stawki na ubezpieczenie samochodu, je�li dobrowolnie umie�cisz urz�dzenie GPS w samochodzie. Wykorzystuj� te dane, aby przewidzie�, czy wkr�tce zdarzy si� wypadek samochodowy, a nast�pnie odpowiednio dostosowa� polis� ubezpieczeniow�.

• Wielu detalist�w wykorzystuje dane do rekomendacji produkt�w i ukierunkowanych reklam do tego stopnia, �e wiedz�, �e mo�esz by� w ci��y.

�yjemy teraz w �wiecie, w kt�rym wszystko i wszystko mo�na zmierzy�. "Dane" wydaj� si� by� now� ideologi�. Jeste�my dopiero na pocz�tku d�ugiej podr�y, w kt�rej b�dziemy mierzy� i analizowa� coraz wi�cej informacji o wszystkich i wszystkim, aby nap�dza� nasze firmy i nasze decyzje. Ten �wiat sta� si� r�wnie� �r�d�em troski. Konsekwencje tych danych dla prywatno�ci i innych dziedzin spo�ecze�stwa nie s� jeszcze znane, a s� znani krytycy, tacy jak Jaron Lanier, kt�ry prosi ludzi, aby nie wierzyli w �aden wynik wynikaj�cy z "m�dro�ci t�umu". Ponadto zastosowania dane z policji lub wywiadu wojskowego budz� coraz wi�ksz� trosk� o prywatno��. W czasach, gdy agencje ameryka�skie si�gaj� nawet po telefony kom�rkowe swoich najbli�szych sojusznik�w w celu gromadzenia informacji, wielu u�ytkownik�w uwa�a, �e rz�dy i firmy przekroczy�y granic� dopuszczalnego poziomu. Poruszymy niekt�re z tych aspekt�w w ca�ym tek�cie i zalecimy, aby przejrzysto��, a tak�e otwarte dane, by�y g��wnym sposobem przeciwdzia�ania tym obawom. Pomimo tych ostrze�e� i obaw, dla wielu z nas "sterowane danymi" to nowa filozofia zarz�dzania. Economist Intelligence Unit opublikowa� dane ankietowe pokazuj�ce, jak ludzie uwa�aj�, �e du�e zbiory danych pomog� zar�wno decydentom, jak i pracownikom. Mniej wi�cej dwie trzecie uwa�a, �e pomo�e nam to znale�� nowe mo�liwo�ci rynkowe i podejmowa� lepsze decyzje, prawie po�owa uwa�a, �e pomo�e nam lepiej konkurowa�, a ponad jedna trzecia uwa�a, �e poprawi wyniki finansowe i wykorzysta wi�cej mo�liwo�ci. Ale obietnic jest czasem za du�o. Jak ka�da powstaj�ca technologia, du�e zbiory danych s� sprzedawane na ca�ym rynku. Je�li chcesz w to uwierzy�, problemy �wiata - i twojej firmy - mo�na rozwi�za�, zwi�kszaj�c rozmiar zbioru danych lub przegl�daj�c najnowsze tweety. Do tego stopnia, �e Chris Anderson (@ chr1sa), w�wczas redaktor naczelny Wired Magazine, odwa�nie twierdzi�, �e osi�gniemy "The End of Theory", je�li tylko b�dziemy mie� wystarczaj�c� ilo�� danych: "Filozofia za�o�yciela Google to �e nie wiemy, dlaczego ta strona jest lepsza ni� ta: je�li statystyki przychodz�cych link�w m�wi�, �e jest, to wystarczy. " Przysz�o�� jest naprawd� �wietlana, ale nigdy nie b�dzie tak jasna. P�niej om�wimy r�nice mi�dzy korelacj� a przyczynowo�ci� oraz dlaczego jest i zawsze trudno jest zmierzy� przyczynowo��. Tekst zosta� zaprojektowana w celu przeszukiwania wyzwa� i szumu du�ych zbior�w danych. Pomo�e Ci zrealizowa� czwarte "V" , warto�� big data. Nie sama m�dro�� t�umu, ani "wi�cej danych" nie jest warto�ci�. Aby znale�� warto�� w du�ych zbiorach danych, trzeba mie� w�a�ciwe, dobrze sformu�owane pytania, w�a�ciwe metody i w�a�ciwe dane. Tylko wtedy uzyskasz po��dan� przewag� konkurencyjn�

Koncentracja na danych

Mo�esz argumentowa�, �e zawsze chcia�e� by� zorientowany na wyniki. Poniewa� wyniki s� mierzalne, musia�e� by� r�wnie� oparty na danych. Dobrze? Ponadto analiza predykcyjna nie wydaje si� niczym szczeg�lnie nowym, bior�c pod uwag�, �e firmy ubezpieczeniowe u�ywaj� jej od d�u�szego czasu. Sk�d wi�c ten nag�y bieg danych i prognoz? Istniej� dwa g��wne powody tego wi�kszego zainteresowania:

1. Publicznie dost�pnych jest wi�cej danych.

2. Technologia s�u�y do przetwarzania du�ych ilo�ci danych.

Sp�jrzmy na oba te czynniki.

WI�CEJ DANYCH

Obecnie coraz cz�ciej dane staj� si� centrum wielu dyskusji. Kiedy� dane by�y ukryte. Twoja firma ubezpieczeniowa u�y�aby danych do obliczenia polisy, por�wnuj�c dane z danymi wielu grup r�wie�niczych, ale by�o to wysoce poufne. Dzisiaj Twitter rozdaje niekt�re cz�ci swoich 140 milion�w tweet�w. StackOverflow pozwala ka�demu na pobranie kompletnych odpowiedzi na pytania dotycz�ce programowania. Opr�cz tych firm istniej� rynki danych i rz�dy, kt�re oferuj� dost�p do danych spisowych i innych typ�w danych. Obj�to�� tych danych r�wnie� ro�nie, w niekt�rych przypadkach wyk�adniczo. Od 2011 r. Biblioteka Kongresu gromadzi�a miesi�cznie ponad 200 terabajt�w informacji; a w najlepszych miesi�cach na Twitterze przesy�anych jest ponad p� miliarda tweet�w.

Sk�d pochodzi termin "Big Data"?

Steve Lohr (@SteveLohr) najlepiej wyja�ni� pochodzenie terminu "Big Data" na blogu New York Times. W 1989 r. Erik Larson, p�niej autor bestseller�w, w tym "Diabe� w bia�ym mie�cie" i "W ogrodzie zwierz�t", napisa� artyku� dla magazynu Harper, kt�ry zosta� przedrukowany w "Washington Post". Artyku� zaczyna si� od zastanowienia autora, jak ca�a ta �mieciowa wiadomo�� dociera do jego skrzynki pocztowej i przechodzi do bran�y marketingu bezpo�redniego. Artyku� zawiera te dwa zdania: "W�a�ciciele du�ych zbior�w danych twierdz�, �e robi� to z korzy�ci� dla konsumenta. Ale dane mog� by� wykorzystywane do cel�w innych ni� pierwotnie zamierzone. " W pewnym sensie "du�y" w du�ych danych odnosi si� tutaj do pierwszego "V", volume , idei du�ej ilo�ci danych. Jednak "du�e" w du�ych danych czasami odnosi si� do danych o du�ej pr�dko�ci, w kt�rych nale�y podejmowa� szybkie decyzje, przyjmuj�c dane w ci�gu kilku milisekund, a nawet mikrosekund. Na przyk�ad w przypadku mechanizm�w okre�lania stawek w czasie rzeczywistym system ma mniej ni� 25 milisekund na reakcj� na ��danie z serwera reklam. Serwer reklam podaje punkty danych, takie jak: "Mo�emy wy�wietla� Twoj� reklam� osobie w tej witrynie z zasi�gu tego adresu IP . Ile jeste� got�w zap�aci�? "Dlatego agencja reklamowa musi rozbi� sw�j w�asny du�y zestaw danych w ci�gu kilku milisekund, aby m�c odpowiedzie�. Innym przyk�adem danych o du�ej pr�dko�ci s� komputery, kt�re handluj� zapasami w u�amku milisekundy. Pojawi� si� nowy �wiat danych w czasie rzeczywistym. Czasami termin "du�e zbiory danych" jest tak�e u�ywany w przypadku ��czenia danych strukturalnych i niestrukturalnych. Kiedy� naukowcy zajmuj�cy si� danymi patrzyli tylko na dane ustrukturyzowane. P�niej zrozumiemy, dlaczego tego rodzaju dane s� znacznie �atwiejsze w obs�udze i tworzeniu modeli. Dzisiaj jednak dane cz�sto pochodz� z r�nych rodzaj�w. Dowieszy si�, kiedy i w jaki spos�b pomocne s� nieustrukturyzowane dane, takie jak dane medialne u�ywane do przewidywania lokalizacji bin Ladena. Na przyk�ad mo�na prze�ama� miliony nieustrukturyzowanych tweet�w, aby dowiedzie� si�, czy pogoda w Nowym Jorku jest �adna. Jednak prawdopodobnie �atwiej jest po prostu pobra� pojedynczy punkt danych ze strony internetowej o pogodzie: s�oneczny czy nie? We wszystkich tych dyskusjach na temat danych czwarte "V" jest zapomnianym, ale w�a�nie dlatego w og�le robimy dane. Dlatego my skoncentrujemy si� na znalezieniu "warto�ci" w danych.

LEPSZA TECHNOLOGIA

Drugim powodem nadziei zwi�zanych z analityk� predykcyjn� jest to, �e dzisiaj istnieje technologia umo�liwiaj�ca szybkie (szybkie) przetwarzanie du�ych ilo�ci (obj�to�ci) zdecentralizowanych danych w r�nych formatach (r�norodno��). W przesz�o�ci analizy predykcyjne polega�y na "�adowaniu" wysoce ustrukturyzowanych danych do hurtowni du�ych zbior�w danych i przetwarzaniu wszystkich danych. Takie podej�cie sta�o si� coraz trudniejsze i dro�sze. Dzisiaj firmy zaczynaj� radzi� sobie z nieznan� ilo�ci� danych, kt�re mog� by� przechowywane w dowolnym miejscu, w dowolnej jako�ci i dowolnej strukturze. Podstawowa technologia nazywa si� Hadoop. Apache Hadoop, reprezentowany przez logo ��tego s�onia, mo�na opisa� jako ekosystem open source. W tym ekosystemie mo�na wyszukiwa� bardzo du�e, rozproszone i lu�no ustrukturyzowane zestawy danych. Dzi�ki Hadoop mo�esz wykona� nast�puj�ce czynno�ci:

• Zamiast trzyma� wszystkie dane w jednej bazie danych, mo�esz pracowa� z rozproszonymi bazami danych.

• Zamiast przetwarza� wszystkie dane na jednym serwerze, mo�esz rozdzieli� przetwarzanie serwera na wiele system�w, tworz�c znacznie pot�niejszy system.

• Zamiast u�ywa� tylko tre�ci ustrukturyzowanych, mo�esz tak�e pracowa� z tre�ciami nieustrukturyzowanymi.

• Zamiast wynik�w "z perspektywy czasu" firmy uzyskuj� wyniki prawie w czasie rzeczywistym. Chocia� symbolizuje ruch du�ych zbior�w danych, Hadoop jest jednym z wielu dost�pnych narz�dzi do pracy z du�ymi rozproszonymi zestawami danych, opr�cz prawdziwej armii firm startowych i konsultingowych zaprojektowanych, aby pom�c Ci zrozumie� du�e zbiory danych z medi�w spo�eczno�ciowych i innych �r�de� . Te narz�dzia i ��czno�� danych tworz� z kolei rewolucj�. To nie jest ksi��ka techniczna, a my zajmiemy si� technologiami tylko w takim zakresie, w jakim jest to konieczne do zrozumienia warto�ci danych. Dzi�ki temu nie poznasz szczeg��w narz�dzi hydraulicznych, takich jak Hadoop lub NoSQL.

Skupienie na Analizie

"Z�oto wymaga wydobycia i przetwarzania, zanim trafi do naszej bi�uterii, elektroniki, a nawet Fort Knox. Ropa wymaga wydobycia i rafinacji, zanim stanie si� benzyn�, kt�ra nap�dza nasze pojazdy. Podobnie dane wymagaj� gromadzenia, eksploracji i wreszcie analizy, zanim b�dziemy w stanie zrozumie� ich prawdziw� warto�� dla przedsi�biorstw, rz�d�w i os�b prywatnych "-�WIATOWE FORUM EKONOMICZNE

Mamy dane i technologi�, wi�c co powstrzymuje nas wszystkich od przej�cia do czwartego "V", warto�ci? Co powstrzymuje nas przed tworzeniem wspania�ych algorytm�w, kt�re z kolei przynosz� wspania�e produkty lub us�ugi zwi�zane z danymi? Ten tekst dotyczy trzech g��wnych wyzwa�, przed kt�rymi stoimy, i sposobu ich rozwi�zania: • Zadaj w�a�ciwe pytanie.

Czy chcesz zwi�kszy� przychody? Zatem pytanie "jak uzyska� najwi�cej wy�wietle� w YouTube" mo�e by� niew�a�ciwym pytaniem - ci widzowie mog� nie by� kupuj�cymi. Dobre pytania s� mierzalne, wykonalne i oparte na wiedzy w dziedzinie. Zadanie w�a�ciwego pytania jest najwa�niejsz� cz�ci� analizy danych i problemem, do kt�rego b�dziemy cz�sto odwo�ywa� si� w tym tek�cie.

• U�yj w�a�ciwych danych.

Du�e dane nazywane s� du�ymi danymi z jakiego� powodu: nie zawsze mo�na je przeanalizowa� bezpo�rednio. Oznacza to, �e wyb�r w�a�ciwych danych (najlepiej danych ustrukturyzowanych i kwantyfikowalnych) wraz z odpowiednimi technikami pr�bkowania jest kluczowym czynnikiem w wydobywaniu wiedzy z tych danych.

• Tworzenie w�a�ciwej miary.

Jak zamieniasz dane w przewidywane poziomy zamiaru zakupu - lub mi�o�ci swojego �ycia w serwisie randkowym? Wska�niki to wymierne czynniki nap�dzaj�ce analiz�, szczeg�lnie w przypadku danych strukturalnych, a analiza danych obraca si� wok� nich. I oczywi�cie r�wnie wa�nym czwartym krokiem jest nauka i podejmowanie w�a�ciwych dzia�a� na podstawie tych wynik�w. Zacznijmy rozumie� te wyzwania, wykorzystuj�c dwa najwi�ksze sukcesy w biznesowym wykorzystaniu du�ych zbior�w danych od tego momentu: rozw�j Amazon.com jako rynku i dominacja Google jako wybranej wyszukiwarki. Pierwszy z nich opiera� sw�j sukces na systemie rekomendacji predykcyjnych, podczas gdy drugi opracowa� metryk� danych - algorytm PageRank Google - dzi�ki czemu wyniki wyszukiwania by�y znacznie bardziej trafne dla u�ytkownika. Oba te przypadki omawiamy bardziej szczeg�owo w dalszej cz�ci .Oba te sukcesy s� przyk�adami zadawania w�a�ciwego pytania. Amazon ma wi�cej produkt�w ni� jakikolwiek inny detalista. �aden klient nie znalaz�by ich �atwo. Dlatego pytanie Amazon brzmia�o: "Kt�ry produkt pasuje do jakiej osoby? "Wyzwanie Google by�o podobne: pr�bowa�o znale�� stron�, kt�rej szukasz, na podstawie kilku wskaz�wek, kt�re otrzyma�a nie tylko z twojego wyszukiwania, ale tak�e z Twojej lokalizacji i nie tylko. Pomoc w znalezieniu w�a�ciwego pytania jest g��wnym celem tej ksi��ki. Nale�y jednak pami�ta�, �e nie ma okre�lonego i bezwzgl�dnego sposobu znalezienia w�a�ciwego pytania lub, je�li masz pytanie, znalezienia w�a�ciwej miary. To bardzo zale�y od twojej firmy i twoich danych. Poza kuloodpornym, pi�ciostopniowym podej�ciem, korzystamy z praktycznych przyk�ad�w. Poka�emy Ci, jak sformu�owa� konkretne pytanie dotycz�ce typowych cz�ci Twojej firmy. Tekst daje kr�tkie wprowadzenie do �wiata danych, a co wa�niejsze, wprowadzenie do czwartego "V", warto�ci. Dowiesz si�, jak stworzy� przewag� konkurencyjn�. W praktycznych przyk�adach pokazujemy najcz�stsze pu�apki i sposoby ich unikni�cia. Wreszcie wsp�lnym w�tkiem w ka�dym rozdziale jest uczenie si� na podstawie tego, czego dane mog� ci� nauczy�. Nie tylko w oczywistym sensie wyci�gania wniosk�w z zawartych w nim informacji, ale tak�e w bardziej subtelnym sensie znajomo�ci ogranicze� danych. Czasami dane w mediach spo�eczno�ciowych mog� da� ci wgl�d, kt�rego nie znajdziesz nigdzie indziej, poniewa� agreguj� �lady cyfrowe du�ej rzeszy ludzi. Czasami mo�e brakowa� krytycznych informacji lub nawet wprowadzi� Ci� w b��d. Na przyk�ad liczba wy�wietle� w YouTube mo�e lub nie by� skorelowana z zamiarami zakupu, a strumie� na Twitterze mo�e mierzy� najg�o�niejsze g�osy stronnicze, a nie m�dro�� t�umu. A czasami te dane b�d� szczerze ci� ok�amywa�, aby pasowa�y do cel�w innych, temat, kt�ry om�wimy szczeg�owo w dalszej cz�ci. Uczenie si� na podstawie danych i ich charakteru jest kluczow� umiej�tno�ci�, kt�r� mamy nadziej� Ci� nauczy�. Ka�da jednostka organizacyjna ma swoje unikalne pytania, metryki i wymagania dotycz�ce danych. Sprzeda� martwi si� o najwy�sz� lini�, marketing chcia�by osi�gn�� zasi�g marki, a rozw�j produktu chce wiedzie�, jak ulepszy� produkt. Rozdzia� po rozdziale, przygl�damy si� r�nym cz�ciom organizacji, aby pokaza�, w jaki spos�b analiza danych wewn�trznych i zewn�trznych mo�e ulepszy� Tw�j biznes: po prostu przejd� do swojej sekcji, jak wyja�niono w poni�szej sekcji, dla przyk�ad�w z prawdziwego �wiata

Co oferujemy

Mamy jasny cel: pom�c ci zadawa� w�a�ciwe pytania, mierzy� w�a�ciwe dane i odpowiedni� tre�� oraz uczy� si� na podstawie spostrze�e�, aby odkry� czwarte "V" du�ych zbior�w danych. Damy Ci og�lny obraz, kt�rego potrzebujesz, aby skorzysta� z szerokiej gamy dost�pnych narz�dzi - narz�dzi, kt�re b�d� ewoluowa� poza zakres tego tekstu. Pami�taj, �e nie ka�dy problem, kt�ry omawiamy , b�dzie problemem du�ych zbior�w danych; wr�cz przeciwnie. Problemy b�d� dotyczy�y danych i pomiaru danych. Ale czy b�dziesz potrzebowa� przetwarzania NoSQL lub milisekund, aby rozwi�za� ten problem? Nie. Naszym celem jest nauczenie Ci�, dok�d dane mog� Ci� poprowadzi�, zanim zwi�kszysz problemy z danymi w g�r�. Wykorzystamy wiele przyk�ad�w z analizy medi�w spo�eczno�ciowych. Ostatecznie chcemy nauczy� Ci�, jak pracowa� z du�� i coraz bardziej powi�zan� spo�ecznie sieci� danych, aby ulepszy� Tw�j biznes. Nie musisz koniecznie czyta� od pocz�tku do ko�ca aby. W zale�no�ci od poziomu wiedzy mo�esz porusza� si� po tek�ciena kilka sposob�w, w zale�no�ci od tego, jak by� si� opisa�. Jeste�:

Mened�erem?

Szukasz porady mened�erskiej dla w�asnego dzia�u, takiego jak marketing lub PR, aby� m�g� przej�� od razu do w�a�ciwej cz�ci. Nast�pnie przejd� do reszty lub do cz�ci w kt�rej wyja�niamy, w jaki spos�b mo�na nadu�ywa� dowolnej metryki. Je�li Twoja funkcja lub dzia� nie jest obecna, nie rozpaczaj, poniewa� p�niej oferujemy ma�y przewodnik do zaprojektowania w�asnego systemu ask-measure - learn.

Data sicience?

Najwi�kszym problemem w dziedzinie nauki o danych jest cz�� uczenia si�. Co m�wi� nam te dane? Prawdopodobnie utworzy�e� pulpit nawigacyjny po pulpicie nawigacyjnym dla swoich partner�w biznesowych, ale zastanawia�e� si�, jak przenie�� go na wy�szy poziom. Wybierz dzia�, kt�ry Ci� najbardziej interesuje i zacznij czyta�. Tekst zawiera wiele niepotwierdzonych historii i przypadk�w biznesowych na temat efektywnego uczenia si� za pomoc� danych.

Kto� z barakiem czasu?

Je�li znajdujesz si� mi�dzy poprzednimi opisami i nie masz du�o czasu, przejd� do cz�ci 2. Sprzeda� ma t� zalet�, �e jest �atwa do zmierzenia. Dlatego pytania, koncepcje i metryki tej ksi��ki mo�na chyba najlepiej opisa� tutaj.

Cz�� 1

W kontek�cie marketingowym media spo�eczno�ciowe mog� by� wykorzystywane do tworzenia zasi�gu, �wiadomo�ci marki lub zamiaru zakupu - a ka�da z nich to bardzo r�ne rzeczy, kt�re cz�sto wymagaj� innego podej�cia i r�nych �rodk�w. Korzystaj�c ze studi�w przypadk�w i przyk�ad�w, przeanalizowano, w jaki spos�b mo�na wykorzystywa� media spo�eczno�ciowe w celu dotarcia do potencjalnych klient�w lub ich dotarcia oraz jakie czynniki wp�ywaj� na ich skuteczno��. By� mo�e, co wa�niejsze, eksploruje mit "osoby wp�ywowej" i wirusowego rozprzestrzeniania si� informacji.

Cz�� 2

Jaka jest r�nica mi�dzy zasi�giem a zamiarem zakupu? W przypadku handlu spo�eczno�ciowego opartego na danych, zamiar zakupu jest cz�sto uzale�niony od czynnik�w, takich jak oceny i recenzje generowane przez u�ytkownik�w, zdolno�� do rozpowszechniania informacji o produkcie w sieci spo�eczno�ciowej oraz rekomendacje oparte na zachowaniu konsument�w w Internecie. Om�wiono mechanik� i technologi� system�w rekomendacji le��cych u podstaw sprzeda�y online.

Cz�� 3

Public relations ma dwie kluczowe funkcje: rozpowszechnianie informacji i ostrzeganie ludzi. Dystrybucja informacji za po�rednictwem medi�w spo�eczno�ciowych ma t� zalet�, �e pozwala na ocen� zar�wno poszczeg�lnych sieci, jak i tego, jak centralni ludzie znajduj� si� we w�asnej sieci, podczas gdy wska�niki zaanga�owania w media spo�eczno�ciowe i topologia sieci mog� pom�c z wyprzedzeniem przewidzie� krytyczne sytuacje. Opisano, jak zmieni� si� PR w erze medi�w spo�eczno�ciowych i du�ych zbior�w danych.

Cz�� 4

Teraz mamy mo�liwo�� komunikowania si� z naszymi klientami za po�rednictwem medi�w spo�eczno�ciowych i wykorzystania ich �ladu danych, aby uzyska� wszystko, od poziom�w zadowolenia klient�w po zautomatyzowane analizy biznesowe. Analizuje ewolucj� obs�ugi klienta i CRM w erze du�ych zbior�w danych.

Cz�� 5

Media spo�eczno�ciowe i dane CRM s� potencjalnie bogatym �r�d�em danych z bada� rynku. Mo�liwo�ci, takie jak Facebook Graph, pozwalaj� nam dowiedzie� si� wi�cej o docelowych grupach ludzi ni� kiedykolwiek wcze�niej, a niekt�re firmy wykorzystuj� swoje dane CRM, aby utrzymanie klient�w by�o jeszcze bardziej przewidywalne. Ale czy media spo�eczno�ciowe wnosz� cenny wgl�d lub ha�as w ten proces? Analizuje potencjaln� przysz�o�� spo�ecznego CRM w badaniach biznesowych.

Cz�� 6

Masz nowego przyjaciela Czy to bot, czy nie? Tu om�wiono wszystkie sposoby, w jakie fa�szywe wyniki mog� wp�ywa� na analityk� medi�w spo�eczno�ciowych w dowolnej z tych funkcji, od fa�szywych obserwuj�cych i tweet�w po "astroturfing", ruch lub kampani� wykorzystuj�c� automatyczne to�samo�ci w mediach spo�eczno�ciowych. Bada tak�e, w jaki spos�b natura medi�w spo�eczno�ciowych mo�e by� niew�a�ciwie wykorzystywana do tworzenia fa�szywej wirusowo�ci, wp�yw�w i intencji.

Cz�� 7

Czy mo�emy przewidzie�, czy odniesiesz sukces na studiach, kto wygra nast�pne wybory, czy jaka praca b�dzie dla Ciebie najlepsza? Przeanalizowano rol� du�ych zbior�w danych i medi�w spo�eczno�ciowych w analizach predykcyjnych - nauk� przewidywania przysz�ych zachowa� na podstawie danych. Jest to podsumowanie, kt�re pokazuje, dok�d zaprowadzi nas przysz�o�� analityki du�ych zbior�w danych i medi�w spo�eczno�ciowych.

Sekcja II: Zbuduj sw�j w�asny system Ask-Measure-Learn

Czy tw�j dzia� nie by� wcze�niej wspomniany? Czy zosta�o wspomniane, ale tw�j problem z danymi jest nieco inny ni� tutaj om�wiony? A mo�e chcesz zag��bi� si� w mechanik� analizy du�ych zbior�w danych? Je�li tak, to ta sekcja jest dla Ciebie. Tutaj pomo�emy ci sformu�owa� w�asny system zapytaj-zmie�-naucz si�, aby zag��bi� si� w dane:

Cz�� 8

Analiza du�ych zbior�w danych zaczyna si� od zadawania z g�ry w�a�ciwego pytania. Zdobycie milion�w wy�wietle� na YouTube lub tysi�cy obserwuj�cych na Twitterze mo�e by� niezwykle cenne lub w og�le nic nie znaczy�, w zale�no�ci od tego, co jest szczeg�lnie interesuj�ce: Czy chcesz znale�� nowych klient�w? Czy chcesz zwi�kszy� przychody? A mo�e po prostu chcesz budowa� �wiadomo�� marki? Podobnie, metody eksploracji danych mog� �atwo da� pszenic� lub plewy, w zale�no�ci od zadanego pytania i pomiar�w / danych u�ytych do udzielenia odpowiedzi. Przeanalizowano, jak tworzy� mierzalne i wykonalne pytania, kt�re pomog� Ci zrozumie�, co media spo�eczno�ciowe mog� Ci powiedzie� za pomoc� du�ych zbior�w danych.

Cz�� 9

Chcesz analizowa� dane z tweet�w opublikowanych na temat problemu lub u�y� czyjej� sieci spo�eczno�ciowej do ukierunkowanego marketingu. Czy wybierasz dok�adne dane? Czy to z w�a�ciwego kontekstu? Czy zgadza si� z Twoimi celami strategicznymi? Czy mylisz zwi�zek przyczynowy z korelacj�? W tym rozdziale om�wiono prac� z danymi ustrukturyzowanymi i nieustrukturyzowanymi, wyb�r odpowiednich funkcji i zintegrowanie ich z w�a�ciwym pytaniem.

Cz�� 10

To, co mierzysz, w du�ej mierze decyduje o tym, jakie korzy�ci uzyskasz z medi�w spo�eczno�ciowych i analizy du�ych zbior�w danych. Na przyk�ad "polubienia" na Facebooku mog� mie� bardzo r�ne znaczenie dla twoich cel�w w por�wnaniu do danych z ankiety, wyniku promotora netto lub innych miar. Opisano przyk�ady i ryzyka zwi�zane z powszechnymi wska�nikami w mediach spo�eczno�ciowych, a tak�e "paradoksem pomiaru", w kt�rym sam pomiar mo�e mie� wp�yw na to, co jest mierzone. Je�li dobrze wykonamy nasz� prac�, zaczniesz postrzega� analityk� du�ych zbior�w danych i medi�w spo�eczno�ciowych jako ustrukturyzowany proces, kt�ry rozpoczyna si� na d�ugo przed przy�o�eniem palca do klawiatury, z jasnymi celami biznesowymi dotycz�cymi sposobu wykorzystania i wykorzystania tych danych. Zacznijmy od nauki, jak wykorzystywa� dane do cel�w marketingowych

Analityka Z Social MediaSocial Media

Wprowadzenie