Big data – buzzword s obřím a nenaplněným potenciálem | Marwick.cz
Marwick.cz

Big data – buzzword s obřím a nenaplněným potenciálem

Data 28.2.2020 Lukáš Vincent
Big data – buzzword s obřím a nenaplněným potenciálem

Amazon (nebo vlastně každý větší e-shop) vám díky nim doporučí do košíku něco, co by se vám mohlo hodit. Facebook vám podstrčí příspěvky, které budou konvenovat vašemu vkusu nebo světonázoru. Používají se v logistice, medicíně, meteorologii, ve školství, státní správě, v byznysu, vlastně všude. Farmáři skrze poševní sondy měřící vnitřní teplotu monitorují zdravotní stav svých stád. Big data – buzzword, který se poslední léta točí kolem nás a „neviditelně“ přebírá spolukontrolu nad stále větším kusem našeho okolí.

Logika je prostá. Posun lidských životů do online prostředí ve stylu „co dnes neuděláte pomocí chytrého telefonu / přes internet?“ spolu se zlevňujícími senzory, rostoucí výpočetní silou počítačů a rychlejšími sítěmi generují obrovské množství dat. Tato data lze skrze předem definované postupy a metody zpracovat. Jejich analýza pak může dokonale monitorovat a eventuálně stejně dobře interpretovat jakékoliv interakce. Mezi lidmi, ve veřejném prostoru, v přírodě, kdekoliv. Dat je stále více, stačí najít ten správný vzorec na jejich interpretaci. Množství dat a rychlost jejich přírůstku snad nejlépe popsal ve svém newsletteru NEXT magazín Forbes. Podle něj vznikne každých čtyřiadvacet hodin na světě 18 kvintilionů (osmnáctka a 30 nul) dat, a kdyby tedy každý jeden byte byl velký jako desetikoruna, lidstvo každodenně těmito desetikorunami zaplní 18 (!!!) krychlí o délce strany deset kilometrů. Ještě loni bychom každodenně vytvořenými daty nezaplnili ani tři krychle. A objem nasbíraných dat roste, pokulhává však jejich zpracování. 

Dnes vaří Šéfkuchař Watson
Úspěšné případy známe. Třeba ten sportovní zpopularizoval Michael Lewis v knize Moneyball, podle níž vznikl stejnojmenný snímek zachycující příběh manažera týmu baseballové MLB Billyho Beana, který pomocí pokročilých statistik složí i s podprůměrným rozpočtem tým šampiónů. Společnost IBM zase použila kapacitu svého superpočítače Watson a kulinářskou databázi jednoho z největších webů s recepty k vytvoření Šéfkuchaře Watsona (Chef Watson). Tomu jste řekli, co máte ve své lednici za ingredience a na jaký typ kuchyně máte chuť, a Watson vyplivl recept. Zásadní posun – s dalekosáhlými implikacemi – slibují big data třeba pro pojišťovnictví. To s velkými balíky dat pracovalo vždycky, obvykle ale šlo o data o nějaké sociální skupině. Muži pak dostali jinou nabídku než ženy, ať už šlo o zdravotní, nebo havarijní pojištění, stejně tak existuje dělicí linie v podobě věku. Big data nicméně pomalu začínají nabízet možnost vybírat si „třešinky“ i z těchto celků. Americká společnost LexisNexis podle britského listu Guardian na základě souboru 442 ukazatelů bez souvislosti se zdravotním stavem doporučuje zdravotním pojišťovnám, které zákazníky se jim vyplatí podepsat. A dalo by se jít dál, obor po oboru. 
 

Tyto možnosti mají z dat udělat pro jednadvacáté století stejně hodnotnou komoditu, jako byla ropa pro století dvacáté (a třeba zlato pro ta předchozí). Pravidelně se objevující klišé má v sobě nemalé zrnko pravdy. Třeba mezi deseti nejhodnotnějšími společnostmi světa – Apple, Amazon, Microsoft, Alphabet atd. – dnes nenajdete (s výjimkou staromilské Berkshire Hathaway investičního gurua Warrena Buffetta) firmu, která by svou hodnotu neodvozovala od online přístupu k obrovskému množství dat definujících preference jejich zákazníků. Ostatně ta paralela srovnávající data a ropu v tomto případě funguje ještě dál. Před 108 lety totiž Nejvyšší soud USA uznal tehdejšího ropného hegemona – společnost Standard Oil – za „příliš velkou“ a přinutil ji rozdělit se na 34 menších vzájemně si konkurujících firem. Přesně o tomto postupu, rozdělení na menší společnosti, se aktuálně – zatím nezávazně – diskutuje ve Spojených státech a v Evropě i u dvou asi největších datových sběračů dneška: Facebooku a Googlu.
obr1

Datový analytik, horník 21. století
Aktivní na datovém poli jsou ale skoro všichni. Největší světové společnosti v posledních letech prudce navyšují investice do sbírání dat a jejich analytiky. Podle průzkumu webu ZDNet téměř 92 procent společností ze žebříčku Fortune 1000 – zahrnujícího společnosti jako Coca-Cola, Johnson & Johnson, Mastercard nebo Ford – předpokládá v letošním roce navýšení výdajů do těchto kategorií (55 procent z nich plánuje investovat minimálně 50 milionů dolarů) a potenciální zaostávání na tomto poli považuje za jedno z největších rizik, kterým jejich podnikání aktuálně čelí.

Ruku v ruce pak jdou problémy se zabezpečením dat. Pro firmy jde o zásadní riziko poškození reputace. Průzkumy ukazují, že až 85 procent zákazníků přestává používat služby, kde považují svá data za ohrožená. A konečně tři čtvrtiny firem připouští, že v tuto chvíli získaná data nedokážou dostatečně vytěžit a investice významně promítnout do každodenního i dlouhodobého managementu. Že se z jejich strany zkrátka jedná o strategii „my taky“, aby eventuálně nezaostaly za konkurencí. 

Z těchto obav a okolo kopců nabízených dolarů se rozhořel intenzivní boj dalších společností nabízejících „pomocnou ruku“. Na koláč se vrhly jak tradiční (Microsoft, SAP, EMC, IBM, Oracle), tak nové (Cloudera, Splunk nebo Domo) společnosti. Nabízejí širokou škálu služeb od samotné těžby a čištění dat přes jejich analytiku, vizualizaci až po jejich uskladnění. Takže vybrat si správného obchodního partnera nebo platformu pro datové služby může být pro firmu podobně těžké jako samotné využití dat. Celý tento podpůrný byznys má nicméně mít v příštím roce celosvětový objem mezi padesáti až sto miliardami dolarů. A práce datového analytika má být jedním z nejperspektivnějších zaměstnání blízké budoucnosti. S tím, že už nyní si ti američtí podle webu Glassdoor v průměru vydělávají více než 113 tisíc dolarů ročně. A úkolem těchto jedinců bude především to, aby nedocházelo ke špatnému výkladu. 

Sebrat, protřepat, nemíchat, interpretovat
Protože to je v tuto chvíli Achillova pata celého perspektivního odvětví velkých dat. Třeba Google před deseti lety vzbudil obrovský zájem médií svým „chřipkovým projektem“. Ten hledal epicentra této choroby skrze lokalizované počty vyhledávání termínů spojených s chorobou (příznaky, adresy lékařů, léčebné procesy, nejbližší lékárny, medikace ap.). Měl být mnohem rychlejší, přesnější a levnější než práce amerického Center for Disease Control and Prevention. Časem se bohužel ukázalo – což už média zase tolik nepokryla – že mnohem spolehlivějším prediktorem než algoritmus Google Flu Trend je prostý přehled místního počasí a teplot. V datech získaných přes search engine nejužívanějšího světového vyhledávače totiž bylo příliš šumů. Třeba právě v podobě mediálního vlivu na uživatele Googlu, kteří se, ač úplně zdraví, pod vlivem aktuálních zpráv připravovali na úder nemoci. Data za to samozřejmě nemohou. Pověstný ďábel se skrýval v jejich zpracování. Algoritmy a matematické modely by měly být neutrální, vyvážené, nikomu nepřidávající. I přesto jsou občas nepřesné. Nebo dokonce politicky nekorektní.  

Na začátku listopadu se rozhořel skandál okolo kreditní karty Applu. Její algoritmy přiznávaly dvěma lidem se stejným příjmem a shodnou úvěrovou historií až dvacetkrát rozdílný kreditní rámec. Dělicí linie? Pohlaví žadatele. Algoritmus byl k mužům mnohem štědřejší. Apple, respektive jeho partner pro finanční služby – renomovaná banka Goldman Sachs, algoritmus opravil, škoda ale byla napáchána. Ani firma této velikosti stahující si špičkové experty z nejlepších univerzit se nedokázala vyhnout „dětské chorobě“ – bezmezné důvěře v data a algoritmus. Seberete obrovské množství dat. Protřepete. Nemícháte. Nacpete je do počítače. Ten vyplivne výsledky, váš datový expert je interpretuje. O tom, jestli je daná interpretace správná, by se ale daly vést dalekosáhlé diskuze. Na tyto úkoly nejsme jako lidé zatím dokonale připraveni a v řadě případů prostě jen hádáme. 

Informatik Jevin West a biolog Carl Bergstrom dokonce na toto téma před třemi lety na University of Washington otevřeli studenty vysoce vyhledávaný (jeho kapacita se zaplnila za méně než šedesát sekund) seminář Calling Bullshit in the Age of Big Data. Hlavním důvodem podle obou vědců citovaných magazínem New Yorker byla potřeba reagovat na novou formu „bullshitu“. Zatímco třeba na verbální bláboly jsme se už podle Westa s Bergstromem jako lidstvo poměrně adaptovali, v těch podepřených daty – zvlášť pokud nejsou z oboru, v kterém máme hlubší znalosti – poměrně silně tápeme. Vizualizace dat v podobě nejrůznějších grafů se ve větší míře v médiích objevují zhruba posledních čtyřicet let a naše imunita vůči nesmyslům v nich obsaženým je řádově nižší. Ostatně i největší dosavadní datový skandál, tedy ovlivnění amerických prezidentských voleb společností Cambridge Analytica, je i přes nezpochybnitelný potenciál sociálních sítí šířit eventuálně nepravdivý obsah do jednotlivých společenských bublin podle řady expertů postaven na vodě. Zpochybňují totiž schopnost společnosti Cambridge Analytica dostát svým slibům o ovlivnění voleb a považují to spíš za velkohubý marketing. 

obr2
Zkoumat se dá vše: počty aut na parkovišti i tweety o vyhazovech. Jen pozor na interpretaci
Stoprocentně se tak zatím prosazuje především sektor „středně velkých“ nebo též alternativních dat. Podle odhadů agentury Bloomberg už dokonce tento subsektor letos pokořil hranici miliardy dolarů. Tato alternativní data používají třeba investoři jako podklad ke svým rozhodnutím. Logika je opět velmi podobná. Posbírejte maximální objem dostupných dat z netradičního zdroje (ideálně takového, ke kterému budete mít přístup jako jediní) a ta za pomoci algoritmů nebo i bez nich interpretujte. Americké hedge fondy tímto způsobem například odhadují tržby jednotlivých maloobchodních řetězců podle satelitních snímků parkovišť u jejich nákupních center, jiné zase monitorují a kvantifikují dopravu mířící k logistickým centrům největších světových producentů elektroniky nebo automobilů. Apurv Jain, ekonom zabývající se umělou inteligencí, který přednáší na Harvard Business School, zase odhaduje vývoj americké nezaměstnanosti na základě analýzy necelého čtvrt milionu twitterových účtů, jejichž majitelé v poslední době tweetovali o zisku nebo ztrátě zaměstnání. Velmi úspěšně. Možnosti použití jsou opět nekonečné, potenciální problémy bohužel také. Jak upozorňují experti, tato data a jejich interpretace nemají žádnou historii a jejich vypovídací hodnota je otázkou.

Podobným otazníkům stále čelí i velká data. Jak napsal ekonom Tim Harford ve své eseji pro Financial Times, průkopníci „velkých dat“ slibovali čtyři zásadní věci: (1) Analýza dat měla přinášet naprosto přesné výsledky. (2) Možnost zachytit každý jednotlivý datový bod, což mělo poslat tradiční techniky statistického vzorkování do výslužby. (3) Konec hledání příčin a důsledků, protože statistická korelace nám řekne vše potřebné. (4) A vlastně i zbytnost vědců či statistiků, protože data – sesbíraná v dostatečném množství – zkrátka budou mluvit sama za sebe. Časem se ukázalo, že tato očekávání byla „poněkud přehnaná“. V současnosti tak velká data jedou na vlně, která je neustále posouvá dopředu, ve většině byznysových odvětví nicméně stále musí být doplněna některou z tradičních disciplín.

Podle Aidana Slingsbyho, šéfa katedry datové vědy na University of London, citovaného magazínem Raconteur, třeba v podobě průzkumu trhu tradiční metodou. „Datová věda pomáhá identifikovat korelace, takže datoví analytici můžou nacházet souvislosti, které ostatní nevidí,“ tvrdí Slingsby s tím, že datová analytika je jakousi další vrstvou interpretace a stále bude potřeba zkušeností, které pomohou získané informace zařadit do kontextu. Jak ve stejném textu uvádí Ben Page, šéf největší britské výzkumné agentury IPSOS Mori: „Průzkum trhu je o porozumění lidským bytostem, jejich chování a motivacím. To žádná data sama o sobě rozklíčovat nikdy nedokážou.“ David Slánský, šéf kompetenčního centra KPMG pro data a analytiku, jeho myšlenku ještě doplňuje: „Více než 60 % úsilí a pozornosti při práci s datovou analytikou připadne na definici potřeb organizace, interpretaci výsledků a zajištění, že se analytické výstupy správně používají. Zhruba 30 % zabere hledání a příprava dat a jen necelých 10 % zbývá na vlastní analytiku (ať jakkoliv pokročilou).“

autor
Lukáš Vincent
Autor

Češi mají méně v peněženkách, zůstávají ale optimisty

Češi mají méně v peněženkách, zůstávají ale optimisty

Index finanční situace domácností v květnu 2020 poprvé po desetiletém růstu klesl a je na úrovni roku 2017. Projděte si data, která sbírá STEM ve spolupráci s KPMG.

České firmy a etika

České firmy a etika

Nahlásit podezření na nekalou činnost umožňuje zaměstnancům většina firem. Často ale chybí ujištění, že jim za to nehrozí žádná odveta. Jaké jsou další nedostatky etických kodexů?

Automobilový průmysl: revoluce začínají potichu

Automobilový průmysl: revoluce začínají potichu

Konektivita a digitalizace jsou klíčovými faktory, ukazuje průzkum KPMG mezi manažery, kteří sedí za volanty světových automobilek.