Bilotilla filosofiamme on, että Big Datan hyödyntämistä ei saa jättää sen analysointiin, vaan lopputulos tulee viedä takaisin prosesseihin ja jalkauttaa liiketoimintaan. Siksi käytämmekin termiä Practical Big Data. Hankkeet tulisi aloittaa miettimällä käytännön hyötyjä, määrittämällä datan käyttötarkoitus ja sen tuottama arvo yritykselle. Analysoitu Big Data pitää voida jalkauttaa liiketoimintaan takaisin. Käyttötapausten tulisi alkuun olla konkreettisia. Sen sijaan, että puhuttaisiin Big Data -hankkeesta, tulisi esimerkiksi käytännönläheisesti määritellä: ”Analysoimme asiakkaidemme liikkumista kaupassamme wifi-signaalin ja videokuvan avulla, jotta voimme parantaa asiakkaidemme ostokokemusta ja tarjota heille oikeita tuotteita oikeassa paikassa” tai ”Analysoimme tuotantolaitostemme sensoridataa reaaliajassa yhdistettynä säätietoihin, jotta voimme ennustaa laitteen huoltotarpeen, ennen kun se hajoaa.”
Big Data on tullut jäädäkseen ja se vaikuttaa sinunkin elämääsi jo nyt. Kun kuljet kaupungilla puhelin taskussa, katsot tv-sarjaa, ostat verkkokaupasta, laitat kotona saunan päälle tai asioit kaupassa kanta-asiakkaana – todennäköisyys on erittäin suuri, että sinusta kertyy dataa ja joku/jokin analysoi ja hyödyntää sitä. Yrityksille ja liiketoiminnalle Big Data tarkoittaa parempaan tietoon pohjautuvaa reaaliaikaista päätöksentekoa, piilossa olevan informaation hyödyksi käyttämistä, automatisoituja prosesseja, ennustamista ja kilpailukyvyn parantumista.
Gartnerin mukaan 73 % yrityksistä investoi tai harkitsee investoimista Big Dataan, MIT:n mukaan Big Dataan pohjautuvalla päätöksenteolla on 5-6 % vaikutus tuottavuuteen ja McKinseyn näkemys on, että Big Datalla olisi 60 % vaikutus tuottojen kasvuun. Hype termin yllä tulee laantumaan ja termitkin varmasti matkalla vaihtuvat, mutta suuren informaatiomäärän hyödyntäminen ja siihen liittyvät konseptit eivät katoa. Jonain päivänä kaikki data on Big Dataa ja valtavat määrät strukturoimatonta dataa kaikilta elämän osa-alueilta hyödynnetään reaaliajassa.
On selvä, että Big Data avaa aivan uusia mahdollisuuksia tieteellisen tutkimuksen puolella, kuten geeneihin pohjautuvan lääkekombinaation valitseminen sairauteesi. Suorempi vaikutus jokapäiväiseen elämäämme jo nyt ovat sosiaalinen media ja erilaiset sähköiset palvelut, jotka hyödyntävät reaaliaikaista informaatiovirtaa palveluiden parantamiseksi. Sosiaalinen media ja digitaalinen kommunikointi ovat datan tuottajina ja lähteinä kiistattomasti merkittäviä. Parhaimmillaan datan kerääminen näkyy kuluttajalle parantuneena palveluna: Lähikaupasta saat lempituotettasi alennuksen kera, kun se on päässyt jääkaapista loppumaan tai verkkokauppa osaa suositella sinulle sähköpostitse juuri oikeaa kirjaa jo, kun edellinen on viimeisessä luvussa. Myös online tv-palvelu Netflix, jolla on maailmanlaajuisesti yli 50 miljoonaa asiakasta, alkaa olla tuttu jo suomalaisellekin kuluttajalle. Netflix on yksi käytetyimpiä esimerkkejä, kun puhutaan Big Datasta ja ennustavasta analytiikasta ja sen hyödyntämisestä asiakkaan käyttökokemukseen. Netflix kerää käyttäjistään kaiken informaation ja reaaliajassa optimoi käyttökokemusta ja elokuvasuosituksiaan. Netflixin suositut omatuotantosarjat vievät tämän vielä askelta pidemmälle: Katsojien toiminnan analysoinnilla on valittu sarjoihin näyttelijöitä, ohjaajia ja vaikutettu sarjojen aihevalintaan ja julkaisuajankohtiin. Tällä reseptillä Netflix voitti Emmy ja Golden Globe –palkinnot.
Mitä Big Data sitten oikein tarkoittaa valtavan informaatiomäärän lisäksi? Termille ei ole virallista määritelmää, joten sitä käytetään erittäin vapaasti ja räikeästikin. Softatalojen toimesta termi on ylikäytetty ja väärinymmärretty – sanaa käytetään nykyään herkästi, kun markkinoidaan niin perinteistä raportointisovellusta kuin relaatiotietokantaa. Big Datan määrittely myös pelkän datamäärän kautta on ongelmallista, koska toisen suuri datamassa saattaa olla toiselle pieni ja päinvastoin. Paras määritelmä Big Datalle ei olekaan datan määrä vaan uudet datatyypit ja datan monimuotoisuus, kuten esimerkiksi Facebook-tykkäykset, videot, valokuvat tai signaalidata. Kyseenlainen informaatio ei istu hyvin perinteisiin tietovarastoihin tai -kantoihin.
Vuosikymmenten ajan yhtiöiden IT-arkkitehtien suurimpia dataan ja informaatioon liittyviä ongelmia ovat olleet relaatiotietokannan valinta ja sen mallintamiseen liittyvät kysymykset sekä näihin liittyvät suuret hankkeet. Datamäärän räjähtäminen ja uudet keinot analysoida dataa, koneoppiminen, ennustava analytiikka ja Internet-of-Things ovat tuoneet perinteisten relaatiotietokantojen rinnalle ”NoSQL”-kannat, joille ominaista on tietomallittomuus, klusterit ja skaalautuvuus. NoSQL –kannat ja laajemmat Big Data -viitekehykset, kuten Hadoop (HDFS – Hadoop Distributed File System), eivät tule syrjäyttämään lyhyellä aikajänteellä perinteisiä relaatiotietokantoja, vaan arkkitehtuurisesti paras kombinaatio on näiden yhteiselo. Hadoop on kustannustehokasvaihtoehto strukturoimattoman datan massiivisen tallentamiseen.
Big Data –seikkailun toki voi aloittaa ”Data Lake”:n rakentamisella. Data Lake tarkoittaa esimerkiksi Hadoopia, johon yritys voi tallentaa kaiken datansa markkinointikampanjoiden Facebook-tykkäyksistä, sharepoint-dokumenteista tai CAD-kuvista aina tuotantolaitteiden sensoridataan – ja kaikkea siltä väliltä. Käyttötarkoituksen voi keksiä myöhemminkin. Kerätty informaatio on arvokasta myös tulevaisuudessa, vaikkei käyttötarkoitusta heti tietäisikään. Soveltuvin osin myös informaatiolla voi käydä lain puitteissa kauppaa, esimerkiksi Pohjois-Amerikassa vähittäiskauppaketjut myyvät asiakkaan ostohistoriaan liittyvää dataa eteenpäin toisille yrityksille.
Suositeltavaa kuitenkin on lähteä mukaan Big Dataan konkreettiset liiketoimintahyödyt mielessä. Vaikka Big Datan arvo monesti onkin piilossa olevien mallien ja ennalta arvaamattomien relaatioiden löytämisessä, niin usein tämä on vasta seuraava vaihe tiekartalla.
