Opas Big Datan käsittelyyn

Suuri data

Termi "Suuri data” on tullut muotisanaksi, ja sitä on kehuttu ratkaisuksi moniin ongelmiin ja liiketoiminnan tulevaisuuteen. Mutta mikä se on? Monet ihmiset sekoittavat Big Datan suuriin tietokokonaisuuksiin; tämä sekaannus näyttää yleiseltä ei-teknisten ihmisten keskuudessa. Big Data on jotain syvempää. Kyse ei ole vain valtavasta datamäärästä. Kyse on näiden tietojen käytöstä liikearvon luomiseen.

Ajattele big dataa erityyppisinä "materiaaleina" – jos olet arkkitehti, sinulla voi olla erilaisia materiaaleja, kuten puuta, terästä tai betonia. Voit käyttää näitä materiaaleja projekteissasi rakentaaksesi jotain, joka täyttää toiminnallisuuden ja muodon tarpeitasi. Jos esimerkiksi yrität tehdä suojan nopeasti ja kustannustehokkaasti, voit käyttää terästä, koska se on halpaa ja helposti saatavilla. Materiaalin valinta riippuu kulloinkin tavoiteltavasta tavoitteesta.

Miten big data toimii?

Saatamme käyttää pieniä tietojoukkoja tietääksemme, mitä on tapahtunut viimeisen 10 vuoden aikana (historiakirjaan tallennettava tieto). Kuitenkin, jos haluamme ennustaa, mitä tapahtuu seuraavan 10 vuoden aikana, tai ajaa simulaatioita siitä, kuinka maailma olisi voinut olla erilainen tuona aikana useilla valinnoilla, tarvitset Big Dataa.

Valitettavasti Big Datan tarkkaa määritelmää ei ole helppo antaa – kun data monimutkaistuu ja sen käyttö kehittyy, myös ymmärryksemme Big Datasta muuttuu. Paras tapa ajatella asiaa on, jos projektisi vaatii 100 Tt tallennuskapasiteettia tai nopeampia kuin 1 minuutin kyselyitä 100 PB datalla. Luultavasti kutsuisit sitä big dataksi (ei ole virallista linjaa hiekkaan; jos tiedät sen nähdessään sen, se riittää).

Big Data ei myöskään ole hyödyllistä sinänsä. Sitä on käytettävä ongelman ratkaisemiseen – sattuu niin, että monet ongelmat ratkeavat parhaiten Big Datan avulla. Esimerkiksi Google Flu Trends (Google Trends) käyttää big dataa ennustaakseen flunssatapausten määrän kussakin osavaltiossa perustuen tiettyjä flunssaan liittyvillä avainsanoilla hakevien ihmisten määrään. Yhdysvaltain kansallinen turvallisuusvirasto käyttää big data -analyysiä tunnistaakseen ihmiskauppaverkostot maailmanlaajuisesti skannaamalla biljoonien puheluiden ja sähköpostien avainsanoja tai ilmauksia, jotka voisivat viitata uhkaavaan uhkaan.

Bottom line: Big Data antaa meille mahdollisuuden tehdä asioita, joita emme voineet aiemmin, koska meillä ei olisi ollut tarvittavaa tallennuskapasiteettia tai käsittelynopeutta. Perusesimerkkejä voivat olla parempien sääennusteiden tai elokuvasuositusten kehittäminen.

Kuinka käsitellä Big Dataa

Ennen kuin käsittelemme big datan tallennuksen ja kyselyn teknisiä näkökohtia (ja katettavaa on paljon), on tärkeää keskustella tietovarastosta ja sen kehityksestä. Kuten mainitsimme aiemmin, monet organisaatiot pitävät "Big Dataa" kattoterminä suurille tietomäärille; tämä ei ole täysin tarkkaa. Tietovarastoinnin ja liiketoimintatiedon (BI) työkalut antavat kokonaisille organisaatioille – ei vain datatieteilijöille – käyttää tietojaan poimimalla oivalluksia näistä laajoista tietojoukoista ja esittämällä ne helposti ymmärrettävissä muodoissa, kuten kaavioissa, kaavioissa, taulukoissa jne. Ei-teknisten työntekijöiden on helpompi ymmärtää tietojen järkeä, sitä todennäköisemmin he käyttävät sitä.

Löytää kaikki tietosi

Ensimmäinen askel Big Datassa on löytää kaikki tietosi (se voidaan hajauttaa useisiin tietokantoihin; se voi myös olla vain paperilla). Vaikka tämä kuulostaa yksinkertaiselta, se on melko hankalaa – varsinkin jos käsittelet teratavuja tai petatavuja tietoa. Organisaatiot tekevät tämän prosessilla, joka tunnetaan nimellä ETL (extract-transform-load), jossa otetaan suuria paloja raakadataa ja muunnetaan ne jäsennellyiksi taulukoiksi BI-työkalujen kyselyjen helpottamiseksi. Tämä prosessi voi olla erittäin resurssiintensiivinen, koska vaaditaan monenlaisia laitteistoja: välipalvelimia, kuormituksen tasaajia, yhteyspooleja. On olemassa muita tapoja poimia tietoja lähteistä, kuten litteistä tiedostoista, kolmannen osapuolen tietokannoista jne., mutta tämä on helpoin toteuttaa ja yleisin.

Kun kaikki tietosi on koottu keskeiseen paikkaan, josta BI-työkalut voivat käyttää niitä, seuraava vaihe on tietovaraston rakentaminen, johon resurssit ovat helppoja kyselyitä varten. Sen lisäksi, että tietovaraston luominen voi tarvittaessa saada nopeasti käyttöönsä oleellisia tietoja, se mahdollistaa tiimin jäsenten välisen yhteistyön näiden tietojoukkojen analysoinnissa asiantuntijoiden mukaan. RemoteDBA.com.

Ero tiedontallennuspalvelimen ja tietovaraston välillä on, että jälkimmäisessä on sisäänrakennetut työkalut, joiden avulla datatieteilijät voivat tehdä kyselyjä ja ladata tietojoukkojaan analysoitavaksi. Sitä vastoin tallennuspalvelin mahdollistaa niiden pääsyn (ja ehkä vaiheen) vain joihinkin tiedoista. Esimerkiksi Google Cloud Storage on tallennuspalvelin, kun taas BigQuery on osa Googlen pilvivarastotuotetta.

Lopuksi on aika ryhtyä töihin ja alkaa kyselemään tätä suurta tietokasaa. Koska tähän on kuitenkin useita tapoja – ja jokaisella on etunsa ja haittansa – on tärkeää ymmärtää eri lähestymistavat ennen aloittamista.

Tietojen tallennusratkaisut

Yleisin Big Data -tallennusratkaisujen mukana tuleva kyselytyökalu on SQL eli Structured Query Language, jonka avulla käyttäjät voivat luoda lausekkeita, joiden avulla he voivat hakea tietoja näiden alustojen päälle rakennetuista tietokannoista |LS|10|RS|. Tämä lähestymistapa voi olla rakentava, jos tunnet SQL:n jo ennestään, koska sen avulla voit tehdä esimerkiksi JOIN- ja GROUP BY:itä. Tällä menetelmällä on kuitenkin joitain haittoja, koska kaikki eivät osaa lukea tai kirjoittaa SQL-kyselyjä,

Näiden työkalujen ilmeinen etu on, että niiden avulla ei-tekniset työntekijät voivat helposti "kysyä" tiedoista. Tällä lähestymistavalla on kuitenkin useita haittoja:               

Nämä työkalut voivat olla erittäin resurssivaltaisia, koska niiden on muutettava kyselysi SQL:ksi ennen kuin ne voidaan suorittaa palvelimella. Sinun on luotava erillinen skeema tai tallennettava jokainen uusi tietojoukko, jotta voit ladata useita tietokantoja. Jos käyttäjät eivät tunne relaatiotietokantojen ja skeemojen taustalla olevia monimutkaisia tekijöitä, tämä voi aiheuttaa merkittäviä häiriöitä analyysin aikana, esimerkiksi erilaisten tietojoukkojen lataamiseen vahingossa väärän skeeman mukaisesti ja tietämättömyydestä.

Huipulle