Ваша кіраўніцтва па працы з вялікімі дадзенымі

Па techkow

Апублікавана на Кастрычнік 19, 2021

Тэрмін "Вялікія дадзеныя» стала модным словам, і яго віталі як рашэнне многіх праблем і будучыню бізнесу. Але што гэта? Многія людзі блытаюць вялікія дадзеныя з вялікімі наборамі дадзеных; гэтая блытаніна здаецца распаўсюджанай сярод нетэхнічных людзей. Big Data - гэта нешта больш глыбокае. Гэта не проста велізарная колькасць даных. Гэта выкарыстанне гэтых даных для стварэння каштоўнасці для бізнесу.

Думайце пра вялікія даныя як пра розныя тыпы «матэрыялаў». Калі вы архітэктар, у вас могуць быць розныя матэрыялы, такія як дрэва, сталь ці бетон. Вы можаце выкарыстоўваць гэтыя матэрыялы ў сваіх праектах, каб пабудаваць нешта, што адпавядае вашым патрэбам у функцыі і форме. Напрыклад, калі вы спрабуеце зрабіць прытулак хутка і эканамічна эфектыўна, вы можаце выкарыстоўваць сталь, таму што яна недарагая і лёгкадаступная. Выбар матэрыялу залежыць ад пастаўленай мэты.

Table of Contents

Як працуюць вялікія дадзеныя?

Мы можам выкарыстоўваць невялікія наборы даных, каб ведаць, што адбылося за апошнія 10 гадоў (тып інфармацыі, якая змяшчаецца ў падручніку гісторыі). Аднак, калі мы хочам прадбачыць, што адбудзецца ў наступныя 10 гадоў, або запусціць мадэляванне таго, як свет мог бы быць іншым з улікам розных выбараў за гэты час, вам патрэбныя вялікія дадзеныя.

На жаль, нялёгка даць дакладнае вызначэнне вялікіх даных: па меры таго, як даныя становяцца ўсё больш складанымі і іх выкарыстанне развіваецца, расце і наша разуменне вялікіх даных. Лепшы спосаб падумаць пра гэта, калі ваш праект патрабуе 100 ТБ ёмістасці для захоўвання або хутчэй за 1 хвіліну для запыту на 100 ПБ даных. Верагодна, вы б назвалі гэта вялікімі дадзенымі (няма афіцыйнай лініі ў пяску; калі вы гэта ведаеце, калі бачыце, гэта дастаткова добра).

Вялікія дадзеныя таксама не карысныя самі па сабе. Яго трэба выкарыстоўваць для вырашэння праблемы — так здарылася, што многія праблемы лепш за ўсё вырашаюцца з дапамогай Big Data. Напрыклад, Google Flu Trends (Google Trends) выкарыстоўвае вялікія дадзеныя для прагназавання колькасці выпадкаў грыпу ў кожным штаце на аснове колькасці людзей, якія шукаюць пэўныя ключавыя словы, звязаныя з грыпам. Агенцтва нацыянальнай бяспекі ЗША выкарыстоўвае аналіз вялікіх даных для выяўлення сетак гандлю людзьмі па ўсім свеце шляхам сканавання трыльёнаў тэлефонных званкоў і электронных лістоў для ключавыя словы або фразы, якія могуць паказваць на непасрэдную пагрозу.

Вынік: Big Data дазваляе нам рабіць рэчы, якія мы не маглі раней, таму што ў нас не было б неабходнай ёмістасці захоўвання або хуткасці апрацоўкі. Асноўныя прыклады могуць уключаць распрацоўку лепшых прагнозаў надвор'я або рэкамендацый па фільмах.

Як апрацоўваць вялікія дадзеныя

Перш чым мы пяройдзем да тэхнічных аспектаў захоўвання і запыту вялікіх даных (а іх трэба шмат), вельмі важна абмеркаваць сховішчы даных і іх эвалюцыю. Як мы згадвалі раней, многія арганізацыі прымаюць «Вялікія дадзеныя» як агульны тэрмін для вялікіх аб'ёмаў дадзеных; гэта не зусім дакладна. Інструменты сховішчаў даных і бізнес-аналітыкі (BI) дазваляюць цэлым арганізацыям, а не толькі спецыялістам па апрацоўцы дадзеных, выкарыстоўваць іх даныя, здабываючы інфармацыю з гэтых велізарных набораў даных і прадстаўляючы іх у простых для разумення фарматах, такіх як графікі, дыяграмы, табліцы і г.д. чым прасцей нетэхнічным супрацоўнікам зразумець, як разумець дадзеныя, тым больш верагоднасць іх выкарыстання.

Пошук усіх вашых даных

Першы крок у Big Data - знайсці ўсе вашы даныя (яны могуць быць размеркаваны па некалькіх базах дадзеных; яны таксама могуць існаваць толькі на паперы). Хоць гэта гучыць проста, гэта даволі складана, асабліва калі вы маеце справу з тэрабайтамі або петабайтамі інфармацыі. Арганізацыі робяць гэта з дапамогай працэсу, вядомага як ETL (выманне-пераўтварэнне-загрузка), які прадугледжвае атрыманне вялікіх кавалкаў неапрацаваных даных і пераўтварэнне іх у структураваныя табліцы для палягчэння запытаў інструментамі BI. Гэты працэс можа быць вельмі рэсурсаёмістым, таму што патрабуецца мноства тыпаў абсталявання: прамежкавыя серверы, балансіроўшчыкі нагрузкі, пулы злучэнняў. Ёсць і іншыя спосабы здабывання даных з такіх крыніц, як плоскія файлы, староннія базы даных і г.д., але гэта самы просты ў рэалізацыі і найбольш распаўсюджаны.

Пасля таго, як усе вашы даныя будуць кансалідаваны ў цэнтральным месцы, дзе інструменты BI змогуць атрымаць да іх доступ, наступным крокам будзе стварэнне сховішча даных, у якім размесцяцца вашы актывы для зручнага запыту. У дадатак да хуткага доступу да адпаведнай інфармацыі, калі гэта неабходна, стварэнне сховішча даных дазваляе супрацоўнічаць членам каманды пры аналізе гэтых набораў даных, як сцвярджаюць эксперты RemoteDBA.com.

Розніца паміж серверам захоўвання дадзеных і сховішчам дадзеных заключаецца ў тым, што апошняе мае ўбудаваныя інструменты, якія дазваляюць спецыялістам па апрацоўцы дадзеных запытваць і загружаць свае наборы даных для аналізу. Наадварот, сервер захоўвання дазволіць ім атрымаць доступ (і, магчыма, падрыхтаваць) толькі некаторыя з дадзеных. Напрыклад, Google Cloud Storage з'яўляецца серверам захоўвання дадзеных, а BigQuery з'яўляецца часткай прадукту воблачнага сховішча Google.

Нарэшце прыйшоў час прыступіць да справы і пачаць запытваць гэты вялікі стос даных. Аднак, паколькі ёсць некалькі спосабаў зрабіць гэта, і кожны мае свае перавагі і недахопы, вельмі важна зразумець розныя падыходы перад пачаткам.

Рашэнні для захоўвання дадзеных

Самы асноўны інструмент запытаў, які пастаўляецца з рашэннямі для захоўвання вялікіх даных, - гэта SQL, або Structured Query Language, які дазваляе карыстальнікам ствараць заявы, якія дазволяць ім атрымліваць інфармацыю з баз дадзеных, створаных на аснове гэтых платформаў |LS|10|RS|. Гэты падыход можа быць канструктыўным, калі вы ўжо знаёмыя з SQL, таму што ён дазваляе вам рабіць такія рэчы, як JOIN, GROUP BY і г.д. Аднак у гэтага метаду ёсць некаторыя недахопы, бо не ўсе ведаюць, як чытаць і пісаць SQL-запыты,

Відавочная перавага выкарыстання гэтых інструментаў заключаецца ў тым, што яны дазваляюць нетэхнічным супрацоўнікам лёгка "задаваць пытанні" дадзеным. Аднак у гэтага падыходу ёсць некалькі недахопаў:

Гэтыя інструменты могуць быць вельмі рэсурсаёмістымі, таму што яны павінны пераўтварыць вашы запыты ў SQL, перш чым запускаць іх на серверы. Вы павінны стварыць асобную схему або захоўваць кожны новы набор даных для загрузкі ў мноства баз даных. Калі карыстальнікі не знаёмыя са складанасцямі рэляцыйных баз даных і схем, гэта можа прывесці да сур'ёзных непрыемнасцяў падчас аналізу, напрыклад, выпадковая загрузка розных набораў даных па няправільнай схеме і няведанне, як гэта зрабіць.