Böyük məlumatların idarə olunmasına dair bələdçiniz

böyük verilənlər

termini "Böyük verilənlər” sözünün səs-küyünə çevrilib və bir çox problemlərin həlli və biznesin gələcəyi kimi qiymətləndirilib. Amma bu nədir? Bir çox insanlar Big Data ilə böyük məlumat dəstlərini qarışdırırlar; bu qarışıqlıq texniki olmayan insanlar arasında adi görünür. Big Data daha dərin bir şeydir. Bu, təkcə böyük miqdarda məlumat deyil. Bu, biznes dəyəri yaratmaq üçün həmin məlumatların istifadəsidir.

Böyük məlumatı müxtəlif növ “material” kimi düşünün – əgər siz memarsınızsa, ağac, polad və ya beton kimi müxtəlif növ materiallarınız ola bilər. Funksiya və forma ehtiyaclarınızı ödəyən bir şey qurmaq üçün bu materiallardan layihələrinizdə istifadə edə bilərsiniz. Məsələn, tez və sərfəli bir sığınacaq düzəltməyə çalışırsınızsa, ucuz və asanlıqla əldə oluna biləcəyi üçün poladdan istifadə edə bilərsiniz. Material seçimi qarşıya qoyulan məqsəddən asılıdır.

Böyük verilənlər necə işləyir?

Son 10 ildə baş verənləri bilmək üçün kiçik məlumat dəstlərindən istifadə edə bilərik (tarix kitabına daxil olan məlumat növü). Bununla belə, əgər növbəti 10 ildə nə baş verəcəyini təxmin etmək və ya bu müddət ərzində müxtəlif seçimlər verildikdə dünyanın necə fərqli ola biləcəyinə dair simulyasiyalar aparmaq istəyiriksə, sizə Big Data lazımdır.

Təəssüf ki, Big Data üçün dəqiq bir tərif vermək asan deyil – verilənlər mürəkkəbləşdikcə və onun istifadəsi inkişaf etdikcə, Big Data haqqında anlayışımız da eyni dərəcədə artır. Bu barədə düşünməyin ən yaxşı yolu, layihənizin 100 TB yaddaş tutumu və ya 100 PB məlumat üçün 1 dəqiqədən daha sürətli sorğu tələb etməsidir. Siz yəqin ki, bunu böyük data adlandırardınız (qumda rəsmi xətt yoxdur; onu görəndə bilirsinizsə, bu kifayət qədər yaxşıdır).

Big Data da öz-özünə faydalı deyil. Problemi həll etmək üçün istifadə edilməlidir – elə olur ki, bir çox problem Big Data ilə ən yaxşı şəkildə həll edilir. Məsələn, Google Flu Trends (Google Trendlər) qriplə bağlı müəyyən açar sözlər axtaran insanların sayına əsaslanaraq hər bir ştatda qrip hadisələrinin sayını proqnozlaşdırmaq üçün böyük datadan istifadə edir. ABŞ Milli Təhlükəsizlik Agentliyi trilyonlarla telefon zənglərini və e-poçtları skan edərək dünya üzrə insan alveri şəbəkələrini müəyyən etmək üçün böyük məlumatların təhlilindən istifadə edir. açar sözlər və ya yaxınlaşan təhlükəni göstərə biləcək ifadələr.

Nəticə: Big Data bizə əvvəllər edə bilmədiyimiz şeyləri etməyə imkan verir, çünki lazım olan yaddaş tutumuna və ya emal sürətinə malik olmazdıq. Əsas nümunələrə daha yaxşı hava proqnozları və ya film tövsiyələrinin hazırlanması daxil ola bilər.

Böyük verilənləri necə idarə etmək olar

Böyük məlumatların saxlanması və sorğulanmasının texniki aspektlərinə keçməzdən əvvəl (və əhatə olunacaq çox şey var), məlumatların saxlanması və onun təkamülünü müzakirə etmək çox vacibdir. Daha əvvəl qeyd etdiyimiz kimi, bir çox təşkilatlar “Böyük Məlumat”ı böyük həcmdə məlumat üçün çətir termini kimi qəbul edirlər; bu tam dəqiq deyil. Məlumatların saxlanması və biznes kəşfiyyatı (BI) alətləri təkcə məlumat alimlərinə deyil, bütün təşkilatlara bu böyük verilənlər toplusundan anlayışlar çıxararaq və onları qrafiklər, diaqramlar, cədvəllər və s. kimi asan başa düşülən formatlarda təqdim etməklə öz məlumatlarından istifadə etməyə imkan verir. Qeyri-texniki işçilər üçün verilənləri necə anlamlandırmaq daha asan olarsa, onlardan istifadə etmək ehtimalı daha yüksəkdir.

Bütün məlumatlarınız tapılır

Big Data-da ilk addım bütün məlumatlarınızı tapmaqdır (bir neçə verilənlər bazasına yayıla bilər; o, yalnız kağız üzərində də mövcud ola bilər). Bu sadə səslənsə də, olduqca mürəkkəbdir – xüsusən də terabayt və ya petabayt məlumatla məşğul olursunuzsa. Təşkilatlar bunu ETL (çıxarma-çevirmə-yükləmə) kimi tanınan proses vasitəsilə edir, bu prosesə xam məlumatların böyük hissələrinin götürülməsi və BI alətləri ilə daha asan sorğulanması üçün strukturlaşdırılmış cədvəllərə çevrilməsi daxildir. Bu proses çox resurs tələb edə bilər, çünki bir çox növ avadanlıq tələb olunur: quruluş serverləri, yük balanslaşdırıcıları, əlaqə hovuzları. Düz fayllar, üçüncü tərəf verilənlər bazaları və s. kimi mənbələrdən məlumat çıxarmağın başqa yolları var, lakin bu, həyata keçirmək üçün ən asan və ən çox yayılmışdır.

Bütün məlumatlarınız BI alətlərinin ona daxil ola biləcəyi mərkəzi yerdə birləşdirildikdən sonra növbəti addım asan sorğu üçün aktivlərinizi saxlayacaq məlumat anbarının tikintisidir. Lazım olduqda müvafiq məlumatı tez bir zamanda əldə etməkdən əlavə, məlumat anbarının yaradılması, mütəxəssislərin fikrincə, komanda üzvləri arasında bu məlumat dəstlərinin təhlili ilə bağlı əməkdaşlığa imkan verir. RemoteDBA.com.

Məlumat saxlama serveri ilə məlumat anbarı arasındakı fərq ondadır ki, sonuncuda məlumat alimlərinə məlumat dəstlərini təhlil etmək üçün sorğu-sual etmək və yükləmək imkanı verən alətlər var. Bunun əksinə olaraq, bir saxlama serveri onlara yalnız bəzi məlumatlara daxil olmağa (və bəlkə də mərhələyə) imkan verəcəkdir. Məsələn, Google Cloud Storage yaddaş serveridir, BigQuery isə Google-un bulud anbar məhsulunun bir hissəsidir.

Nəhayət, işə başlamağın və bu böyük məlumat yığınını sorğulamağa başlamağın vaxtı gəldi. Bununla belə, bunu etməyin bir neçə yolu olduğundan – və hər birinin öz üstünlükləri və mənfi cəhətləri var – başlamazdan əvvəl müxtəlif yanaşmaları başa düşmək çox vacibdir.

Məlumat Saxlama Həlləri

Böyük məlumatların saxlanması həlləri ilə gələn ən əsas sorğu aləti SQL və ya Strukturlaşdırılmış Sorğu Dilidir ki, bu da istifadəçilərə bu |LS|10|RS| platformalarının üzərində qurulmuş verilənlər bazalarından məlumat əldə etməyə imkan verəcək ifadələr yaratmağa imkan verir. Əgər siz artıq SQL ilə tanışsınızsa, bu yanaşma konstruktiv ola bilər, çünki o sizə JOIN, GROUP BY və s. kimi işləri görməyə imkan verir. Bununla belə, bu metodun bəzi çatışmazlıqları var, çünki hamı SQL sorğularını oxumağı və ya yazmağı bilmir,

Bu alətlərdən istifadənin aşkar üstünlüyü ondan ibarətdir ki, onlar texniki olmayan işçilərə məlumatlarla bağlı asanlıqla “suallar verməyə” imkan verir. Bununla belə, bu yanaşmanın bir sıra mənfi cəhətləri var:               

Bu alətlər çox resurs tələb edə bilər, çünki onlar sorğularınızı serverə qarşı işə salmazdan əvvəl SQL-ə çevirməlidirlər. Bir çox verilənlər bazası üçün yükləmək üçün ayrı bir sxem yaratmalı və ya hər bir yeni məlumat dəstini saxlamalısınız. İstifadəçilər əlaqəli verilənlər bazası və sxemlərin arxasındakı mürəkkəbliklərlə tanış deyillərsə, bu, təhlil zamanı bəzi əhəmiyyətli narahatlıqlara səbəb ola bilər, məsələn, səhv sxem altında müxtəlif verilənlər toplularını təsadüfən yükləmək və necə edəcəyini bilməmək.

Yuxarıya