دليلك لكيفية التعامل مع البيانات الضخمة

البيانات الكبيرة

على المدى "البيانات الكبيرةلقد أصبحت كلمة طنانة، وتم الترحيب بها باعتبارها الحل للعديد من المشكلات ومستقبل الأعمال. ولكن ما هو؟ كثير من الناس يخلطون بين البيانات الضخمة ومجموعات البيانات الكبيرة؛ يبدو هذا الارتباك شائعًا بين الأشخاص غير التقنيين. البيانات الضخمة هي شيء أعمق. إنها ليست مجرد كمية هائلة من البيانات. إنه استخدام تلك البيانات لإنشاء قيمة تجارية.

فكر في البيانات الضخمة باعتبارها أنواعًا مختلفة من "المواد" - إذا كنت مهندسًا معماريًا، فقد يكون لديك أنواع مختلفة من المواد، مثل الخشب أو الفولاذ أو الخرسانة. يمكنك استخدام هذه المواد في مشاريعك لبناء شيء يلبي احتياجاتك من حيث الوظيفة والشكل. على سبيل المثال، إذا كنت تحاول إنشاء ملجأ بسرعة وبتكلفة معقولة، فيمكنك استخدام الفولاذ لأنه غير مكلف ومتوفر بسهولة. يعتمد اختيار المواد على الهدف المطروح.

كيف تعمل البيانات الضخمة؟

قد نستخدم مجموعات بيانات صغيرة لمعرفة ما حدث خلال السنوات العشر الماضية (نوع المعلومات التي تدخل في كتاب التاريخ). ومع ذلك، إذا أردنا التنبؤ بما سيحدث في السنوات العشر القادمة أو إجراء عمليات محاكاة حول كيف كان من الممكن أن يكون العالم مختلفًا في ظل الخيارات المختلفة خلال تلك الفترة، فأنت بحاجة إلى البيانات الضخمة.

لسوء الحظ، ليس من السهل إعطاء تعريف دقيق للبيانات الضخمة، فمع ازدياد تعقيد البيانات وتطور استخدامها، يتطور أيضًا فهمنا للبيانات الضخمة. أفضل طريقة للتفكير في الأمر هي إذا كان مشروعك يتطلب 100 تيرابايت من سعة التخزين أو أسرع من دقيقة واحدة من مرات الاستعلام على 100 بيتا بايت من البيانات. من المحتمل أن نطلق على هذه البيانات اسم البيانات الضخمة (لا يوجد خط رسمي في الرمال؛ إذا كنت تعرفها عندما تراها، فهذا جيد بما فيه الكفاية).

كما أن البيانات الضخمة ليست مفيدة في حد ذاتها. يجب أن يتم استخدامها لحل مشكلة ما، ويحدث أن العديد من المشكلات يتم حلها بشكل أفضل باستخدام البيانات الضخمة. على سبيل المثال، مؤشرات الإنفلونزا بحسب Google (اتجاهات جوجل) يستخدم البيانات الضخمة للتنبؤ بعدد حالات الأنفلونزا في كل ولاية بناءً على عدد الأشخاص الذين يبحثون عن كلمات رئيسية معينة متعلقة بالأنفلونزا. تستخدم وكالة الأمن القومي الأمريكية تحليل البيانات الضخمة لتحديد شبكات الاتجار بالبشر في جميع أنحاء العالم عن طريق مسح تريليونات من المكالمات الهاتفية ورسائل البريد الإلكتروني بحثًا عنها الكلمات الدالة أو العبارات التي يمكن أن تشير إلى تهديد وشيك.

خلاصة القول: تتيح لنا البيانات الضخمة القيام بأشياء لم نتمكن من القيام بها من قبل لأننا لم نكن نمتلك سعة التخزين أو سرعة المعالجة اللازمة. قد تتضمن الأمثلة الأساسية تطوير توقعات أفضل للطقس أو توصيات للأفلام.

كيفية التعامل مع البيانات الضخمة

قبل أن ندخل في الجوانب الفنية لتخزين البيانات الضخمة والاستعلام عنها (وهناك الكثير مما يجب تغطيته)، من الضروري مناقشة تخزين البيانات وتطورها. كما ذكرنا سابقًا، تأخذ العديد من المؤسسات مصطلح "البيانات الضخمة" كمصطلح شامل للكميات الكبيرة من البيانات؛ هذا ليس دقيقا تماما. تتيح أدوات تخزين البيانات وذكاء الأعمال (BI) للمؤسسات بأكملها - وليس فقط لعلماء البيانات - استخدام بياناتها عن طريق استخلاص الرؤى من مجموعات البيانات الضخمة هذه وتقديمها بتنسيقات سهلة الفهم مثل الرسوم البيانية والمخططات والجداول وما إلى ذلك. فمن الأسهل على الموظفين غير التقنيين فهم كيفية فهم البيانات، وكلما زادت احتمالية استخدامها.

العثور على كافة البيانات الخاصة بك

الخطوة الأولى في البيانات الضخمة هي العثور على جميع بياناتك (يمكن نشرها عبر عدة قواعد بيانات، كما يمكن أن تكون موجودة على الورق فقط). على الرغم من أن هذا يبدو بسيطًا، إلا أنه صعب جدًا - خاصة إذا كنت تتعامل مع تيرابايت أو بيتابايت من المعلومات. تقوم المؤسسات بذلك من خلال عملية تُعرف باسم ETL (استخراج-تحويل-تحميل)، والتي تتضمن أخذ أجزاء كبيرة من البيانات الأولية وتحويلها إلى جداول منظمة لتسهيل الاستعلام عنها بواسطة أدوات ذكاء الأعمال. يمكن أن تكون هذه العملية كثيفة الاستخدام للموارد نظرًا لأن العديد من أنواع الأجهزة مطلوبة: الخوادم المرحلية، وموازنات التحميل، وتجمعات الاتصال. هناك طرق أخرى لاستخراج البيانات من مصادر مثل الملفات الثابتة وقواعد بيانات الطرف الثالث وما إلى ذلك، ولكن هذه هي الأسهل في التنفيذ والأكثر شيوعًا.

بمجرد دمج جميع بياناتك في موقع مركزي حيث يمكن لأدوات ذكاء الأعمال الوصول إليها، فإن الخطوة التالية هي إنشاء مستودع بيانات يضم أصولك لسهولة الاستعلام عنها. بالإضافة إلى الوصول إلى المعلومات ذات الصلة عند الحاجة بسرعة، فإن إنشاء مستودع بيانات يسمح بالتعاون بين أعضاء الفريق في تحليلهم لمجموعات البيانات هذه وفقًا للخبراء في RemoteDBA.com.

الفرق بين خادم تخزين البيانات ومستودع البيانات هو أن الأخير يحتوي على أدوات مدمجة تسمح لعلماء البيانات بالاستعلام عن مجموعات البيانات الخاصة بهم وتحميلها للتحليل. في المقابل، سيمكنهم خادم التخزين من الوصول فقط (وربما تنظيم) بعض البيانات. على سبيل المثال، يعد Google Cloud Storage خادم تخزين، بينما يعد BigQuery جزءًا من منتج المستودع السحابي من Google.

أخيرًا، حان الوقت لبدء العمل والبدء في الاستعلام عن هذه الكومة الكبيرة من البيانات. ومع ذلك، نظرًا لوجود عدة طرق للقيام بذلك - ولكل منها مزاياه وعيوبه - فمن الضروري فهم الأساليب المختلفة قبل البدء.

حلول تخزين البيانات

أداة الاستعلام الأساسية التي تأتي مع حلول تخزين البيانات الضخمة هي SQL، أو لغة الاستعلام الهيكلية، والتي تتيح للمستخدمين إنشاء بيانات تمكنهم من استرداد المعلومات من قواعد البيانات المبنية على هذه الأنظمة الأساسية |LS|10|RS|. يمكن أن يكون هذا الأسلوب بناءًا إذا كنت على دراية بـ SQL بالفعل لأنه يسمح لك بالقيام بأشياء مثل JOINs وGROUP BYs وما إلى ذلك. ومع ذلك، هناك بعض العيوب لهذه الطريقة حيث لا يعرف الجميع كيفية قراءة استعلامات SQL أو كتابتها.

الميزة الواضحة لاستخدام هذه الأدوات هي أنها تسمح للموظفين غير التقنيين "بطرح الأسئلة" حول البيانات بسهولة. ومع ذلك، هناك عدة عيوب لهذا النهج:               

يمكن أن تكون هذه الأدوات كثيفة الاستخدام للموارد لأنه يتعين عليها تحويل استعلاماتك إلى SQL قبل تشغيلها على الخادم. يتعين عليك إنشاء مخطط منفصل أو تخزين كل مجموعة بيانات جديدة لتحميلها على العديد من قواعد البيانات. إذا لم يكن المستخدمون على دراية بالتعقيدات الكامنة وراء قواعد البيانات والمخططات العلائقية، فقد يؤدي ذلك إلى بعض الإزعاجات الكبيرة أثناء التحليل، على سبيل المثال، تحميل مجموعات بيانات مختلفة عن طريق الخطأ ضمن مخطط خاطئ وعدم معرفة كيفية القيام بذلك.

الى الاعلى