Votre guide sur la façon de gérer le Big Data

Big Data

Le terme "Big Data» est devenu un mot à la mode et a été salué comme la solution à de nombreux problèmes et comme l’avenir des entreprises. Mais qu'est-ce que c'est? Beaucoup de gens confondent le Big Data avec de grands ensembles de données ; cette confusion semble courante parmi les personnes non techniques. Le Big Data est quelque chose de plus profond. Il ne s'agit pas seulement d'une grande quantité de données. Il s'agit de l'utilisation de ces données pour créer de la valeur commerciale.

Considérez le Big Data comme différents types de « matériaux » : si vous êtes architecte, vous pouvez avoir différents types de matériaux, comme le bois, l'acier ou le béton. Vous pouvez utiliser ces matériaux dans vos projets pour construire quelque chose qui répond à vos besoins en termes de fonction et de forme. Par exemple, si vous essayez de construire un abri rapidement et à moindre coût, vous pouvez utiliser de l'acier car il est peu coûteux et facilement disponible. Le choix du matériau dépend de l'objectif poursuivi.

Comment fonctionne le Big Data ?

Nous pourrions utiliser de petits ensembles de données pour savoir ce qui s’est passé au cours des 10 dernières années (le type d’informations qui entrent dans un livre d’histoire). Cependant, si nous voulons prédire ce qui se passera dans les 10 prochaines années ou exécuter des simulations sur la façon dont le monde aurait pu être différent compte tenu des différents choix au cours de cette période, vous avez besoin du Big Data.

Malheureusement, il n'est pas facile de donner une définition exacte du Big Data : à mesure que les données deviennent plus complexes et que leur utilisation évolue, notre compréhension du Big Data évolue également. La meilleure façon d'y penser est de savoir si votre projet nécessite 100 To de capacité de stockage ou des temps de requête supérieurs à 1 minute sur 100 Po de données. Vous appelleriez probablement cela du big data (il n’y a pas de ligne dans le sable officielle ; si vous le savez quand vous le voyez, c’est suffisant).

Le Big Data n’est pas non plus utile en soi. Il doit être utilisé pour résoudre un problème – il se trouve que de nombreux problèmes sont mieux résolus avec le Big Data. Par exemple, Google Flu Trends (tendances Google) utilise le Big Data pour prédire le nombre de cas de grippe dans chaque État en fonction du nombre de personnes recherchant certains mots-clés liés à la grippe. La National Security Agency des États-Unis utilise l'analyse des mégadonnées pour identifier les réseaux de trafic d'êtres humains dans le monde entier en analysant des milliards d'appels téléphoniques et de courriels à la recherche de mots clés ou des phrases qui pourraient indiquer une menace imminente.

En résumé : le Big Data nous permet de faire des choses que nous ne pouvions pas faire auparavant, car nous n'aurions pas eu la capacité de stockage ou la vitesse de traitement nécessaires. Des exemples de base pourraient inclure l’élaboration de meilleures prévisions météorologiques ou de recommandations de films.

Comment gérer le Big Data

Avant d'aborder les aspects techniques du stockage et de l'interrogation du Big Data (et il y a beaucoup de choses à aborder), il est essentiel de discuter de l'entreposage de données et de son évolution. Comme nous l'avons mentionné précédemment, de nombreuses organisations considèrent le « Big Data » comme un terme générique désignant de grandes quantités de données ; ce n'est pas tout à fait exact. Les outils d'entreposage de données et de business intelligence (BI) permettent à des organisations entières, et pas seulement aux data scientists, d'utiliser leurs données en extrayant des informations de ces vastes ensembles de données et en les présentant dans des formats faciles à comprendre tels que des graphiques, des diagrammes, des tableaux, etc. Il est plus facile pour les employés non techniques de comprendre comment donner un sens aux données, plus ils sont susceptibles de les utiliser.

Retrouver toutes vos données

La première étape du Big Data est de retrouver toutes vos données (elles peuvent être réparties dans plusieurs bases de données ; elles peuvent aussi exister uniquement sur papier). Bien que cela semble simple, c'est assez délicat, surtout si vous avez affaire à des téraoctets ou des pétaoctets d'informations. Pour ce faire, les organisations utilisent un processus appelé ETL (extract-transform-load), qui consiste à prendre de gros morceaux de données brutes et à les transformer en tableaux structurés pour faciliter les interrogations par les outils de BI. Ce processus peut être très gourmand en ressources car de nombreux types de matériel sont requis : serveurs de test, équilibreurs de charge, pools de connexions. Il existe d'autres moyens d'extraire des données à partir de sources telles que des fichiers plats, des bases de données tierces, etc., mais celle-ci est la plus simple à mettre en œuvre et la plus courante.

Une fois que toutes vos données ont été consolidées dans un emplacement central où les outils de BI peuvent y accéder, l'étape suivante consiste à créer un entrepôt de données qui hébergera vos actifs pour une interrogation facile. En plus d'accéder rapidement aux informations pertinentes en cas de besoin, la création d'un entrepôt de données permet une collaboration entre les membres de l'équipe sur leur analyse de ces ensembles de données, selon les experts de RemoteDBA.com.

La différence entre un serveur de stockage de données et un entrepôt de données réside dans le fait que ce dernier dispose d'outils intégrés qui permettent aux data scientists d'interroger et de télécharger leurs ensembles de données à des fins d'analyse. En revanche, un serveur de stockage leur permettra d’accéder uniquement (et peut-être de transférer) uniquement certaines données. Par exemple, Google Cloud Storage est un serveur de stockage, tandis que BigQuery fait partie du produit Cloud Warehouse de Google.

Enfin, il est temps de passer aux choses sérieuses et de commencer à interroger cette énorme quantité de données. Cependant, comme il existe plusieurs façons de procéder – et chacune a ses avantages et ses inconvénients – il est crucial de comprendre les différentes approches avant de commencer.

Solutions de stockage de données

L'outil de requête le plus basique fourni avec les solutions de stockage Big Data est SQL, ou Structured Query Language, qui permet aux utilisateurs de créer des instructions qui leur permettront de récupérer des informations à partir de bases de données construites sur ces plates-formes |LS|10|RS|. Cette approche peut être constructive si vous êtes déjà familier avec SQL car elle vous permet de faire des choses comme des JOIN, des GROUP BY, etc. Cependant, cette méthode présente certains inconvénients car tout le monde ne sait pas lire ou écrire des requêtes SQL,

L’avantage apparent de l’utilisation de ces outils est qu’ils permettent aux employés non techniques de « poser facilement des questions » sur les données. Cependant, cette approche présente plusieurs inconvénients :               

Ces outils peuvent être très gourmands en ressources car ils doivent convertir vos requêtes en SQL avant de les exécuter sur le serveur. Vous devez créer un schéma distinct ou stocker chaque nouvel ensemble de données à télécharger pour de nombreuses bases de données. Si les utilisateurs ne sont pas familiers avec les complexités des bases de données et des schémas relationnels, cela pourrait entraîner des désagréments importants lors de l'analyse, par exemple en téléchargeant accidentellement différents ensembles de données sous le mauvais schéma et en ne sachant pas comment procéder.

En haut