Seu guia sobre como lidar com Big Data

big data

O termo "Grandes dados”tornou-se uma palavra da moda e foi aclamada como a solução para muitos problemas e para o futuro dos negócios. Mas o que é isso? Muitas pessoas confundem Big Data com grandes conjuntos de dados; essa confusão parece comum entre pessoas não técnicas. Big Data é algo mais profundo. Não é apenas uma grande quantidade de dados. É o uso desses dados para criar valor comercial.

Pense no big data como diferentes tipos de “materiais” – se você é arquiteto, pode ter diferentes tipos de materiais, como madeira, aço ou concreto. Você pode usar esses materiais em seus projetos para construir algo que atenda às suas necessidades de função e forma. Por exemplo, se você está tentando fazer um abrigo de forma rápida e econômica, você pode usar aço porque é barato e está prontamente disponível. A seleção do material depende do objetivo em questão.

Como funciona o big data?

Poderíamos usar pequenos conjuntos de dados para saber o que aconteceu nos últimos 10 anos (o tipo de informação que entra em um livro de história). No entanto, se quisermos prever o que acontecerá nos próximos 10 anos ou realizar simulações sobre como o mundo poderia ter sido diferente dadas as várias escolhas ao longo desse tempo, precisamos de Big Data.

Infelizmente, não é fácil dar uma definição exata para Big Data – à medida que os dados se tornam mais complexos e a sua utilização evolui, o mesmo acontece com a nossa compreensão do Big Data. A melhor maneira de pensar sobre isso é se o seu projeto requer 100 TB de capacidade de armazenamento ou tempos de consulta mais rápidos que 1 minuto em 100 PB de dados. Você provavelmente chamaria isso de big data (não existe uma linha oficial; se você sabe quando vê, isso é bom o suficiente).

Big Data também não é útil por si só. Deve ser usado para resolver um problema – acontece que muitos problemas são melhor resolvidos com Big Data. Por exemplo, Tendências da gripe do Google (tendências do Google) usa big data para prever o número de casos de gripe em cada estado com base no número de pessoas que pesquisam determinadas palavras-chave relacionadas à gripe. A Agência de Segurança Nacional dos EUA utiliza análise de big data para identificar redes de tráfico humano em todo o mundo, verificando triliões de chamadas telefónicas e e-mails em busca de palavras-chave ou frases que possam indicar uma ameaça iminente.

Resumindo: Big Data nos permite fazer coisas que não podíamos antes porque não teríamos a capacidade de armazenamento ou a velocidade de processamento necessárias. Exemplos básicos podem incluir o desenvolvimento de melhores previsões meteorológicas ou recomendações de filmes.

Como lidar com Big Data

Antes de entrarmos nos aspectos técnicos de armazenamento e consulta de big data (e há muito a abordar), é vital discutir o armazenamento de dados e sua evolução. Como mencionamos anteriormente, muitas organizações consideram “Big Data” um termo genérico para grandes quantidades de dados; isso não é totalmente preciso. As ferramentas de armazenamento de dados e business intelligence (BI) permitem que organizações inteiras – não apenas cientistas de dados – usem seus dados extraindo insights desses vastos conjuntos de dados e apresentando-os em formatos fáceis de entender, como gráficos, tabelas, etc. Quanto mais fácil for para os funcionários não técnicos entenderem como dar sentido aos dados, maior será a probabilidade de eles usá-los.

Encontrando todos os seus dados

O primeiro passo no Big Data é encontrar todos os seus dados (eles podem estar espalhados por vários bancos de dados; também podem existir apenas no papel). Embora pareça simples, é bastante complicado – especialmente se você estiver lidando com terabytes ou petabytes de informações. As organizações fazem isso por meio de um processo conhecido como ETL (extrair-transformar-carregar), que envolve pegar grandes pedaços de dados brutos e transformá-los em tabelas estruturadas para facilitar a consulta por ferramentas de BI. Esse processo pode consumir muitos recursos porque são necessários muitos tipos de hardware: servidores de teste, balanceadores de carga, pools de conexões. Existem outras maneiras de extrair dados de fontes como arquivos simples, bancos de dados de terceiros, etc., mas esta é a mais fácil de implementar e a mais comum.

Depois que todos os seus dados forem consolidados em um local central onde as ferramentas de BI possam acessá-los, a próxima etapa é construir um data warehouse que abrigará seus ativos para facilitar a consulta. Além de acessar informações relevantes quando necessário rapidamente, a criação de um data warehouse permite a colaboração entre os membros da equipe na análise desses conjuntos de dados, de acordo com especialistas da RemoteDBA.com.

A diferença entre um servidor de armazenamento de dados e um data warehouse é que este último possui ferramentas integradas que permitem aos cientistas de dados consultar e carregar seus conjuntos de dados para análise. Por outro lado, um servidor de armazenamento permitirá que eles acessem (e talvez preparem) apenas alguns dos dados. Por exemplo, o Google Cloud Storage é um servidor de armazenamento, enquanto o BigQuery faz parte do produto de armazenamento em nuvem do Google.

Finalmente, é hora de ir direto ao assunto e começar a consultar essa grande pilha de dados. No entanto, como existem várias maneiras de fazer isso – e cada uma tem suas vantagens e desvantagens – é crucial compreender as diferentes abordagens antes de começar.

Soluções de armazenamento de dados

A ferramenta de consulta mais básica que vem com soluções de armazenamento de Big Data é SQL, ou Structured Query Language, que permite aos usuários criar instruções que lhes permitirão recuperar informações de bancos de dados construídos sobre essas plataformas |LS|10|RS|. Essa abordagem pode ser construtiva se você já estiver familiarizado com SQL, pois permite fazer coisas como JOINs, GROUP BYs, etc. No entanto, existem algumas desvantagens nesse método, pois nem todo mundo sabe ler ou escrever consultas SQL,

A aparente vantagem de usar essas ferramentas é que elas permitem que funcionários não técnicos “façam perguntas” facilmente sobre os dados. No entanto, existem várias desvantagens nesta abordagem:               

Essas ferramentas podem consumir muitos recursos porque precisam converter suas consultas em SQL antes de executá-las no servidor. Você precisa criar um esquema separado ou armazenar cada novo conjunto de dados para fazer upload para vários bancos de dados. Se os usuários não estiverem familiarizados com as complexidades por trás dos bancos de dados e esquemas relacionais, isso poderá levar a alguns aborrecimentos significativos durante a análise, por exemplo, carregar acidentalmente diferentes conjuntos de dados no esquema errado e não saber como fazê-lo.

Para o topo