O que é Big Data? Por que ele é importante atualmente?

Esse não costuma ser o assunto do momento na mesa de domingo com a família ou mesmo na roda de cerveja com os amigos, exceto que seja dominada por profissionais de TI. E com essa informação, se você não fazia a menor ideia do que é Big Data, já começa a desconfiar.

Mas você não precisa ser um profissional envolvido com informática para usufruir ou mesmo conhecer o que é e como ele interfere de maneira decisiva em muitas áreas que estamos envolvidos direta ou indiretamente.

O que é Big Data?

Como ocorre na maioria dos casos ligados a TI, em que a quase totalidade das nomenclaturas faz o uso do idioma inglês, a tradução literal pode ou não dar ideia sobre o que se trata. Neste caso, a tradução significa “grandes dados” ou para quem já tem ao menos uma noção do que é, um grande banco de dados.

Todavia, esse é um caso em que apenas traduzir, não define o que é. Primeiro porque apenas tamanho dos dados, não é requisito único para classificar algo como elegível a categoria de Big Data. Além disso, o que é grande para uns, pode não ser tanto para outros. Há alguns aspectos que somados e requisitos atendidos, podem fazer com um conjunto de dados / informações assuma essa condição ou classificação.

Conter um grande volume de dados, é sim um pré-requisito, mas não o único. O quanto o volume de dados cresce ao longo do tempo, ou seja, a velocidade em que isso se dá, a natureza e/ou diversidade dos dados e como ela pode ser categorizada, a autenticidade da informação ou o quão segura ela é em termos de confiabilidade, bem como a relevância que ela tem para produzir alternação de cenários, são outros fatores que normalmente são considerados.

Para entender melhor o porquê da consideração destes demais aspectos, é importante entender a relação que eles têm entre si e como compõem o todo do banco de dados, se é que podemos restringir este conjunto de dados a esta denominação.

Crescimento do Volume de Dados

Você pode ter um banco de dados gigantesco, que contemple absolutamente tudo o que sua empresa fez ao longo de décadas de existência e por essa razão, é natural que o volume seja grande. Mas se ao longo do tempo o crescimento desses dados – como resultado de inclusão de vendas, faturamento, estoque, despesas, receitas e todo tipo de dado organizacional – pouco afeta o volume total e, sobretudo, a natureza desses dados, não podemos classificar esse banco como Big Data.

Se por outro lado, o volume de novas informações acrescidas ao que você já tem, é representativo em termos totais, de tal forma que tem a capacidade de mudar o perfil geral desses dados, podemos admitir que outra condição fundamental foi atendida e o banco é elegível a ser Big Data. Você consegue imaginar o volume e a taxa de crescimento de dados que o Google e o Facebook têm diariamente? São casos extremos, mas é mais ou menos disso que estamos falando!

Natureza e/ou Diversidade dos Dados

É importante compreender que o mundo moderno e as tecnologias existentes não apenas produzem grandes volumes de dados, mas como a natureza e a diversidade destes dados muda e chega mesmo a ser inédita em muitos casos.

Em um passado recente, basicamente os bancos de dados eram destinados a armazenar apenas texto e números. E mesmo esses dados legíveis, poderiam ser classificáveis em categorias limitadas e bem definidas. Não havia dúvida e nem dificuldade para quem modelava um banco de dados, como classificar tabelas de faturamento ou de estoque.

Mas e o que dizer de um conteúdo extremamente dinâmico e variável do qual é composto um perfil pessoal em uma rede social como o Facebook? As pessoas postam textos, imagens, vídeos e sabe-se lá mais o que virá em breve! Como o Facebook e qualquer empresa que lide com esta realidade, categoriza cada informação publicada por seus mais de 2,3 bilhões de usuários?

Este é um exemplo claro de natureza e variedade de dados, que exige novas abordagens tanto em termos de armazenamento, organização, manipulação e interpretação da informação, de forma que ela possa ser útil na tomada de decisões.

Mais que isso, diferentes formatos de conteúdo já começam a produzir dados que antes não se imaginava possível. Em um futuro não muito distante, você vai apenas postar uma foto das suas últimas férias em uma praia qualquer e a sua rede social além de identificá-lo na foto, será capaz de identificar que foi em Cancun ou uma ilha da Polinésia Francesa e até determinar o ponto exato da praia em que estava, apenas pela análise da imagem. Neste momento, uma imagem deixará de ser apenas uma imagem.

Autenticidade da Informação

Definir autenticidade, é definir que você é você mesmo e não outra pessoa. Em relação aos dados, é a mesma coisa. Há segurança quanto a integridade do dado? A fonte que fornece o dado é segura? Os dados não sofreram manipulação ou alteração?

É assegurar por todos os meios possíveis, que a alimentação dos dados coletados, é cercada de mecanismos que são capazes de garantir que os dados são fidedignos, ou seja, são fiéis. Não estão suscetíveis a erros na coleta, na transmissão e na categorização, para consequente armazenamento. Mais que isso, não são adulteráveis por quaisquer meios.

Compreende-se a preocupação quanto a isso, pois dados falsos, mesmo que levemente alterados, podem significar conclusões equivocadas. Quer um exemplo? Imagine que a NASA – ela foi a primeira a usar o termo Big Data – vá enviar uma sonda de exploração à Marte e para isso, precisa definir entre outras coisas, melhor dia, horário e condições de órbita do planeta vermelho para lançamento. Um erro em algum dos dados usados nos complexos cálculos que são feitos, pode significar que o foguete de lançamento não tenha o combustível necessário para chegar ao destino.

Ou seja, esse exemplo real demonstra que uma conclusão errada, decorrente de um dado incorreto, pode em casos extremos significar perdas bilionárias e talvez até vidas e reforça o quão relevante é garantir a autenticidade dos dados.

Relevância da Informação

Toda informação armazenada em um banco de dados, mesmo os mais simples, precisa ter importância, ou seja, ela precisa atender a um fim, um propósito, um objetivo. Simplesmente armazenar dados sem que eles valham para algo, é criar um “bando de dados”.

E não pense você que isso é incomum. Ao contrário, a avaliação de muitos bancos de dados destinados aos mais diversos fins, revela que muita informação armazenada, não tem destinação alguma. Em alguns casos, são dados insensíveis, ou que não tem a capacidade de alterar qualquer análise que se faça deles.

Portanto, a informação deve ser capaz de modificar, alterar, revelar coisas, valendo em maior ou menor grau para alguém ou para alguma tomada de decisão. Um exemplo real, ainda usando o lançamento da sonda por parte da NASA, saber que no dia planejado para o lançamento, haverá uma tempestade solar, é um dado de alta relevância para o sucesso da missão.

Como funcionam Big Datas?

Essa não é uma pergunta que se responda de forma que atenda todas as realidades. Isso porque atualmente pode constituir uma solução mais simples ou mais complexa, mesmo que o que é considerado simples, não seja tanto assim.

Há alguns fatores que fazem parte de uma solução de Big Data, que significam investimentos pesados, seja por parte financeira, bem como da tecnologia envolvida. Na verdade, o correto é o plural, ou seja, tecnologias.

O primeiro ponto de uma infraestrutura de Big Data, refere-se aos dados propriamente ditos. Para tanto, é necessário sistemas que coletem de foma apropriada os dados e que haja infraestrutura (hardware e software) para armazená-los, normalmente fazendo uso de storages, que são servidores especializados em armazenamento de grandes volumes de dados e que dependendo do porte da solução, podem ocupar bastante espaço em data centers.

Outro ponto fundamental, são os sistemas envolvidos em categorização e análise dos dados coletados. Isso começa já na coleta dos dados propriamente dita e continua no seu armazenamento e manipulação. Os sistemas mais avançados reúnem diferentes tecnologias que integradas produzem os resultados necessários e desejados.

As empresas com mais recursos, costumam usar Inteligência Artificial e Machine Learning, para processar reunir, organizar e analisar informação. Até mesmo dados oriundos de certos gadgets de Internet da Coisas (IoT), podem fazer parte disso e um caso em que isso vem sendo usado de maneira intensa, são os sistemas que auxiliam no funcionamento de veículos autônomos.

Se são necessários muitos servidores de armazenamento, também são necessários outros tantos para fornecer recursos computacionais para que os sistemas – a Inteligência Artificial, o Machine Learning e tudo o mais que fizer parte – produzam as saídas das avaliações de dados, significando muita memória e processamento envolvidos.

Tudo isso e muitos outros detalhes, são necessários para que se dê uma destinação útil ao gigantesco volume de dados que uma solução adequada de Big Data pode representar. Um exemplo prático e real do uso de soluções de Big Data, é o Twitter, que quase em tempo real, consegue coletar os dados publicados por cada usuário, avaliar as hashtags associadas e produzir por exemplo, os Trending Topics.

Dado o poder computacional associado, criar um sistema como o do Twitter, é quase brincadeira de criança. Empresas como o Google e o Facebook, usam isso de maneira extensiva em boa parte da administração dos dados que são coletados na Internet e produzidos pelos usuários, respectivamente.

Por que Big Data é importante?

Em um mundo em que o volume de informação ou conhecimento produzidos é muito maior do que qualquer pessoa seja capaz de imaginar e cujo ritmo de crescimento e acúmulo cresce em curva exponencial, é fundamental contar com um arsenal tecnológico capaz não apenas de armazenar o que se produz de dados, mas tirar conclusões úteis deles.

Se você usa um smartphone intensamente, instalando e usando diferentes aplicativos, para ir aos lugares, para comprar, para se comunicar com as pessoas, para interagir nas redes sociais, entre outras ações, saiba que uma ou várias empresas podem saber mais de você que você mesmo!

Apenas para citar um exemplo, o Google pode saber onde e quando vai, através do Google Maps. Que tipos de assunto lhe interessam, pelas pesquisas que faz. Para quem envia e-mails e de quem os recebe, quantas vezes e quando. Com quem se comunica. Quando quer comprar algo ou mesmo vender. Ele “sabe” muita coisa, a respeito de muita gente.

A partir deste conhecimento que é armazenado e avaliado, ele acaba decidindo por muitos de nós, quando entrega resultados de tudo o que ele “vê” na Internet, na sua ferramenta de busca e nas publicidades que veicula.

Assim são todas as empresas que podem pagar para usar uma solução de Big Data, seja ela própria ou usada como serviço de empresas que hoje fornecem a infraestrutura necessária em troca do que você pode pagar.

Se no passado o Marketing precisava realizar pesquisas junto aos consumidores, esperando que eles respondessem com sinceridade e dissessem tudo o que importava saber, hoje a cada passo que damos, cada ação que realizamos, cada dado que fornecemos, cada site que acessamos e app que instalamos, diz aos sistemas por trás dos Big Datas, quem somos e o que queremos e até mesmo o que nem imaginamos querer, mas que amanhã pode estar ao alcance de um simples clique.

Sendo assim, as organizações que podem em maior ou menor grau dispor de soluções de Big Data, terão um diferencial competitivo incrível e uma consequente superioridade em relação aos concorrentes, que certamente vai decretar o sucesso de alguns e a extinção de outros.

Conclusão

As soluções de Big Data, mais do que qualquer coisa, são hoje uma necessidade em um mundo que gera volumes imensos de informação a cada segundo e informação mais do que nunca, tem valor inestimável para aqueles que tiverem acesso a ela e souberem como usá-la para tomar decisões que envolvem até mesmo nossos destinos.

Comentários ({{totalComentarios}})