Uma Pequena Introdução ao Universo da Big Data

BigDataVocê certamente já deve ter ouvido o termo Big Data diversas vezes, mas você sabe exatamente o que ele significa? Em tradução literal, Big Data seria entendido como “grandes dados”, isto é, uma quantidade imensa de dados armazenados.

Na área de Tecnologia da Informação (TI), o termo Big Data costuma ser utilizado para nomear conjuntos de dados muito extensos ou complexos, os quais os aplicativos de processamento de dados tradicionais ainda não conseguem processar com eficiência.

Não raro os cientistas de dados – profissionais especialistas em trabalhar com esta nova tecnologia – costumam citar os 3 “Vs” da Big Data, os quais seriam:

Volume, que está relacionado à grande quantidade de dados gerados dentro e fora da empresa;

Velocidade, pois a cada segundo muitos Peta bytes de dados novos são gerados tanto na Internet quanto nos bancos de dados e storages das empresas privadas e a relação entre eles pode ser muito interessante para o seu negócio.

Variedade, grande parte destes dados apresentam-se de forma muito distinta: vídeos; textos; posts no Facebook e no Twitter; imagens do Pinterest; novas tabelas no banco de dados relacional, etc.

O grande desafio, portanto, é criar uma estrutura capaz de analisar e correlacionar todos esses dados estruturados (que estão armazenados de maneira ordenada, em grandes bancos de dados) e os dados não estruturados, produzidos em escala gigantesca na internet, por exemplo.

Como a Big Data pode Atuar em seu Negócio?

Há várias técnicas e frameworks para a utilização de análises de Big Data e todas essas possibilidades devem ser otimizadas para cada negócio ou empresa específicos. Não há uma “receita de bolo” única que funcione para todos os cenários.

Uma Universidade, por exemplo, pode utilizar essas ferramentas para analisar o que seus alunos comentam sobre seus cursos na internet; a distância entre suas casas e o campus da faculdade e seu rendimento acadêmico, por exemplo. Uma hospital, por seu turno, pode correlacionar a temperatura média ou o regime de chuvas da região onde está instalado com as doenças mais comuns atendidas em seu ambulatório e, assim, prover os recursos e insumos necessários para atender a demanda. As possibilidades, na verdade, são infinitas.

Quais Ferramentas Devo Utilizar?

O coração de um sistema de Big Data é uma ferramenta open source, ou seja, sua utilização é gratuita. Esta ferramenta se chama Hadoop e roda em servidores Apache, baseados em qualquer distribuição Linux. Embora seja o coração do sistema, o Hadoop por si só não é capaz de fazer grande coisa. Necessita ser conectado a várias outras APIs (Application Programming Interface), para que os dados sejam manipulados, arquivados e analisados.

Há APIs que trabalham no âmbito de aprendizado de máquina e auxiliam a tomada de decisão, utilizando métodos estatísticos para prever o comportamento de usuários e clientes. Outras APIs são responsáveis por agendamento de tarefas as quais podem, durante a madrugada, processar os dados que são inseridos durante o dia na plataforma de Big Data.

O tema Big Data é extenso e será bastante explorado por mim. Nos próximos posts entraremos em detalhes mais específicos, inclusive na utilização da plataforma de Big Data no âmbito do gerenciamento de projetos.

Anúncios

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s