O que é Big Data?
Em uma pesquisa estatística, como uma enquete, por exemplo, a amostra é uma variável importante. A partir de um conjunto de respondentes, é possível categorizar os resultados e chegar a conclusões que refletem como as pessoas pensam. O tamanho dessa amostra é fundamental para gerar um resultado preciso, pois quando é maior, há mais diversidade de pessoas e de respostas. Quanto maior a amostra, maior o custo de execução e análise das informações. Quando essa amostra, ou base de dados, se torna imensa, temos um conceito para descrevê-la: Big Data. Evidentemente, a expressão não está associada exclusivamente a pesquisas estatísticas, mas métodos estatísticos são utilizados a fim de estudar essas bases. O Big Data é o termo que se refere a um conjunto muito grande de dados (estruturados ou não estruturados) disponíveis a partir de diversas fontes, de uma maneira que não é facilmente tratável por sistemas analíticos comuns. Assim como em uma pesquisa, mais dados agregam mais experiência e maior diversidade de pontos de vista para as análises do negócio, portanto, maior precisão. Uma das definições mais bem aceitas para Big Data é a do Gartner:Big data são ativos de informações de alto volume, alta velocidade e / ou alta variedade que exigem formas inovadoras e econômicas de processamento de informações que permitem uma visão aprimorada, tomada de decisão e automação de processos.
GartnerOu seja, quando falamos em Big Data, precisamos considerar os três V's do Bigdata: volume, velocidade e variedade:
Os Três Vs do Big Data
Volume
O volume de dados deve ser grande. Este volume depende do tamanho de cada empresa e aplicações de negócios. Podem ser transações comerciais, interações de mídias sociais, áudio, vídeo, rastreamento de dispositivos, etc. Velocidade Outra questão é a rapidez com que esses dados são gerados. A internet trouxe proeminência ao termo “em tempo real”, justamente por envolver a produção de milhões de conteúdos de maneira descentralizada, por uma quantidade imensa de usuários. Contudo, dados também são criados instantaneamente em sensores de internet das coisas, CRMs, ERPs e fontes de dados públicas. Essa velocidade está associada a uma certa imprevisibilidade, o que garante a complexidade na análise desses dados. Adiante neste texto, vamos entender melhor como funcionam os algoritmos para lidar com essas características.Variedade
Outro ponto é a variedade: os dados são produzidos sempre em diversos formatos diferentes. Ou seja, podem ser registros em bancos de dados, documentos, e-mails, vídeos, áudios, textos e publicações em uma rede social. Além da diversidade, esses dados podem estar dispostos de maneira estruturada ou não-estruturada, ou seja, sem relações de associação entre si. Assim, não podem ser facilmente representados por bancos de dados relacionais comuns.Os Dois Vs Adicionais da SAS
A SAS considera mais duas dimensões para o Big Data:Variabilidade
É importante capturar as variações ao longo do tempo. Por exemplo, em mídias sociais, fluxos de dados são imprevisíveis e é importante para as organizações capturar e aproveitar tendências. Veracidade Um ponto que está associado à qualidade desses dados é a veracidade: para que eles façam sentido e cooperem com as análises, precisam ser verdadeiros e oferecer uma perspectiva correta dos eventos.O V que realmente importa: Valor
Quando esses dados são analisados, eles se tornam valiosos para as empresas e geram resultados. Com o Big Data, é possível adquirir insights precisos para a tomada de decisão, de modo a prevenir erros e otimizar as chances de sucesso em cada escolha.Como funcionam os algoritmos de Big Data?
Como já falamos, assim como uma amostra maior requer uma capacidade de recursos maior para uma empresa que realiza uma pesquisa, o Big Data demanda gastos com infraestrutura adequada e com algoritmos inteligentes que sejam capazes de investigar esses dados e gerar informações a partir deles. Esses sistemas analíticos focam em:- integração dos dados, agregando diversas fontes, como as que já falamos;
- armazenamento, como estruturas de Data Warehouse e Data Lake, que são construídas para esse fim e permitem exploração dessas informações com consultas e filtros;
- análise, o que se refere ao estudo dos dados em busca de padrões e correlações; e
- visualização, que dispõe de maneira gráfica e estruturada os resultados.
- análise descritiva, que se preocupa em definir o estado atual da empresa com o apoio de informações históricas;
- análise diagnóstica, focada em descrever as causas dos acontecimentos do passado;
- análise preditiva, que utiliza dados históricos para encontrar padrões que permitem predições acerca do futuro;
- análise prescritiva, que estuda os impactos das previsões e tenta chegar a ações diante do que foi previsto.