A maioria dos passos relacionados aplica-se não só a Análise Preditiva, mas a qualquer projeto de Análise de Dados ou Data Science.
Confira a seguir os 7 passos ou etapas que vão te ajudar a estruturar um projeto de Análise preditiva.
1. Entender o negócio
O primeiro passo é entender o negócio e saber qual problema precisa ser resolvido. É preciso registrar as perguntas que se deseja responder, os principais indicadores de negócio.
A partir destes objetivos, todo o projeto será construído.
2. Obter os dados para o Projeto de Análise Preditiva
Tendo um motivador em mente, um problema ou desafio de negócios a ser resolvido, é preciso procurar as fontes de informação para o projeto.
As informações podem ser obtidas de:
- Fontes internas: bancos de dados de sistemas internos, ERP, planilhas em Excel;
- Serviços em nuvem utilizados pela empresa: é possível utilizar API’s dos sistemas em nuvem utilizados pela empresa para ler informações. Exemplos: CRM (Dynamics 365, Salesforce), aplicações de automação de marketing (Dynamics 365, Salesforce Marketing Cloud, Marketo, Adobe, RD Station), ERP’s cloud (Dynamics 365, Netsuite ERP, SAP Oracle ERP Cloud);
- Fontes de dados públicas: há diversas fontes de dados públicas e gratuitas que podem ser utilizadas enriquecer as análises. É possível descobrir correlações entre resultados da empresa com fatores externos, o que é bastante útil para prever eventos futuros, ou seja, fazer análise preditiva. Relacionamos abaixo algumas fontes de dados públicas:
- Dados.gov.br: o Portal Brasileiro de Dados Abertos possui 7209 conjuntos de dados (novembro/2019) de diversos órgãos públicos, como o Banco Central, CVM, Ministérios, Estados, Municípios, Legislativo e Judiciário;
- UNdata: base de dados aberta das Nações Unidas;
- Data.gov: base de dados aberta do Governo Americano;
- World Bank Open Data: base gratuita e aberta dados globais de desenvolvimento do Banco Mundial;
- Google Public Data Explorer: permite explorar centenas de fontes públicas de dados;
- IBGE: o IBGE disponibiliza os dados de diversas pesquisas e séries históricas para download;
- Registry of Open Data on AWS: catálogo de dados abertos disponíveis na AWS (Amazon Web Services).
- Fontes de dados pagas: é possível também agregar dados de diversas fontes de dados pagas, como a Bloomberg, Neoway e Agência Estado Broadcast.
3. Limpar e enriquecer os dados
“Lixo entra, lixo sai.”
George Fuechsel*
Após obter os dados, teremos um “bando de dados”. O próximo passo é analisar e organizar todas estas informações de forma a obter um conjunto de dados coerente.
- Analisar informações: o primeiro passo desta etapa é entender o significado de cada informação e sua relação com as demais;
- Limpar informações (data cleansing): o passo seguinte é “limpar” ou padronizar as informações. Por exemplo:
- Compatibilizar e padronizar formatos de campos: numa fonte de dados você pode ter uma data armazenada como data, em outro, como texto, em outra em texto num outro formato;
- com o passar do tempo, rótulos diferentes podem ter sido utilizados para classificar a mesma informação;
- pode haver falta de padronização de endereços.
- Tornar os dados compatíveis com requisitos de privacidade e proteção de dados, com a remoção de informações pessoais dos conjuntos de dados, por exemplo.
Entendendo as informações e tendo uma fonte de dados limpa e coerente, o próximo passo é enriquecer estes conjuntos de dados. O enriquecimento envolve a criação de campos calculados, medidas e junção de dados.
“No momento em que você começa a acreditar ter enxergado um padrão de ordem nos assuntos que envolvem seres humanos, inclusive nos de cunho financeiro, está correndo risco.”
Os Axiomas de Zurique, Max Gunther
Um cuidado importante é não manipular os dados de forma a inserir tendências irreais. Isto pode arruinar toda análise preditiva ou iniciativa de inteligência artificial, pois os padrões reconhecidos serão irreais e tenderão à obtenção de análises erradas.
A identificação de padrão ou correlação onde não existe, levará a análises e decisões equivocadas.
4. Explorar Dados e Construir Visualizações
Nesta etapa deve-se inspecionar os dados, extrair características e testar variáveis significantes. Usualmente a identificação das variáveis significantes é realizada por meio de correlação (lembrando que correlação não implica em relação causa-efeito).
Nesta etapa, normalmente também são desenvolvidos visuais (gráficos, dashboards, mapas ou relatórios) para analisar e compartilhar as informações. Estes visuais facilitam análise dos dados históricos e encontrar as correlações.
5. Criar modelos e realizar análises preditivas
Com todas as informações disponíveis, limpas e organizadas inicia-se a criação de modelos e análises.
Nesta etapa, todos os dados históricos coletados serão utilizados para treinar algoritmos não supervisionados para identificar tendências e num estágio mais avançado utilizar algoritmos supervisionados para realizar previsões.
Utiliza-se regressão e predição para prever eventos futuros e classificação para identificar e agrupar grupos de valores.
6. Interpretar e Analisar Dados
A última etapa do processo é analisar e interpretar os dados, de forma a obter conhecimento útil: identificar algo que pode ser feito para melhorar algo ou prevenir algum problema e disponibilizar esta informação para o negócio.
Alguns exemplos:
- Descobrir um segmento de clientes mais propenso a comprar seu produto;
- Prever quando uma máquina vai quebrar, mediante os sinais emitidos e repará-la antes, evitando prejuízos e impactos à produção.
7. Iterar (reiniciar processo de análise preditiva)
O objetivo dos modelos de análise preditiva é prever o futuro com base em observações passadas. Ou seja, sempre haverá um grau de imprevisibilidade:
- As condições podem mudar ao longo do tempo, fazendo com que modelos percam sua eficácia;
- Pode não ser possível identificar um padrão.
- O conjunto de dados pode não ser grande ou completo o suficiente para realizar previsões;
- As ações tomadas com base nas previsões podem alterar o comportamento futuro.
Ou seja, é preciso analisar os resultados e melhorar os modelos continuamente.
Pensamentos Finais sobre Projeto de Análise Preditiva
Prever o futuro é uma grande vantagem competitiva. Se uma tendência ou comportamento for identificada antecipadamente, antes da concorrência, pode haver um ganho enorme para a empresa.
Entretanto, não há garantia de que a análise preditiva realizada consiga identificar padrões claros que sejam úteis para o futuro. Por exemplo, observando os resultados de um dado (de jogo) “perfeito”, o máximo que se conseguirá descobrir é que há 1/6 de probabilidade de que um determinado número seja o próximo, entretanto, não será possível determinar qual é este número. Ou seja, não é algo muito útil. Se a observação for muito pequena, a repetição de alguns valores pode levar a previsões erradas, o que é algo ruim. Por outro lado, se o dado possuir alguma imperfeição, pode-se identificar que um determinado número possui mais chances, o que poderia direcionar a uma aposta mais eficiente 😊.
Qual sua opinião? Deixe seu comentário.
Referências:
Essas são as melhores fontes de dados abertas gratuitas que qualquer pessoa pode usar