A maioria dos passos relacionados aplica-se não só a Análise Preditiva, mas a qualquer projeto de Análise de Dados ou Data Science.

Confira a seguir os 7 passos ou etapas que vão te ajudar a estruturar um projeto de Análise preditiva.

1. Entender o negócio

O primeiro passo é entender o negócio e saber qual problema precisa ser resolvido. É preciso registrar as perguntas que se deseja responder, os principais indicadores de negócio.

A partir destes objetivos, todo o projeto será construído.

2. Obter os dados para o Projeto de Análise Preditiva

Tendo um motivador em mente, um problema ou desafio de negócios a ser resolvido, é preciso procurar as fontes de informação para o projeto.

As informações podem ser obtidas de:

  • Fontes internas: bancos de dados de sistemas internos, ERP, planilhas em Excel;
  • Serviços em nuvem utilizados pela empresa: é possível utilizar API’s dos sistemas em nuvem utilizados pela empresa para ler informações. Exemplos: CRM (Dynamics 365, Salesforce), aplicações de automação de marketing (Dynamics 365, Salesforce Marketing Cloud, Marketo, Adobe, RD Station), ERP’s cloud (Dynamics 365, Netsuite ERP, SAP Oracle ERP Cloud);
  • Fontes de dados públicas: há diversas fontes de dados públicas e gratuitas que podem ser utilizadas enriquecer as análises. É possível descobrir correlações entre resultados da empresa com fatores externos, o que é bastante útil para prever eventos futuros, ou seja, fazer análise preditiva. Relacionamos abaixo algumas fontes de dados públicas:
    • Dados.gov.br: o Portal Brasileiro de Dados Abertos possui 7209 conjuntos de dados (novembro/2019) de diversos órgãos públicos, como o Banco Central, CVM, Ministérios, Estados, Municípios, Legislativo e Judiciário;
    • UNdata: base de dados aberta das Nações Unidas;
    • Data.gov: base de dados aberta do Governo Americano;
    • IBGE: o IBGE disponibiliza os dados de diversas pesquisas e séries históricas para download;
  • Fontes de dados pagas: é possível também agregar dados de diversas fontes de dados pagas, como a Bloomberg, Neoway e Agência Estado Broadcast.

3. Limpar e enriquecer os dados

“Lixo entra, lixo sai.”

George Fuechsel*

Após obter os dados, teremos um “bando de dados”. O próximo passo é analisar e organizar todas estas informações de forma a obter um conjunto de dados coerente.

  • Analisar informações: o primeiro passo desta etapa é entender o significado de cada informação e sua relação com as demais;
  • Limpar informações (data cleansing): o passo seguinte é “limpar” ou padronizar as informações. Por exemplo:
    • Compatibilizar e padronizar formatos de campos: numa fonte de dados você pode ter uma data armazenada como data, em outro, como texto, em outra em texto num outro formato;
    • com o passar do tempo, rótulos diferentes podem ter sido utilizados para classificar a mesma informação;
    • pode haver falta de padronização de endereços.
  • Tornar os dados compatíveis com requisitos de privacidade e proteção de dados, com a remoção de informações pessoais dos conjuntos de dados, por exemplo.

Entendendo as informações e tendo uma fonte de dados limpa e coerente, o próximo passo é enriquecer estes conjuntos de dados. O enriquecimento envolve a criação de campos calculados, medidas e junção de dados.

“No momento em que você começa a acreditar ter enxergado um padrão de ordem nos assuntos que envolvem seres humanos, inclusive nos de cunho financeiro, está correndo risco.”

Os Axiomas de Zurique, Max Gunther

Um cuidado importante é não manipular os dados de forma a inserir tendências irreais. Isto pode arruinar toda análise preditiva ou iniciativa de inteligência artificial, pois os padrões reconhecidos serão irreais e tenderão à obtenção de análises erradas.

A identificação de padrão ou correlação onde não existe, levará a análises e decisões equivocadas.

4. Explorar Dados e Construir Visualizações

Nesta etapa deve-se inspecionar os dados, extrair características e testar variáveis significantes. Usualmente a identificação das variáveis significantes é realizada por meio de correlação (lembrando que correlação não implica em relação causa-efeito).

Nesta etapa, normalmente também são desenvolvidos visuais (gráficos, dashboards, mapas ou relatórios) para analisar e compartilhar as informações. Estes visuais facilitam análise dos dados históricos e encontrar as correlações.

5. Criar modelos e realizar análises preditivas

Com todas as informações disponíveis, limpas e organizadas inicia-se a criação de modelos e análises.

Nesta etapa, todos os dados históricos coletados serão utilizados para treinar algoritmos não supervisionados para identificar tendências e num estágio mais avançado utilizar algoritmos supervisionados para realizar previsões.

Utiliza-se regressão e predição para prever eventos futuros e classificação para identificar e agrupar grupos de valores.

6. Interpretar e Analisar Dados

A última etapa do processo é analisar e interpretar os dados, de forma a obter conhecimento útil: identificar algo que pode ser feito para melhorar algo ou prevenir algum problema e disponibilizar esta informação para o negócio.

Alguns exemplos:

  • Descobrir um segmento de clientes mais propenso a comprar seu produto;
  • Prever quando uma máquina vai quebrar, mediante os sinais emitidos e repará-la antes, evitando prejuízos e impactos à produção.

7. Iterar (reiniciar processo de análise preditiva)

O objetivo dos modelos de análise preditiva é prever o futuro com base em observações passadas. Ou seja, sempre haverá um grau de imprevisibilidade:

  • As condições podem mudar ao longo do tempo, fazendo com que modelos percam sua eficácia;
  • Pode não ser possível identificar um padrão.
  • O conjunto de dados pode não ser grande ou completo o suficiente para realizar previsões;
  • As ações tomadas com base nas previsões podem alterar o comportamento futuro.

Ou seja, é preciso analisar os resultados e melhorar os modelos continuamente.

Pensamentos Finais sobre Projeto de Análise Preditiva

Prever o futuro é uma grande vantagem competitiva. Se uma tendência ou comportamento for identificada antecipadamente, antes da concorrência, pode haver um ganho enorme para a empresa.

Entretanto, não há garantia de que a análise preditiva realizada consiga identificar padrões claros que sejam úteis para o futuro. Por exemplo, observando os resultados de um dado (de jogo) “perfeito”, o máximo que se conseguirá descobrir é que há 1/6 de probabilidade de que um determinado número seja o próximo, entretanto, não será possível determinar qual é este número. Ou seja, não é algo muito útil. Se a observação for muito pequena, a repetição de alguns valores pode levar a previsões erradas, o que é algo ruim. Por outro lado, se o dado possuir alguma imperfeição, pode-se identificar que um determinado número possui mais chances, o que poderia direcionar a uma aposta mais eficiente 😊.

Qual sua opinião? Deixe seu comentário.

 

Referências:

Essas são as melhores fontes de dados abertas gratuitas que qualquer pessoa pode usar

5 Steps of a Data Science Project Lifecycle

7 Fundamental Steps to Complete a Data Project