Entenda conceitos-chave, objetivos, processo CRISP-DM, pré-processamento, tarefas clássicas (classificação, clustering, associação, regressão) e boas práticas cobradas em provas.
Mineração de Dados (Data Mining) é o processo de descobrir padrões úteis, novos e compreensíveis em grandes volumes de dados, de forma automática ou semiautomática. Na prática, isso significa identificar tendências, correlações, exceções e regras que apoiam decisões e previsões de negócio — por exemplo, prever churn, recomendar produtos ou detectar fraudes.
🔎 O que é Mineração de Dados (definição de prova)
Uma definição ampla e recorrente em concursos: “conjunto de processos, métodos, teorias, ferramentas e tecnologias open-end para explorar e analisar (semiautomaticamente) grandes bases de dados, a fim de identificar, extrair e avaliar padrões, correlações, tendências e regras, por meio de técnicas estatísticas e de IA (como redes neurais, algoritmos genéticos, lógica fuzzy), com resultados potencialmente úteis para o negócio.”
🎯 Objetivos clássicos (mnemônico PICO)
- Previsão: estimar comportamentos/valores futuros a partir de históricos (ex.: prever demanda).
- Identificação: reconhecer existência de itens/eventos (ex.: intrusão, presença de gene).
- Classificação: atribuir registros a categorias (ex.: perfis de clientes). :contentReference[oaicite:3]{index=3}
- Otimização: maximizar resultados sob restrições (tempo, custo, recursos).
🌀 Processo CRISP-DM (visão prática)
- Entendimento do Negócio: objetivos, critérios de sucesso, partes envolvidas, recursos e data landscape.
- Compreensão dos Dados: coleta inicial, avaliação de qualidade, metadados, amostras e hipóteses. :contentReference[oaicite:6]{index=6}
- Preparação dos Dados: seleção, limpeza, integração, transformação e construção de atributos (geralmente > 50% do esforço).
- Modelagem: escolha e calibração de algoritmos (árvores, regressão, redes neurais, clustering etc.); ajustes de formato exigem idas e voltas à preparação.
- Avaliação: checar se o modelo atende aos objetivos do negócio; decidir próximos passos/retornos de fase.
- Implementação (Deployment): operacionalizar/entregar o resultado (relatórios, dashboards, integração), registrar lições e planejar execuções recorrentes.
Dica: o CRISP-DM é iterativo — você pode retornar fases com base nas evidências coletadas, melhorando continuamente o processo, nós temos um POST exclusivo sobre CRISP-DM nesse link
🧽 Pré-processamento (qualidade antes de quantidade)
Dados do mundo real são incompletos, inconsistentes, ruidosos. Técnicas centrais:
- Limpeza: imputar ausentes, suavizar ruídos, tratar outliers, corrigir inconsistências;
- Integração: unificar fontes, resolver redundâncias/conflitos;
- Transformação: normalização/padronização, agregação;
- Redução: menos volume com mesma informação (seleção/compressão de atributos, amostragem, histogramas);
- Discretização: intervalos/níveis para atributos contínuos (ajuda vários algoritmos).
🧰 Tarefas clássicas de Mineração
- Classificação (preditiva): aprendizado supervisionado para prever rótulos (ex.: spam/não-spam).
- Clustering (descritiva): agrupar objetos similares sem rótulos prévios.
- Regras de Associação: descobrir itens que ocorrem juntos (market basket). Medidas-chave:
- Suporte: frequência da regra no conjunto;
- Confiança: P(Y|X), grau de certeza da associação.
- Regressão (preditiva): estimar valores numéricos;
- Detecção de Desvios/Anomalias: identificar comportamentos atípicos.
📈 Correlação: síncrona x assíncrona
Correlação mede o grau de relacionamento entre variáveis, com coeficiente em [−1, 1]. Além da análise síncrona (mesmo instante), existe a correlação assíncrona, quando a variação de uma variável influencia outra em momento posterior (ex.: índices de bolsas em fusos distintos).
🔗 OLAP ≠ Data Mining (mas se complementam)
OLAP dá visão multidimensional, hierarquias e análise what-if; Data Mining realiza inferências indutivas e descobre padrões/propensões ocultas. Em muitos cenários, a organização usa OLAP para explorar resultados do modelo de mineração.
✅ Boas práticas (cobradas em prova e úteis no dia a dia)
- Evite a falácia do “tudo é automático”: mineração é processo supervisionado e iterativo;
- Registre metadados, critérios de sucesso e decisões (instância do processo no CRISP-DM);
- Invista tempo em qualidade de dados — costuma ser a fase mais longa e com maior retorno;
- Valide o modelo estatística e gerencialmente (não basta métrica alta se não atende ao negócio);
- Implemente com governança (reprodutibilidade, monitoramento e reavaliação periódica). :contentReference[oaicite:19]{index=19}