Pré-processamento de dados: explorando as chaves para a preparação de dados — SitePoint
LarLar > blog > Pré-processamento de dados: explorando as chaves para a preparação de dados — SitePoint

Pré-processamento de dados: explorando as chaves para a preparação de dados — SitePoint

Sep 13, 2023

Neste artigo, exploraremos o que é pré-processamento de dados, por que é importante e como limpar, transformar, integrar e reduzir nossos dados.

Pré-processamento de dados é uma etapa fundamental na análise de dados e aprendizado de máquina. É um processo complexo que prepara o terreno para o sucesso de qualquer empreendimento baseado em dados.

Basicamente, o pré-processamento de dados abrange uma série de técnicas para transformar dados brutos e não refinados em um formato estruturado e coerente, pronto para análise e modelagem criteriosas.

Esta fase preparatória vital é a espinha dorsal para extrair conhecimento e sabedoria valiosos dos dados, capacitando a tomada de decisões e a modelagem preditiva em diversos domínios.

A necessidade de pré-processamento de dados surge das imperfeições e complexidades inerentes aos dados do mundo real. Frequentemente adquiridos de fontes diferentes, os dados brutos tendem a estar repletos de valores ausentes, valores discrepantes, inconsistências e ruídos. Estas falhas podem obstruir o processo analítico, colocando em risco a fiabilidade e a precisão das conclusões tiradas. Além disso, os dados recolhidos de vários canais podem variar em escalas, unidades e formatos, tornando as comparações diretas árduas e potencialmente enganosas.

O pré-processamento de dados normalmente envolve várias etapas, incluindo limpeza de dados, transformação de dados, integração de dados e redução de dados. Exploraremos cada um deles abaixo.

Limpeza de dados envolve identificar e corrigir erros, inconsistências e imprecisões nos dados. Algumas técnicas padrão usadas na limpeza de dados incluem:

Vamos discutir cada uma dessas técnicas de limpeza de dados.

O tratamento de valores ausentes é uma parte essencial do pré-processamento de dados. Observações com dados faltantes são tratadas por esta técnica. Discutiremos três métodos padrão para lidar com valores faltantes: remoção de observações (linhas) com valores faltantes, imputação de valores faltantes com as ferramentas estatísticas e imputação de valores faltantes com algoritmos de aprendizado de máquina.

Demonstraremos cada técnica com um conjunto de dados personalizado e explicaremos o resultado de cada método, discutindo todas essas técnicas de tratamento de valores ausentes individualmente.

A maneira mais simples de lidar com valores ausentes é eliminar as linhas com valores ausentes. Este método geralmente não é recomendado, pois pode afetar nosso conjunto de dados ao remover linhas que contêm dados essenciais.

Vamos entender esse método com a ajuda de um exemplo. Criamos um conjunto de dados personalizado com dados de idade, renda e educação. Introduzimos valores ausentes definindo alguns valores como NaN (não um número). NaN é um valor especial de ponto flutuante que indica um resultado inválido ou indefinido. As observações com NaN serão eliminadas com a ajuda da função dropna() da biblioteca Pandas:

A saída do código acima é fornecida abaixo. Observe que a saída não será produzida em formato de tabela com bordas. Fornecemos neste formato para tornar a saída mais interpretável, conforme mostrado abaixo.

Conjunto de dados original

Conjunto de dados limpo

As observações com valores omissos são removidas do conjunto de dados limpo, portanto, apenas as observações sem valores omissos são mantidas. Você descobrirá que apenas as linhas 0 e 4 estão no conjunto de dados limpo.

Eliminar linhas ou colunas com valores ausentes pode reduzir significativamente o número de observações em nosso conjunto de dados. Isso pode afetar a precisão e generalização do nosso modelo de aprendizado de máquina. Portanto, devemos usar esta abordagem com cautela e somente quando tivermos um conjunto de dados grande o suficiente ou quando os valores faltantes não forem essenciais para a análise.

Esta é uma forma mais sofisticada de lidar com dados faltantes em comparação com a anterior. Ele substitui os valores ausentes por algumas estatísticas, como média, mediana, moda ou valor constante.

Desta vez, criamos um conjunto de dados personalizado com dados de idade, renda, sexo e estado civil com alguns valores ausentes (NaN). Em seguida, imputamos os valores ausentes com a mediana usando a função fillna() da biblioteca Pandas: