Projeto de Ciência de Dados

Análise Exploratória

Publicado em: 02/12/2024

Análise exploratória de dados bancários

Projeto de Ciência de Dados, desenvolvido em Python, com o objetivo de realizar o tratamento de dados para uma empresa do setor bancário.

Bibliotecas

As ferramentas empregadas no projeto foram:

Etapas do Projeto

Exploração Inicial

>

Iniciei a análise importando as bibliotecas que serão utilizadas e, em seguida, com a visualização da estrutura da tabela de dados para identificar possíveis inconsistências e planejar as etapas seguintes do tratamento.

Visualização da Estrutura de Dados
Figura 1: Visualização da Estrutura de Dados.

Análise Exploratória de Dados (EDA)

Coluna: Estados

Identifiquei registros fora do domínio esperado: RP, SP e TD.

Visualização dos Dados da Coluna 'Genero'
Figura 2: Visualização dos Dados da Coluna 'Estados'.

Coluna: Gênero

Observei a atribuição inconsistente de valores para o mesmo gênero, como "F", "Fem" e "Feminino" para o gênero feminino.

Visualização dos Dados da Coluna 'Genero'
Figura 3: Visualização dos Dados da Coluna 'Genero'.

Coluna: Score

Explorei os valores dessa coluna e gerei gráficos para facilitar a interpretação.

O gráfico utilizado é o Boxplot é uma representação visual das principais estatísticas descritivas de um conjunto de dados. Ele exibe informações sobre a distribuição dos dados, incluindo a mediana, os quartis, a amplitude e a presença de valores atípicos.

Gráfico Boxplot da Coluna 'Score'
Figura 4: Gráfico Boxplot da Coluna 'Score'.

O gráfico utilizado é o Histplot, ou Histograma, ele mostra a distribuição de frequência que permite analisar visualmente como uma amostra/população está distribuída. Ou seja, é uma representação gráfica da distribuição de um conjunto de dados. É uma estimativa da distribuição de probabilidade de uma variável contínua.

Gráfico Histplot da Coluna 'Score'
Figura 5: Gráfico Histplot da Coluna 'Score'.

Coluna: Idade

Explorei os valores dessa coluna para verificar a media de idades dos usuários cadastrados

Gráfico Boxplot da Coluna 'Idade'
Figura 6: Gráfico Boxplot da Coluna 'Idade'.
Visualização dos Dados da Coluna 'Idade'
Figura 7: Gráfico Histplot da Coluna 'Idade'.

Coluna: Saldo

Visualizei os valores dessa coluna para ter uma ideia do saldo em conta, dessa forma é possível ter uma ideia rasa de quantos cilentes estão ativos.

Gráfico Boxplot da Coluna 'Saldo'
Figura 8: Gráfico Boxplot da Coluna 'Saldo'.
Visualização dos Dados da Coluna 'Saldo'
Figura 9: Gráfico Histplot da Coluna 'Saldo'.

Coluna: Salário

Os valores dessa coluna devem ser analisados com cuidado, pois, nos passos à seguir, valores fora da curva podem se tornar um problema para alguns tipos de análise.

Gráfico Boxplot da Coluna 'Salário'
Figura 10: Gráfico Boxplot da Coluna 'Salário'.
Visualização dos Dados da Coluna 'Salário'
Figura 11: Gráfico Histplot da Coluna 'Salário'.

Tratamento de Dados Nulos

Valores nulos podem ser problemáticos porque afetam a qualidade e a integridade dos dados, levando a resultados inconsistentes ou imprecisos. Em análise de dados, eles podem distorcer médias, medianas e outras métricas. Na ciência de dados e aprendizado de máquina, algoritmos geralmente não lidam bem com valores ausentes, o que pode resultar em erros ou baixa performance do modelo.

Genero e Salario

Primeiramente analisei os valores nulos presentes nas colunas referentes a Genero e Salario

Visualização De Dados Nulos: Genero e Salario
Figura 12: Visualização De Dados Nulos: Genero e Salario.

Dependendo do contexto, é comum tratar valores nulos, substituindo-os ou removendo-os. Para esse projeto optei por substituir os valores nulos pela média e mediana.

Substituindo Valroes Nulos: Genero e Salario
Figura 13: Substituindo Valroes Nulos Pela Media e Mediana: Genero e Salario.

Aproveitando o ajuste na Coluna 'Genero', segui com a padronização dos valores.

Padronização dos Valores na Coluna 'Genero'
Figura 14: Padronização dos Valores na Coluna 'Genero'.

Tratamento de Inconsistencias

Idade

Foram identificados valores negativos e exageradamente altos. Me baseando nos gráficos pude compreender a distribuição dos dados antes de definir uma regra de correção, baseada na mediana.

Ajustando Idades Fora da Curva
Figura 15: Ajustando Idades Fora da Curva.

Valores Duplicados

Ao identificar registros duplicados, optei por remover um deles para garantir a integridade da análise.

Dados Duplicados
Figura 16: Visualização e Remoção de Dados Duplicados.

Padronização de Dados

Estados Fora do Domínio

Quando analisei a tabela de Estados durante a etapa de análise exploratória, observei que existem cadastros com informações de dados onde o banco não possui agências, ou o estado foi adicionado de modo incorreto. Ainda utilizando a Media, dados incorretos foram substituídos.

Estados Fora do Domínio
Figura 17: Estados Fora do Domínio.

Salários Fora da Curva

Valores fora da curva (outliers) podem distorcer análises ao influenciar métricas como médias, variâncias e correlações, levando a interpretações erradas dos dados. Em aprendizado de máquina, eles podem causar overfitting, onde o modelo se ajusta excessivamente a dados atípicos, prejudicando a generalização. Me baseando nisso, segui utilizando a regra de padronizar os valores fora da curva, para valores com até dois desvio padrão. realizar a média e seguir com a substituição.

Ajustando Salários outliers
Figura 18: Ajustando Salários outliers.

O desvio padrão mede a dispersão dos dados em relação à média, indicando o quanto os valores variam. Um desvio padrão baixo significa que os dados estão próximos da média, enquanto um desvio alto indica maior variabilidade

Finalização

Após passar por todas as etapas de análise, consegui estabalecer um padrão para os dados coletados. Agora a tabela está organizada, com dados reais e ajustados.

Dados Finais
Figura 18: Dados Finais.

Seguindo adiante, será possível utilizar esses dados para realizar um projeto de Ciência de Dados mais avanaçado, criar um dashboard com PowerBI para apresentar os dados em uma reunião ou utilizar os dados para um projeto de Machine Learning.