O tratamento ou remoção de outliers deve ser usado e interpretado com cuidado, para responder as perguntas corretas e compreender as distorções que causam nas estatísticas do conjunto de dados. Ao análise exploratória de dados tratar dados multi-categóricos, evite usar gráficos de barras ou colunas empilhadas. Siga os manuais escritos por Solomon Messing (cientista de dados que conheci enquanto trabalhava no Facebook).
Para obter mais detalhes sobre a criação de todos os tipos de visualizações de dados, consulte a Documentação. O parâmetro bins determina o número de intervalos para dividir os dados. Entender os tipos de dados em seu DataFrame é outro https://tripleten.com.br/ aspecto crucial da EDA. Diferentes tipos de dados requerem diferentes técnicas de tratamento e podem suportar diferentes tipos de operações. Por exemplo, operações numéricas não podem ser realizadas em dados de string e vice-versa.
Analisando séries temporais no Python e esquecendo de vez o Excel
Isso acontece pois é essencial que o cientista de dados seja capaz de entender a natureza dos dados sem fazer suposições. Machine Learning (aprendizado de máquina, em português) é uma tecnologia em que os computadores têm a capacidade de identificar padrões e aprender com base nos dados que consomem. A partir disso, os computadores passam a efetuar tarefas específicas de maneira autônoma. Exemplo de ferramentas que usam machine learning são os tradutores automáticos e os recursos de combate a fraudes em sistemas de pagamento.
Um gráfico de histograma é projetado para exibir a distribuição de uma variável numérica que leva muitos valores diferentes. Não existe espaço entre as colunas e, cada coluna representa a frequência de dados observados. Minha ferramenta favorita são as linguagens de programação Python ou R. Se dominarmos qualquer uma dessas duas linguagens, poderemos criar gráficos diferentes de forma rápida e eficaz.
Análise exploratória de dados
Note que a soma foi 20, ao invés das 36 observações totais da planilha original. Como você deve imaginar ao ter inspecionado a tabela, isso ocorre pelo fato de que existem algumas observações perdidas para essa variável. Mais especificamente, existem 16 observações faltantes, aquelas marcadas com NA. Se for desejável, pode-se incluir a contagem de observações faltantes na tabela de frequência. Para converter uma teste de estatística em uma probabilidade, é importante entender o que está acontecendo.
Deixe um comentário