Não quero parecer mais velho e experiente do que sou, mas eu tenho certa experiência de Engenharia. Depois de me formar, há 11 anos, completei um Mestrado e um Doutorado, fiz estágio de Pós-Doutorado, trabalhei como professor, e atualmente sou engenheiro em um projeto de pesquisa. Participei de muitos projetos diferentes, com empresas diferentes, com assuntos e contextos diversos.
Sendo professor e pesquisador, interajo com muitos alunos e alunas, engenheiros e engenheiras menos experientes que eu, e é muito comum ouvir variações do tipo:
- “Onde consigo esses dados?”
- “A empresa X compartilhou os dados de maneira muito desorganizada”
- “Os dados de medição e calibração estão num arquivo PDF, como vou usar isso no meu script?”
Engenheiros e engenheiras, pesquisadores e pesquisadoras: trabalhar com dados errados/faltantes/desorganizados não é um impedimento ao seu trabalho, é o trabalho.
A vida de Engenharia não é a vida dos livros-texto, onde as tabelas são bonitinhas. Os dados passam por mãos humanas, onde há algum erro (mesmo que sejam obtidos de um sensor de maneira automática, alguém programou aquele sensor).
Seja cuidadoso ao digitar seus dados manualmente. Muitos erros bobos aparecem quando se transferem dados de uma fonte para outra .
[…]
Muito da visualização envolve coletar e preparar dados. Raramente, você consegue os dados na forma como você precisa, então espere dar uma arrumada nos dados antes de visualiza-los.
Nathan Yau, Visualize This (Tradução livre minha)
Quer outra citação?
Para se tornar um cientista de dados, você precisa de dados. Na verdade, como um cientista de dados, você passará uma embaraçosa grande fração do seu tempo adquirindo, limpando e transformando dados.
Joel Grus, Data Science do Zero
Nesta bela tarde de segunda-feira, pegue uma xícara de café, abra o Excel com aquele arquivo desorganizado que você recebeu de alguém (ou use Tabula para extrair tabelas de PDFs), e confira os detalhes:
- As unidades estão certas?
- O separador decimal (ponto ou vírgula) está correto?
- Os dados estão numéricos (1 em vez de “1”)?
- Há linhas com colunas faltantes? Por quê? Adicione uma coluna de observações.
- Valores nulos (de valor numérico 0) ou negativos são isso mesmo, ou algum sinal de erro do sensor?
Repito: ninguém vai fazer isso para você. Você precisa pensar sobre os dados – e sobre o que você quer fazer com eles.
2 respostas em “O que fazer com dados errados/faltantes/desorganizados? Parar de reclamar!”
Republicou isso em Sigma Map (Monk Mode) .
Obrigado por compartilhar!