PREPARANDO O TERRENO: O NECESSÁRIO TRATAMENTO DOS DADOS ANTES DA VISUALIZAÇÃO

REGISTRO DOI: 10.69849/revistaft/fa10202512231822

Leonardo Abadio¹

RESUMO

O artigo abaixo aborda a importância do tratamento de dados realizado antes da visualização, como pilar para um projeto de data visualization bem sucedido, especialmente em cenários onde o Engenheiro de Analytics recebe soluções não otimizadas como arquivos .pbix excessivamente grandes e modelos feitos das formas não recomendadas. As etapas de tratamento e transformação dos dados, se mostram importantíssimas, sendo as mais críticas e demoradas do processo, sendo assim negligenciá-las leva a insights errados e decisões equivocadas. O autor defende que, para grande volume de dados, profissionais com conhecimento técnico dos “bastidores” do data pipeline, devem realizar etapas robustas de ETLs e Data Cleaning na camada de banco de dados (por exemplo, SQL Server), utilizando ferramentas mais poderosas e voltadas para tal, como Python e/ou T-SQL.

Assim, a reflexão visa salientar que os bancos de dados são ideais para preparar, limpar e transformar os dados em grande escala garantindo assim, que as ferramentas de visualização exerçam seu papel principal de gerar insights e nortear a gestão para tomadas de decisão.

Palavras-chave: Tratamento de dados. Visualização de dados. Performance. ETL. Power BI.

Assim caminhamos

Você, Engenheiro de Analytics, já chegou em uma nova posição onde precisamos dar manutenção em uma esteira de dados (das fontes ao dataviz) e quando olha os detalhes do arquivo .pbix, está lá o terreno da amargura: 3.123.983 KB. Se você já passou por isso, dá um abraço aqui!

No vasto universo de dados, a etapa de “data visualization” é frequentemente encarada como o ponto alto devido à sua utilização, geralmente, pelas pessoas que ocupam posições de tomada de decisão. Gráficos, painéis interativos e insights claros são o que a maioria das pessoas enxerga. Entretanto, o que acontece nos bastidores é a parte mais importante, crítica e demorada de todo o processo. Se dá na fase de tratamento dos dados, a transformação dos mesmos para algo sólido e significativo, ignorar, negligenciar ou até mesmo fazer esta etapa às pressas, sem o devido planejamento, é como tentar construir uma casa em areia movediça. A qualidade da sua visualização de dados depende diretamente da qualidade dos dados que a alimentam e todo seu tratamento. Um dado sujo, inconsistente ou mal estruturado levará a insights equivocados e a decisões erradas (shit in, shit out).

Mas não é especificamente neste ponto que quero tocar. Conforme a introdução, muitas vezes chegamos na nova empresa com diversos projetos já em execução, já prontos ou semiprontos por outra pessoa e que às vezes não possuía o conhecimento técnico da fase “background” mas que, com o crescimento da necessidade de informação, correu atrás e conseguiu reunir fontes de dados (planilhas e bases de diversas equipes) e desenvolver um dashboard.

Utilizando o Power BI (minha ferramenta preferida), muitas das vezes recebemos demandas onde precisamos realizar algumas alterações de acordo com o cenário do negócio e aí que começa uma jornada exaustiva de manutenção de dashs já prontos. Modelagem feita às pressas, ETLs gigantescos e não performáticos dentro do Power query e cálculos e medidas DAX extremamente complexas e desnecessárias.

Efeito cascata

Com os dados já armazenados em algum banco (SQL Server, por exemplo), a próxima etapa em um projeto de complexidade simples, é a visualização, no entanto, é nesta etapa que muitos profissionais cometem um erro extremamente comum: não realizar as devidas análises com o negócio para mitigar transformações diretamente na ferramenta de dataviz.

Arrumando os dados antes

Para profissionais quem possuem o conhecimento técnico do “behind the scenes”, acho importantíssimo realizar etapas robustas como o ETL e o Datacleaning, antes, na camada de banco de dados.

Exemplo: Em um dado projeto precisa-se pegar dados de arquivos texto (.csv ou .txt) em um bucket S3 na AWS e mostrá-los em um dashboard no Power BI. Para isso tem-se como ferramentas da esteira a linguagem Python para desenvolver o ETL, um banco de dados SQL Server para armazenamento dos dados finais, Knime para análises de estrutura rápidas e claro, Power BI.

Na maioria dos casos (baseado em minha experiência corporativa), é infinitamente melhor realizar todo o tratamento necessário nas duas primeiras ferramentas: Python e/ou TSQL onde temos maior capacidade de processamento, elementos construídos propriamente para tal e podemos colocar os códigos em automatizações mais robustas e monitoradas. É importante utilizar a ferramenta de Dataviz para o que foi construída, visualização.

Precisa ser dito

A etapa de tratamento de dados é o pilar para um projeto de visualização de sucesso. Os bancos de dados se destacam como ferramentas ideais para preparar, limpar e transformar os dados em grande escala garantindo que as ferramentas de visualização exerçam seu papel principal que é auxiliar a gestão a gerar insights para o negócio.

Claro que esta reflexão se debruça em volumes muito grandes de dados, não em conectar o Power query em duas planilhas e três arquivos texto, para isto creio que se torna aceitável a utilização das ferramentas para o processamento e visualização, porém sempre é bom estruturar os dados, mesmo que poucos, em tabelas de bancos, pois como sabemos não há nada mais permanente do que um “relatoriozinho ad hoc rápido”.

¹MBA em Business Intelligence pela FIAP e-mail: leonardoabadio@gmail.com