O Desafio
Esta empresa de logística brasileira em rápido crescimento havia escalado significativamente, mas tomava decisões quase inteiramente por intuição. Os dados estavam espalhados por múltiplos sistemas — um banco de dados relacional, armazenamento de objetos, um banco de dados de documentos e um warehouse legado na nuvem — mas não havia como uni-los, analisá-los ou agir sobre eles.
Os problemas se acumulavam em cascata:
- Nenhuma fonte única de verdade — dados operacionais viviam em silos sem camada de integração
- Nenhuma capacidade analítica — times de negócio não conseguiam responder perguntas básicas sobre operações, custos ou desempenho sem pedir à engenharia
- Nenhum time de dados — literalmente não havia ninguém na empresa cujo trabalho fosse dados
- Múltiplos sistemas-fonte — um banco relacional, um banco de documentos, armazenamento de arquivos e um warehouse na nuvem parcialmente usado — cada um com padrões de acesso e modelos de dados diferentes
- Crescimento acelerado — a empresa precisava de infraestrutura de dados que escalasse com o negócio, não de uma solução improvisada que precisaria ser substituída em 6 meses
O mandato era claro: projetar e construir toda a plataforma de dados do zero, e formar o time para operá-la.
Minha Função & Abordagem
Entrei como Tech Leader com um mandato duplo: arquitetar a plataforma e construir o time. Veja como abordei isso.
Projeto de Arquitetura
Projetei uma arquitetura em camadas sobre uma grande plataforma de nuvem, escolhida pela eficiência de custo e pelo poder analítico serverless:
- Data Lake — armazenamento de objetos na nuvem como camada de ingestão bruta, cópias imutáveis de todos os dados de origem, particionadas por data
- Data Warehouse — warehouse analítico serverless com tabelas dimensionais, lógica de negócio e agregações
- Orquestração — orquestração de workflows baseada em Python para agendamento de pipelines, gestão de dependências, monitoramento e alertas
- Análise — ferramenta de BI open-source para dashboards e relatórios self-service para os times de negócio
Pipelines de Migração
A parte mais difícil não foi construir a nova infraestrutura — foi migrar dados de quatro sistemas-fonte diferentes para uma plataforma unificada sem interromper as operações:
- BD Relacional → Warehouse — extração incremental com Change Data Capture, mapeamento de esquema e transformações de tipos de dados
- BD de Documentos → Warehouse — desnormalização de estruturas de documentos em modelos relacionais adequados para análise
- Armazenamento de arquivos → Lake → Warehouse — padronização de formatos de arquivo e automação da ingestão
- Warehouse legado → Novo warehouse — migração de visões materializadas existentes e dados históricos
Todos os pipelines foram construídos em Python com orquestração de workflows, projetados para re-execuções idempotentes e recuperação automatizada de falhas.
Construção de Time
Contratei e integrei o primeiro Time de Dados da empresa — definindo funções, estabelecendo fluxos de desenvolvimento, criando práticas de code review e documentação para que o time pudesse operar de forma independente após o meu engajamento.
Resultados
Em poucos meses, os times de negócio passaram de "pedir à engenharia e esperar" para extrair seus próprios relatórios. A plataforma de dados se tornou a base para a tomada de decisões operacionais em toda a empresa — otimização de rotas, análise de custos, acompanhamento de desempenho e insights sobre clientes passaram a ser self-service.
Stack Técnica
Conclusão Principal
Construir uma plataforma de dados do zero é tanto um desafio organizacional quanto técnico. As escolhas de tecnologia importam menos do que os princípios de arquitetura: mantenha simples, torne confiável, projete para o time que vai manter (não para o que construiu).
O maior erro que vejo em plataformas de dados greenfield é o excesso de engenharia para uma escala hipotética. Esta empresa precisava de uma plataforma que pudesse crescer com o negócio — não de um sistema projetado para tráfego em escala Google desde o primeiro dia. A arquitetura certa é a mais simples que atende às necessidades atuais e tem pontos claros de extensão para o futuro.
Precisa de uma plataforma de dados construída do zero?
Já fiz isso várias vezes — da arquitetura à implementação e à transição para o time interno. Vamos conversar sobre a sua situação.
Agendar uma Conversa Inicial