O Desafio

Esta empresa de logística brasileira em rápido crescimento havia escalado significativamente, mas tomava decisões quase inteiramente por intuição. Os dados estavam espalhados por múltiplos sistemas — um banco de dados relacional, armazenamento de objetos, um banco de dados de documentos e um warehouse legado na nuvem — mas não havia como uni-los, analisá-los ou agir sobre eles.

Os problemas se acumulavam em cascata:

  • Nenhuma fonte única de verdade — dados operacionais viviam em silos sem camada de integração
  • Nenhuma capacidade analítica — times de negócio não conseguiam responder perguntas básicas sobre operações, custos ou desempenho sem pedir à engenharia
  • Nenhum time de dados — literalmente não havia ninguém na empresa cujo trabalho fosse dados
  • Múltiplos sistemas-fonte — um banco relacional, um banco de documentos, armazenamento de arquivos e um warehouse na nuvem parcialmente usado — cada um com padrões de acesso e modelos de dados diferentes
  • Crescimento acelerado — a empresa precisava de infraestrutura de dados que escalasse com o negócio, não de uma solução improvisada que precisaria ser substituída em 6 meses

O mandato era claro: projetar e construir toda a plataforma de dados do zero, e formar o time para operá-la.

Minha Função & Abordagem

Entrei como Tech Leader com um mandato duplo: arquitetar a plataforma e construir o time. Veja como abordei isso.

Projeto de Arquitetura

Projetei uma arquitetura em camadas sobre uma grande plataforma de nuvem, escolhida pela eficiência de custo e pelo poder analítico serverless:

  • Data Lake — armazenamento de objetos na nuvem como camada de ingestão bruta, cópias imutáveis de todos os dados de origem, particionadas por data
  • Data Warehouse — warehouse analítico serverless com tabelas dimensionais, lógica de negócio e agregações
  • Orquestração — orquestração de workflows baseada em Python para agendamento de pipelines, gestão de dependências, monitoramento e alertas
  • Análise — ferramenta de BI open-source para dashboards e relatórios self-service para os times de negócio

Pipelines de Migração

A parte mais difícil não foi construir a nova infraestrutura — foi migrar dados de quatro sistemas-fonte diferentes para uma plataforma unificada sem interromper as operações:

Arquitetura de Migração BD Relacional BD de Documentos Armazenamento de Arquivos Warehouse Legado Sistemas-Fonte Camada de Pipeline Extrair, Transformar, Carregar Data Lake Armazenamento de Objetos na Nuvem Data Warehouse Motor Analítico BI / Análise Quatro fontes heterogêneas, uma plataforma analítica unificada
  • BD Relacional → Warehouse — extração incremental com Change Data Capture, mapeamento de esquema e transformações de tipos de dados
  • BD de Documentos → Warehouse — desnormalização de estruturas de documentos em modelos relacionais adequados para análise
  • Armazenamento de arquivos → Lake → Warehouse — padronização de formatos de arquivo e automação da ingestão
  • Warehouse legado → Novo warehouse — migração de visões materializadas existentes e dados históricos

Todos os pipelines foram construídos em Python com orquestração de workflows, projetados para re-execuções idempotentes e recuperação automatizada de falhas.

Construção de Time

Contratei e integrei o primeiro Time de Dados da empresa — definindo funções, estabelecendo fluxos de desenvolvimento, criando práticas de code review e documentação para que o time pudesse operar de forma independente após o meu engajamento.

Resultados

4 → 1 Silos de dados consolidados em uma plataforma unificada
Zero → Total De nenhuma capacidade de dados para análise self-service
Novo Time Formei o primeiro Time de Dados da empresa do zero

Em poucos meses, os times de negócio passaram de "pedir à engenharia e esperar" para extrair seus próprios relatórios. A plataforma de dados se tornou a base para a tomada de decisões operacionais em toda a empresa — otimização de rotas, análise de custos, acompanhamento de desempenho e insights sobre clientes passaram a ser self-service.

Stack Técnica

Nuvem: Grande plataforma de nuvem (serverless-first)
Warehouse: Warehouse analítico serverless
Lake: Armazenamento de objetos na nuvem
Orquestração: Orquestração de workflows baseada em Python
Análise: Plataforma de BI open-source
Fontes: 4 sistemas heterogêneos (relacional, documento, arquivo, warehouse)

Conclusão Principal

Construir uma plataforma de dados do zero é tanto um desafio organizacional quanto técnico. As escolhas de tecnologia importam menos do que os princípios de arquitetura: mantenha simples, torne confiável, projete para o time que vai manter (não para o que construiu).

O maior erro que vejo em plataformas de dados greenfield é o excesso de engenharia para uma escala hipotética. Esta empresa precisava de uma plataforma que pudesse crescer com o negócio — não de um sistema projetado para tráfego em escala Google desde o primeiro dia. A arquitetura certa é a mais simples que atende às necessidades atuais e tem pontos claros de extensão para o futuro.

Precisa de uma plataforma de dados construída do zero?

Já fiz isso várias vezes — da arquitetura à implementação e à transição para o time interno. Vamos conversar sobre a sua situação.

Agendar uma Conversa Inicial