O Desafio
Esta empresa é uma grande plataforma de inteligência de dados B2B com infraestrutura de dados massiva — terabytes de dados de Vendas e Finanças fluindo por pipelines diariamente através de múltiplos provedores de nuvem. O time de engenharia de dados mantinha centenas de pipelines, modelos e produtos de dados.
Como todo time de dados em 2024-2025, nos perguntavam: "Como usamos IA?" Mas a pergunta por trás disso era mais específica:
- Como integrar IA em fluxos de engenharia de dados existentes sem quebrar a confiabilidade?
- Como ir além de "ChatGPT para autocompletar código" para uma IA que realmente participa do processo de engenharia?
- Como construir guardrails para que agentes de IA possam ajudar sem introduzir risco em sistemas de produção?
- Como fazer um time de engenheiros seniores realmente adotar ferramentas de IA — não como brinquedo, mas como parte central da forma como trabalham?
A maioria dos times estava presa no estágio "desenvolvedores individuais usando ChatGPT". Eu queria ir além — para IA como uma ferramenta de engenharia em nível de time com integração real aos nossos fluxos.
Minha Função & Abordagem
Fui o primeiro do time a integrar IA sistematicamente à nossa prática de engenharia de dados. Isso não foi uma iniciativa imposta — foi inovação de baixo para cima que eu conduzi e depois evangelizei por todo o time.
Agentes LLM Com Guardrails
Construí e configurei agentes potencializados por LLM feitos sob medida para nosso contexto específico de engenharia — não assistentes genéricos de código, mas agentes que entendiam nosso codebase, nossas convenções, nossos modelos de dados e nossos padrões de deploy. Elementos-chave:
- Skills customizadas — agentes treinados em nossos padrões específicos de pipeline, convenções de nomenclatura e requisitos de teste
- Guardrails — limites explícitos sobre o que os agentes podiam e não podiam fazer: ler dados de produção mas não modificá-los, sugerir mudanças em pipelines mas exigir revisão humana, gerar testes mas não pulá-los
- Gerenciamento de contexto — usando MCP (Model Context Protocol) para dar aos agentes acesso a documentação relevante, definições de schema e metadados de pipeline sem sobrecarregar as janelas de contexto
Fluxos de Desenvolvimento Agêntico
O valor real não estava na geração pontual de código — estava em integrar a IA ao fluxo de trabalho:
- Desenvolvimento de pipelines — agentes capazes de estruturar novos pipelines seguindo nossos padrões, gerar boilerplate e pré-popular configurações
- Assistência em revisão de código — agentes que revisavam PRs em busca de armadilhas comuns de engenharia de dados: falta de tratamento de nulos, riscos de schema drift, problemas de estratégia de particionamento
- Resposta a incidentes — agentes com contexto sobre nosso setup de monitoramento que ajudavam a diagnosticar falhas de pipeline mais rapidamente
- Geração de documentação — agentes que mantinham a documentação de pipelines sincronizada com as mudanças reais de código
Model Context Protocol (MCP)
O MCP foi o viabilizador-chave. Em vez de despejar codebases inteiros nos prompts, configurei servidores MCP que davam aos agentes acesso estruturado exatamente ao contexto que precisavam — definições de DAG, metadados de modelos de transformação, informações de schema do warehouse e históricos de execução de pipelines. Isso tornou os agentes dramaticamente mais úteis porque conseguiam raciocinar sobre nossa infraestrutura específica, não apenas padrões genéricos.
Resultados
O impacto foi além da produtividade individual. Ao demonstrar integração real de IA em nível de produção (não apenas demos), ajudei a mudar a relação do time com ferramentas de IA — de curiosidade para uso diário. Os padrões que estabeleci — guardrails, gerenciamento de contexto via MCP, integração ao fluxo — se tornaram o modelo de como o time mais amplo adotou IA.
Stack Técnica
Conclusão Principal
Integração de IA em engenharia de dados não é sobre substituir engenheiros — é sobre amplificar o julgamento deles. Os times que vão extrair mais valor da IA são aqueles que a tratam como ferramenta dentro de um fluxo estruturado, não como caixa mágica.
As três coisas que fizeram isso funcionar:
- Guardrails primeiro — defina o que a IA não pode fazer antes de expandir o que ela pode
- Contexto é tudo — um agente de IA sem o contexto do seu codebase específico é apenas um autocompletar genérico. O MCP muda o jogo.
- Integração ao fluxo, não adição de feature — a IA tem que se encaixar na forma como os engenheiros já trabalham, não exigir um novo processo
Esta é a interseção em que me especializo agora: a integração prática e em nível de produção de IA em engenharia de dados — não como demo, mas como infraestrutura.
Precisa de integrar IA aos seus fluxos de dados?
Já fiz isso em escala, em produção, com guardrails reais. Deixe-me ajudar seu time a fazer o mesmo.
Agendar uma Conversa Inicial