ITF Portal - Banner Topo
Slot: /23408374/itf-ad-banner-topo
720x300, 728x90, 728x210, 970x250, 970x90, 1190x250
dados
dados sintéticos

Dados sintéticos em IA: vantagens, riscos e aplicações, segundo especialista do MIT

Os dados sintéticos, gerados por algoritmos para replicar estatísticas de dados reais sem expor informações sensíveis, já representam mais de 60% do total usado em aplicações de IA em 2024, segundo estimativas citadas pelo MIT News. A expectativa é de que esse volume continue a crescer em diferentes setores. Para entender os benefícios e desafios […]

Publicado: 26/03/2026 às 02:52
Leitura
3 minutos
Dados sintéticos em IA: vantagens, riscos e aplicações, segundo especialista do MIT
Construção civil — Foto: Reprodução

Os dados sintéticos, gerados por algoritmos para replicar estatísticas de dados reais sem expor informações sensíveis, já representam mais de 60% do total usado em aplicações de IA em 2024, segundo estimativas citadas pelo MIT News. A expectativa é de que esse volume continue a crescer em diferentes setores.

Para entender os benefícios e desafios dessa prática, o portal conversou com Kalyan Veeramachaneni, pesquisador principal do Laboratório de Sistemas de Informação e Decisão do MIT e cofundador da DataCebo, responsável pelo Synthetic Data Vault, plataforma de código aberto voltada à geração e avaliação de dados sintéticos.

Veeramachaneni explica que esses dados não se originam de situações reais, mas sim de modelos generativos capazes de capturar regras e padrões presentes em conjuntos originais, a partir de uma pequena amostra inicial. Com isso, é possível produzir volumes ilimitados de dados que preservam características estatísticas dos originais.

Existem quatro modalidades principais de geração: linguagem, imagens/vídeos, áudio e dados tabulares. Enquanto textos e imagens podem ser extraídos de conteúdos públicos disponíveis na internet, informações tabulares, como transações financeiras, normalmente estão protegidas por firewalls corporativos.

Leia também: “Falhe rápido, falhe cedo e falhe com frequência”: a receita Pixar para inovar

Vantagens e aplicações práticas

Um dos usos mais difundidos é em testes de software, que exigem grandes quantidades de dados para validar funcionalidades. Antes, era comum criar dados manualmente, processo caro e limitado. Com modelos generativos, é possível gerar cenários específicos, como transações de clientes em determinada região ou período.

Outro benefício está em testes de desempenho, já que companhias podem simular bilhões de registros para avaliar a robustez de seus sistemas. No campo de machine learning, os dados sintéticos são úteis para lidar com eventos raros, como fraudes bancárias. Ao criar exemplos adicionais, aumentam a precisão de modelos preditivos.

A tecnologia também ajuda quando há restrições de tempo e orçamento para coleta de informações. Pesquisas de intenção de compra, por exemplo, podem ser complementadas com dados sintéticos, evitando que modelos sejam treinados com bases insuficientes.

Riscos e limitações dos dados sintéticos

Apesar das vantagens, o uso exige cautela. O pesquisador aponta que a confiança nos dados depende da avaliação do sistema em que serão aplicados. Embora existam métricas de qualidade e privacidade consolidadas, novos indicadores de eficácia estão surgindo para medir o desempenho em tarefas específicas.

Outro risco é a replicação de vieses já presentes nos dados reais usados no treinamento. Caso não sejam aplicadas técnicas de amostragem balanceada, os modelos podem perpetuar desigualdades.

Para mitigar esses problemas, o MIT desenvolveu a Synthetic Data Metrics Library, ferramenta que ajuda a avaliar a fidelidade e a eficácia dos dados gerados. Segundo Veeramachaneni, é necessário criar fluxos de validação rigorosos, garantindo que conclusões obtidas com dados sintéticos permaneçam válidas em cenários reais.

A previsão do pesquisador é de que a evolução dos modelos generativos mude radicalmente a forma como empresas e cientistas trabalham com dados — seja para construir softwares, responder a perguntas analíticas ou treinar algoritmos. A tendência é que atividades antes inviáveis por limitações de privacidade, custo ou volume de dados se tornem cada vez mais acessíveis.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

As melhores notícias de tecnologia B2B em primeira mão
Acompanhe todas as novidades diretamente na sua caixa de entrada
Imagem do ícone
Notícias
Imagem do ícone
Revistas
Imagem do ícone
Materiais
Imagem do ícone
Eventos
Imagem do ícone
Marketing
Imagem do ícone
Sustentabilidade
Autor
Notícias relacionadas