Dissertação - José David García Ramos

,

Ferramentas de geração de dados sintéticos para visão computacional utilizando modelos de difusão

Autor: José David García Ramos (Currículo Lattes)

Resumo

A escassez de dados constitui um gargalo crítico na generalização do aprendizado profundo, particularmente em domínios especializados, como agricultura e exploração subaquática. Embora os Modelos de Difusão ofereçam síntese de alta fidelidade, as abordagens padrão frequentemente dependem de ajustes finos (fine-tuning) computacionalmente caros ou de engenharia manual de prompts. Esta dissertação aborda essas limitações desenvolvendo pipelines generativos totalmente automatizados e livres de treinamento. Inicialmente, uma metodologia eficiente de geração de imagens que combina IP-Adapter e SeeCoder foi validada no conjunto de dados CottonWeed12Det. Essa abordagem alcançou uma pontuação CMMD de 1.317 e melhorou a estabilidade da detecção do YOLOv8 sem a necessidade de re-treinamento, superando as estratégias tradicionais de aumento de dados. Com base nessas fundações, a pesquisa introduziu o ZEDD-G, um novo framework de classificação zero-shot que aproveita a orientação latente de múltiplas imagens. O ZEDD-G demonstrou a capacidade de aumentar a precisão da ResNet-50 em mais de 30% em diversos conjuntos de dados, desde imagens naturais até radiografias médicas, manipulando diretamente as características latentes sem ajustes finos. Por fim, para enfrentar o desafio da predição densa, um pipeline espacialmente consciente integrando ControlNet e Modelos de Visão-Linguagem (BLIP) foi desenvolvido para a segmentação semântica subaquática. Esse método demonstrou que o condicionamento semântico detalhado é essencial para reduzir as lacunas de domínio (domain gaps), resultando em uma melhoria de 4.93% no mIoU na YOLOv11-Seg. Coletivamente, essas contribuições estabelecem um conjunto robusto de ferramentas que automatizam a criação de dados sintéticos rotulados de alta qualidade, melhorando significativamente o treinamento de modelos em ambientes com escassez de dados, ao mesmo tempo em que minimizam a sobrecarga computacional.

TEXTO COMPLETO

Palavras-chave: Geometria e modelagem computacionalVisão computacionalGeração de dados sintéticosModelos de difusãoSegmentação semânticaAprendizado zero-shotOrientação latente