Pororoca
Periodo
2025
O Instituto de Inteligência Artificial do LNCC desenvolve e mantém uma infraestrutura integrada para extração, organização e disponibilização de conhecimento científico, voltada à análise de grandes volumes de artigos em diferentes áreas. Essa infraestrutura combina modelos multimodais de OCR semântico, mecanismos de busca semântica e pipelines de Recuperação com Geração Aumentada (RAG), permitindo que pesquisadores realizem consultas complexas e obtenham respostas fundamentadas em evidências científicas extraídas diretamente das fontes originais. O sistema é modular, capaz de operar em múltiplos domínios e de integrar novos conjuntos de dados ou modelos conforme a necessidade, e foi concebido para funcionar tanto em ambientes de alto desempenho (HPC) quanto em implantações otimizadas em nuvem. Dentro desse ecossistema, o Pororoca é um dos módulos especializados, dedicado à ciência meteorológica. Ele atua como ferramenta de perguntas e respostas em linguagem natural, utilizando resumos de artigos científicos da área como base de conhecimento e empregando a técnica de Recuperação com Geração Aumentada (RAG, do inglês Retrieval-Augmented Generation), que combina busca inteligente e geração de respostas para oferecer informações precisas e atualizadas. Na primeira etapa (Recuperação), o Pororoca busca em bancos de dados trechos de texto relevantes para a pergunta do usuário, usando critérios de relevância e priorizando estudos recentes sem desconsiderar clássicos importantes. Em seguida, na etapa de Geração, um modelo de linguagem processa esses dados e produz uma resposta coerente e contextualizada, citando as fontes originais. Essa abordagem permite que o Pororoca supere as limitações de modelos convencionais, que dependem apenas de conhecimento pré-treinado, fornecendo respostas fundamentadas em evidências científicas. Além disso, o sistema acelera a pesquisa ao reduzir o tempo de triagem de literatura, facilitar a localização de métodos, figuras e tabelas, e garantir transparência com citações diretas aos trechos e páginas dos artigos, incluindo links para os PDFs originais. Com uma busca semântica em duas etapas (resumos → passagens) e um ranking que valoriza publicações recentes, o Pororoca atua como uma ponte entre bases de dados especializadas e a geração de respostas de alta qualidade, otimizando o ciclo de pesquisa e a tomada de decisão. Para mais detalhes técnicos e metodológicos, acesse: https://doi.org/10.21203/rs.3.rs-7055155/v1.