Jornada Ciência de Dados 2025

Informação
-
Data
14-02-2025
Sobre o curso
O massivo volume de dados gerado pela ciência e bilhões de usuários de Internet é um dos grandes desafios atuais, impulsionando avanços e novas formas de investigação.
Na ciência, esse “dilúvio” de dados exige soluções computacionais de biólogos, astrônomos e pesquisadores. Na indústria, ele se associa à computação em nuvem, oferecendo escalabilidade e tolerância a falhas. No governo, grandes bases de dados aprimoram serviços públicos e planejam políticas.
A Jornada em Ciência de Dados visa consolidar o LNCC como referência nacional e promover um workshop entre governo, academia e indústria para discutir desafios e oportunidades.
Professores

Fabio Porto
PhDCiência de Dados
Minicursos da Jornada de Ciência de Dados
CD01 Análise de Redes Sociais
Permitir que o aluno consiga analisar redes ego-centradas ou redes completas, bem como o impacto individual no grupo e vice-versa
Videos
CD02 Análise de Dados
Estudo de técnicas de mineração de dados, i.e., extração de conhecimento a partir de grandes volumes de dados. O processo de extração de conhecimento contempla a análise exploratória de dados, pré-processamento, mineração de padrões frequentes, predição e agrupamento. O curso é contextualizado com o uso da linguagem R.
Videos
CD03 Algoritmos e Modelos de Programação para Big Data
O surgimento de grandes volumes de dados a serem analisados modificou o panorama de sistemas de processamento de dados. Além de sistemas do tipo NoSQL, surgiram frameworks BigData com alta escalabilidade e um modelo de programação que favorece o processamento paralelo e distribuído. Neste curso apresentaremos as principais abordagens para processamento BigData e nos concentramos no framework Apache Spark. Discutiremos seu Modelo de Programação, Arquitetura e Técnicas de Programação. No último dia do curso os alunos tê m a experiê ncia prá tica de desenvolvimento de um dataflow em Apache/ Spark.
Videos
CD04 Deep Learning
O objetivo do minicurso é apresentar uma introduçã o à aprendizagem profunda. Sã o apresentados conceitos bá sicos da á rea, té cnicas relacionadas ao treinamento e a avaliaçã o de modelos. Sã o també m descritas algumas das principais arquiteturas de redes profundas, alé m de algumas aplicaçõ es. Sã o apresentados exemplos de có digo por meio do framework PyTorch
Videos
CD-Lab01Ciclo de Vida de Modelos de ML usando Gypscie
Neste laboratório, exploraremos as etapas essenciais do ciclo de vida de modelos, enfatizando a importância do gerenciamento eficiente para garantir o sucesso e a aplicabilidade das soluções desenvolvidas. A abordagem adotada foca nos desafios e nas melhores práticas para o monitoramento e a adaptação contínua dos modelos, especialmente em ambientes dinâmicos e sensíveis a alterações rápidas. Como resposta a essas necessidades, apresentamos o sistema Gypscie, uma ferramenta para gerenciamento do ciclo de vida de modelos. Durante a sessão, abordaremos detalhadamente a arquitetura e os componentes centrais do Gypscie, destacando como esses elementos contribuem para a eficiência e a transparência em todo o processo de modelagem. Exemplos práticos serão apresentados para ilustrar como a ferramenta influencia positivamente a execução e a validação dos modelos, fornecendo insights que reforçam sua aplicabilidade e impacto.
Videos
CD05 Machine Learning Aplicada à Saúde
Este curso propõe uma introdução ao Python com o foco em análise de dados relacionados à saúde pública. Durante o curso serão abordados os principais conceitos, métodos e ferramentas úteis para análise de dados de saúde e seus determinantes socioambientais. O curso será ministrado em ambiente Google Colab, ou Colaboratory, ferramenta de computação em nuvem, especialmente desenvolvida para o domínio da ciência de dados e aprendizado de máquina.