Skip to content
Rennan Cordeiro edited this page May 5, 2023 · 8 revisions

C01

O Sistema de Coleta de Dados é uma plataforma web que permite aos usuários configurar coletores de dados. Essas configurações podem ser personalizadas de várias maneiras para atingir o objetivo de extrair dados de uma fonte específica. Essencialmente, o usuário pode criar definições e parâmetros que especificam as funcionalidades de coleta desenvolvidas pela equipe responsável pela aplicação. Os coletores também podem ser gerenciados através de uma API RESTful. O sistema pode, portanto, coletar:

  • Páginas estáticas;
  • Páginas dinâmicas ou onde é necessário interagir com formulários;
  • Arquivos.

No que diz respeito à arquitetura, os coletores são desenvolvidos em Scrapy em conjunto com Playwright para o caso de páginas dinâmicas. O gerenciamento dos coletores é feito com Kafka, Redis e Zookeeper. Dessa maneira, há um sistema distribuído, onde diversos microsserviços implementados com a ajuda de Docker se comunicam em rede para realizar a coleta corretamente.