Skip to content

[03] Criando um coletor

Ana Luiza da Silva edited this page May 4, 2023 · 5 revisions

Neste tutorial, iremos criar um coletor simples, utilizando como exemplo a coleta de licitações da cidade de Rio Preto (descrita na issue #380). Esta página é estática e todos os links para os arquivos que queremos coletar estão no código fonte da própria página. Na imagem abaixo, um print da página que iremos coletar.

1 - Informações Básicas

Devemos preencher, obrigatoriamente, nome do coletor, URL base, tempo de execução, tipo, descrição e caminho para salvar os arquivos. Neste exemplo, damos o nome de "Licitações de Rio Preto" para fácil identificação. Por sua vez, a URL base da coleta é: https://www.riopreto.mg.gov.br/processos-licitatorios/. A expectativa de tempo é rápido, por serem poucas páginas. O tipo e descrição de acordo com a coleta e o caminho de dados correspondente, que pode ser customizável, desde que indique um caminho válido. Caso a pasta não esteja criada (neste caso, a pasta 'rio_preto/licitacoes'), o coletor a criará automaticamente.

2 - Antibloqueio

Em seguida, ativaremos a opção de auto ajuste de intervalo de requisições para minimizar a quantidade de requisições bloqueadas. Ao clicar na checkbox 'Habilitar auto ajuste de intervalo', as opções padrão são intervalor inicial igual a 2, intervalo máximo igual a 10. Estes valores podem ser ajustados de acordo com a necessidade, basta editar os valores de intervalo.

3 - Detalhes do Coletor

Neste coletor, será necessário explorar os links, utiliando a profundidade máxima do link igual a 1. Este passo é necessário para que o coletor identifique os links para os arquivos que queremos coletar. Também específicamos um regex para filtrar as urls apenas das páginas de licitações dos anos disponíveis, mas é possível deixar em branco sem filtragem.

Devemos então habilitar a opção 'Baixar arquivos' pois queremos baixar os arquivos, nesse caso, de qualquer tipo, mas também pode-se inserir os tipos de arquivos desejados, separados por vírgula, no campo adequado.

Temos ainda a opção de baixar imagens, que pode ser habilitado, e a checagem de tamanho de arquivos para baixar, mas caso não tenha arquivos grandes involvidos na coleta, pode-se desabilitar essa opção para ganho de performance na execução do coletor.

Com as especificações definidas, podemos apertar no botão 'Create', no canto inferior esquerdo da tela, que irá criar o nosso coletor.

4 - Iniciando uma Coleta

Após a criação do nosso coletor, seremos redirecionados para a seguinte tela, onde poderemos começar ou parar a coleta, editar ou excluir nosso coletor, além de ver os detalhes e futuramente os logs e informações das instâncias de execução.

Por fim, clicando no botão 'Começar' inciamos a execução da nossa coleta.