ActorRecursosFundamentos

Fundamentos

Aprenda como criar e usar Atores no painel Scrapeless para realizar web scraping e automação.

Actor

Criar um Actor

Os Atores são construídos a partir de código-fonte baseado em Docker e executados na nuvem Scrapeless. A construção de Atores atualmente não está aberta ao público e a Scrapeless oferecerá Atores personalizados com base nas necessidades do usuário.

Passo 1. Vá para a lista de Atores e clique em “Criar Actor” para começar.

Passo 2. Escolha obter o código-fonte do repositório GitHub ou GitLab para construir o Actor. Após autorizar seu repositório Git, o sistema obterá automaticamente o projeto e identificará o número da versão nele. Ao construir, você pode escolher uma entre todas as versões disponíveis para construir, o que é conveniente para controle preciso e gerenciamento de versões.


Parâmetros de Entrada

Ao criar ou configurar um Actor, você pode definir variáveis de ambiente, como site de destino ou regras de dados, por meio de parâmetros de entrada. Eles são gerados automaticamente com base no arquivo input_schema.json no repositório Git. Nosso sistema construirá uma interface de configuração de parâmetros visual com base no tipo de campo, nome e descrição definidos no esquema, para que os usuários possam preencher o conteúdo de entrada correspondente ao executar o Actor.

[Saiba mais sobre o formato input_schema.json → (Inserir hiperlink)]


Registro de Execução

Os dados do registro de execução são gerados após a execução do Actor. Por meio do Registro de Execução, você pode visualizar todos os registros de execução deste Actor.


Informações

A descrição das Informações vem do arquivo README em seu repositório Git. Ao criar um Actor, o Scrapeless lerá automaticamente o arquivo README para este repositório.


Builds

Um Actor pode ter várias versões de código-fonte e configurações relacionadas. Portanto, antes de executá-lo, construa as versões e selecione a versão de destino em tempo de execução.

  1. Clique em “Construir” para iniciar o processo acima. Em “Detalhes da Construção”, você pode monitorar o status e os logs da Versão.

  1. Após a conclusão, volte para “Detalhes do Actor” para visualizar a nova versão da construção.


Nome & Descrição

Informações básicas do Actor, como nome e ícone, também serão obtidas do repositório Git, mas a descrição pode ser editada.

Executar Actor

Aprenda a iniciar, executar e gerenciar Atores.

Opções de Execução

Antes de iniciar o Actor, você pode configurar o ambiente de execução:

  • Versão do Actor: Selecione a versão do Actor a ser executada.
  • Tempo limite: Defina a duração do tempo limite para o Actor no estado pendente.
  • Memória: Aloca memória para a execução do Actor.
  • Modo Servidor:
    • Servidor: O Actor executa continuamente em segundo plano e escuta solicitações de entrada — ideal para tarefas de longa duração.
    • Uma vez: O Actor executa uma única vez e depois para — ideal para tarefas únicas ou fixas, e você também pode definir o tempo máximo de execução para o Actor.

Iniciando o Actor

Você pode iniciar um Actor de duas maneiras:

  • Início Manual: Clique em “Iniciar” para iniciar o Actor manualmente.
  • Agendador: Configure uma tarefa agendada para executar o Actor automaticamente(有图片吗)

Execução

Cada vez que o Actor é executado, nosso sistema gera automaticamente um registro que permite visualizar seu status e detalhes.

Execução Concorrente

O mesmo Actor pode ser iniciado várias vezes simultaneamente para atingir a execução concorrente de tarefas e melhorar a eficiência do processamento.

Registro de Execução

O Registro de Execução é usado para registrar estados, parâmetros de entrada, dados de saída e logs relacionados dos Atores. Você pode visualizar todos os registros históricos de execução na lista de Registros.

Você pode obter as seguintes informações em cada Registro de Execução:

  1. Saída: Dados de saída do Actor.
  2. Armazenamento: Acesso aos dados salvos durante a execução.
  3. Entrada: Variáveis de ambiente e parâmetros de entrada usados.
  4. Log: Logs gerados durante a execução.

⚠️ Os registros são mantidos por 30 dias. Os mais antigos serão excluídos automaticamente. Faça backup dos dados importantes a tempo.

Saída

A saída é o resultado de dados gerado após a execução do Actor, que é armazenado no Dataset por padrão.

Armazenamento

Após a execução, os resultados são salvos no Dataset padrão. Você pode visualizá-los nos detalhes da execução e baixá-los na página de Armazenamento.

Entrada

Exibe os parâmetros de Entrada usados pelo Actor durante o tempo de execução, facilitando a revisão da configuração de parâmetros na inicialização.

Log

A página Log captura logs detalhados da execução do Actor, auxiliando na depuração e resolução de problemas.

Agendamento

Aprenda como executar automaticamente um Actor definindo um agendamento, o que permite executar um Actor em um horário específico.

Criando um Agendamento

Configuração de Frequência de Execução

Você pode definir a frequência de execução automática de um Actor usando uma expressão Cron. Se você não está familiarizado com a sintaxe Cron, recomendamos visitar crontab.guru para obter orientação e exemplos.

Fuso Horário

Vamos exibir o horário de acordo com o fuso horário do sistema do seu navegador atual para ajudá-lo a entender de forma mais intuitiva o horário de execução correspondente à expressão Cron. Enquanto isso, a visualização da Próxima Vez mostra os próximos 5 horários de execução agendados para verificar se a configuração atende às expectativas.

Adicionar Actor ao Agendamento

Cada agendamento deve incluir pelo menos um Actor e pode incluir até 5. Todos os Atores adicionados serão executados simultaneamente no horário agendado.

Você pode configurar variáveis de entrada exclusivas para cada Actor para garantir o comportamento adequado da tarefa.

Log de Agendamento

Visualize os registros de execução de execuções agendadas. Identifique rapidamente se cada tarefa agendada foi executada com sucesso ou encontrou erros — útil para monitoramento e solução de problemas.

Armazenamento

Os Atores suportam três tipos de armazenamento: Dataset, Chave-Valor e Fila. Eles podem ajudar a armazenar, acessar e gerenciar seus dados coletados de forma eficiente.

Dataset

Visualize e baixe os dados coletados por meio da guia Dataset. Os recursos suportados incluem:

  1. Download nos formatos CSV e JSON.
  2. Selecionar Campos: Escolha campos específicos para download.
  3. Retenção de dados: Os dados armazenados estão disponíveis por 30 dias antes da exclusão automática.

Chave-Valor

Este armazenamento flexível pode armazenar qualquer tipo de dado — JSON, HTML, ZIP, imagens ou texto simples. Cada entrada inclui seu tipo MIME para tratamento adequado.

Cada vez que um Actor é executado, o sistema o aloca a um espaço de armazenamento chave-valor independente para facilitar o isolamento e o gerenciamento de dados.

Armazenado por 30 dias; excluído automaticamente após o vencimento.

Fila

Usado para gerenciar e agendar um grande número de solicitações. Ele suporta adicionar e recuperar informações de solicitação, como URLs usando métodos HTTP e parâmetros adicionais.

As filas são ideais para fluxos de trabalho escaláveis, como rastreamento da web dinâmico ou processamento em lote.

Os dados também são mantidos por 30 dias por padrão.