基礎

Scrapeless ダッシュボードでActorを作成および使用して、ウェブスクレイピングと自動化を実行する方法を学習します。

Actor

Actorの作成

ActorはDockerベースのソースコードから構築され、Scrapelessクラウドで実行されます。現在、Actorの構築は一般公開されておらず、Scrapelessはユーザーの要件に基づいてカスタムビルドのActorを提供します。

ステップ1. Actorリストに移動し、「Actorの作成」をクリックして開始します。

ステップ2. GitHubまたはGitLabリポジトリからソースコードを取得してActorを構築することを選択します。 Gitリポジトリを承認すると、システムは自動的にプロジェクトを取得し、その中のバージョン番号を識別します。ビルド時には、利用可能なすべてのバージョンから1つを選択してビルドでき、正確な制御とバージョン管理に便利です。

入力パラメータ

Actorの作成または構成時に、ターゲットサイトやデータルールなどの環境変数を、入力パラメータを介して定義できます。これらは、Gitリポジトリ内のinput_schema.jsonファイルに基づいて自動的に生成されます。私たちのシステムは、スキーマで定義されたフィールドタイプ、名前、説明に基づいて、視覚的なパラメータ構成インターフェースを構築します。これにより、ユーザーはActorを実行する際に対応する入力内容を入力できます。

[input_schema.json形式の詳細はこちら → (Insert hyperlink)]

実行記録

実行記録データは、Actorの実行後に生成されます。実行記録を通じて、このActorのすべての実行記録を表示できます。

情報

情報説明は、Gitリポジトリ内のREADMEファイルから取得されます。Actorを作成すると、ScrapelessはこのリポジトリのREADMEファイルを読み取ります。

ビルド

Actorには、ソースコードと関連設定の複数のバージョンが存在する可能性があります。そのため、実行する前に、バージョンをビルドし、実行時にターゲットバージョンを選択します。

「ビルド」をクリックして上記のプロセスを開始します。「ビルドの詳細」では、バージョンの状態とログを監視できます。

完了したら、「Actorの詳細」に戻って新しいビルドバージョンを表示します。

名前と説明

名前やアイコンなどのActorの基本情報はGitリポジトリから取得されますが、説明は編集可能です。

Actorの実行

Actorの開始、実行、管理方法を学習します。

実行オプション

Actorを開始する前に、実行時環境を構成できます。

Actorバージョン: 実行するActorのバージョンを選択します。
タイムアウト: ペディング状態にあるActorのタイムアウト期間を設定します。
メモリ: Actorの実行にメモリを割り当てます。
サーバーモード:
- サーバー: Actorはバックグラウンドで継続的に実行され、着信リクエストをリッスンします。長時間実行タスクに最適です。
- 一度: Actorは1回実行されて停止します。1回限りのタスクまたは固定タスクに最適です。Actorの最大実行時間の設定も可能です。