Actor特徴基礎

基礎

Scrapeless ダッシュボードでActorを作成および使用して、ウェブスクレイピングと自動化を実行する方法を学習します。

Actor

Actorの作成

ActorはDockerベースのソースコードから構築され、Scrapelessクラウドで実行されます。現在、Actorの構築は一般公開されておらず、Scrapelessはユーザーの要件に基づいてカスタムビルドのActorを提供します。

ステップ1. Actorリストに移動し、「Actorの作成」をクリックして開始します。

ステップ2. GitHubまたはGitLabリポジトリからソースコードを取得してActorを構築することを選択します。 Gitリポジトリを承認すると、システムは自動的にプロジェクトを取得し、その中のバージョン番号を識別します。ビルド時には、利用可能なすべてのバージョンから1つを選択してビルドでき、正確な制御とバージョン管理に便利です。


入力パラメータ

Actorの作成または構成時に、ターゲットサイトやデータルールなどの環境変数を、入力パラメータを介して定義できます。これらは、Gitリポジトリ内のinput_schema.jsonファイルに基づいて自動的に生成されます。私たちのシステムは、スキーマで定義されたフィールドタイプ、名前、説明に基づいて、視覚的なパラメータ構成インターフェースを構築します。これにより、ユーザーはActorを実行する際に対応する入力内容を入力できます。

[input_schema.json形式の詳細はこちら → (Insert hyperlink)]


実行記録

実行記録データは、Actorの実行後に生成されます。実行記録を通じて、このActorのすべての実行記録を表示できます。


情報

情報説明は、Gitリポジトリ内のREADMEファイルから取得されます。Actorを作成すると、ScrapelessはこのリポジトリのREADMEファイルを読み取ります。


ビルド

Actorには、ソースコードと関連設定の複数のバージョンが存在する可能性があります。そのため、実行する前に、バージョンをビルドし、実行時にターゲットバージョンを選択します。

  1. 「ビルド」をクリックして上記のプロセスを開始します。「ビルドの詳細」では、バージョンの状態とログを監視できます。

  1. 完了したら、「Actorの詳細」に戻って新しいビルドバージョンを表示します。


名前と説明

名前やアイコンなどのActorの基本情報はGitリポジトリから取得されますが、説明は編集可能です。

Actorの実行

Actorの開始、実行、管理方法を学習します。

実行オプション

Actorを開始する前に、実行時環境を構成できます。

  • Actorバージョン: 実行するActorのバージョンを選択します。
  • タイムアウト: ペディング状態にあるActorのタイムアウト期間を設定します。
  • メモリ: Actorの実行にメモリを割り当てます。
  • サーバーモード:
    • サーバー: Actorはバックグラウンドで継続的に実行され、着信リクエストをリッスンします。長時間実行タスクに最適です。
    • 一度: Actorは1回実行されて停止します。1回限りのタスクまたは固定タスクに最適です。Actorの最大実行時間の設定も可能です。

Actorの開始

Actorは2つの方法で開始できます。

  • 手動開始: 「開始」をクリックしてActorを手動で起動します。
  • スケジューラ: スケジュールされたタスクを設定して、Actorを自動的に実行します(有图片吗)

実行

Actorが実行されるたびに、システムは自動的に記録を生成し、その状態と詳細を表示できます。

同時実行

同じActorを複数回同時に開始して、タスクの同時実行を実現し、処理効率を向上させることができます。

実行記録

実行記録は、Actorの状態、入力パラメータ、出力データ、および関連ログを記録するために使用されます。レコードリストですべての履歴実行記録を表示できます。

実行記録では、次の情報を得ることができます。

  1. 出力: Actorの出力データ。
  2. ストレージ: 実行中に保存されたデータへのアクセス。
  3. 入力: 使用された環境変数と入力パラメータ。
  4. ログ: 実行中に生成されたログ。

⚠️ 記録は30日間保持されます。それより古いものは自動的に削除されます。重要なデータは時間内にバックアップしてください。

出力

出力は、Actorの実行後に生成されたデータの結果であり、デフォルトでDatasetに保存されます。

ストレージ

実行後、結果はデフォルトのDatasetに保存されます。実行の詳細でそれらを表示し、ストレージページからダウンロードできます。

入力

実行時にActorで使用された入力パラメータを表示し、起動時のパラメータ構成を簡単に確認できます。

ログ

ログページは、Actorの実行からの詳細なログをキャプチャし、デバッグと問題解決に役立ちます。

スケジュール

スケジュールを設定することでActorを自動的に実行する方法を学習します。これにより、指定した時間にActorを実行できます。

スケジュールの作成

実行頻度の設定

Cron式を使用して、Actorの自動実行頻度を設定できます。Cron構文に慣れていない場合は、crontab.guruを参照して、ガイダンスと例を確認することをお勧めします。

タイムゾーン

Cron式に対応する実行時間をより直感的に理解できるように、現在のブラウザのシステムタイムゾーンに従って時間が表示されます。同時に、「次回」プレビューには、次の5回分のスケジュールされた実行時間が表示され、設定が期待どおりかどうかを確認できます。

スケジュールへのActorの追加

各スケジュールには、少なくとも1つのActorを含める必要があり、最大5つまで含めることができます。追加されたすべてのActorは、スケジュールされた時間に同時に実行されます。

適切なタスク動作を確保するために、各Actorに対して一意の入力変数を構成できます。

スケジュールログ

スケジュールされた実行の実行記録を表示します。各スケジュールされたタスクが正常に実行されたか、エラーが発生したかを迅速に特定し、監視とトラブルシューティングに役立ちます。

ストレージ

Actorは、DatasetKey-ValueQueueの3種類のストレージをサポートしています。これらは、スクレイピングされたデータを効率的に保存、アクセス、および管理するのに役立ちます。

Dataset

Datasetタブからスクレイピングされたデータを表示およびダウンロードします。サポートされている機能には以下が含まれます。

  1. CSVJSON形式でのダウンロード。
  2. フィールドの選択: ダウンロードする特定のフィールドを選択します。
  3. データ保持: 保存されたデータは、自動削除されるまで30日間利用可能です。

Key-Value

この柔軟なストレージは、JSON、HTML、ZIP、画像、またはプレーンテキストなど、あらゆる種類のデータを保存できます。各エントリには、適切な処理のためのMIMEタイプが含まれています。

Actorが実行されるたびに、システムは独立したキーバリューストレージ空間に割り当てて、データの分離と管理を容易にします。

30日間保存され、期限切れ後に自動的に削除されます。

Queue

多数のリクエストの管理とスケジューリングに使用されます。HTTPメソッドと追加のパラメータを使用して、URLなどのリクエスト情報を追加および取得できます。

Queueは、動的なWebクロールやバッチ処理などのスケーラブルなワークフローに最適です。

データもデフォルトで30日間保持されます。