基礎
Scrapeless ダッシュボードでActorを作成および使用して、ウェブスクレイピングと自動化を実行する方法を学習します。
Actor
Actorの作成
ActorはDockerベースのソースコードから構築され、Scrapelessクラウドで実行されます。現在、Actorの構築は一般公開されておらず、Scrapelessはユーザーの要件に基づいてカスタムビルドのActorを提供します。
ステップ1. Actorリストに移動し、「Actorの作成」をクリックして開始します。
ステップ2. GitHubまたはGitLabリポジトリからソースコードを取得してActorを構築することを選択します。 Gitリポジトリを承認すると、システムは自動的にプロジェクトを取得し、その中のバージョン番号を識別します。ビルド時には、利用可能なすべてのバージョンから1つを選択してビルドでき、正確な制御とバージョン管理に便利です。
入力パラメータ
Actorの作成または構成時に、ターゲットサイトやデータルールなどの環境変数を、入力パラメータを介して定義できます。これらは、Gitリポジトリ内のinput_schema.json
ファイルに基づいて自動的に生成されます。私たちのシステムは、スキーマで定義されたフィールドタイプ、名前、説明に基づいて、視覚的なパラメータ構成インターフェースを構築します。これにより、ユーザーはActorを実行する際に対応する入力内容を入力できます。
[input_schema.json形式の詳細はこちら → (Insert hyperlink)]
実行記録
実行記録データは、Actorの実行後に生成されます。実行記録を通じて、このActorのすべての実行記録を表示できます。
情報
情報説明は、Gitリポジトリ内のREADMEファイルから取得されます。Actorを作成すると、ScrapelessはこのリポジトリのREADMEファイルを読み取ります。
ビルド
Actorには、ソースコードと関連設定の複数のバージョンが存在する可能性があります。そのため、実行する前に、バージョンをビルドし、実行時にターゲットバージョンを選択します。
- 「ビルド」をクリックして上記のプロセスを開始します。「ビルドの詳細」では、バージョンの状態とログを監視できます。
- 完了したら、「Actorの詳細」に戻って新しいビルドバージョンを表示します。
名前と説明
名前やアイコンなどのActorの基本情報はGitリポジトリから取得されますが、説明は編集可能です。
Actorの実行
Actorの開始、実行、管理方法を学習します。
実行オプション
Actorを開始する前に、実行時環境を構成できます。
- Actorバージョン: 実行するActorのバージョンを選択します。
- タイムアウト: ペディング状態にあるActorのタイムアウト期間を設定します。
- メモリ: Actorの実行にメモリを割り当てます。
- サーバーモード:
- サーバー: Actorはバックグラウンドで継続的に実行され、着信リクエストをリッスンします。長時間実行タスクに最適です。
- 一度: Actorは1回実行されて停止します。1回限りのタスクまたは固定タスクに最適です。Actorの最大実行時間の設定も可能です。
Actorの開始
Actorは2つの方法で開始できます。
- 手動開始: 「開始」をクリックしてActorを手動で起動します。
- スケジューラ: スケジュールされたタスクを設定して、Actorを自動的に実行します(有图片吗)
実行
Actorが実行されるたびに、システムは自動的に記録を生成し、その状態と詳細を表示できます。
同時実行
同じActorを複数回同時に開始して、タスクの同時実行を実現し、処理効率を向上させることができます。
実行記録
実行記録は、Actorの状態、入力パラメータ、出力データ、および関連ログを記録するために使用されます。レコードリストですべての履歴実行記録を表示できます。
各実行記録では、次の情報を得ることができます。
- 出力: Actorの出力データ。
- ストレージ: 実行中に保存されたデータへのアクセス。
- 入力: 使用された環境変数と入力パラメータ。
- ログ: 実行中に生成されたログ。
⚠️ 記録は30日間保持されます。それより古いものは自動的に削除されます。重要なデータは時間内にバックアップしてください。
出力
出力は、Actorの実行後に生成されたデータの結果であり、デフォルトでDataset
に保存されます。
ストレージ
実行後、結果はデフォルトのDatasetに保存されます。実行の詳細でそれらを表示し、ストレージページからダウンロードできます。
入力
実行時にActorで使用された入力パラメータを表示し、起動時のパラメータ構成を簡単に確認できます。
ログ
ログページは、Actorの実行からの詳細なログをキャプチャし、デバッグと問題解決に役立ちます。
スケジュール
スケジュールを設定することでActorを自動的に実行する方法を学習します。これにより、指定した時間にActorを実行できます。
スケジュールの作成
実行頻度の設定
Cron式を使用して、Actorの自動実行頻度を設定できます。Cron構文に慣れていない場合は、crontab.guruを参照して、ガイダンスと例を確認することをお勧めします。
タイムゾーン
Cron式に対応する実行時間をより直感的に理解できるように、現在のブラウザのシステムタイムゾーンに従って時間が表示されます。同時に、「次回」プレビューには、次の5回分のスケジュールされた実行時間が表示され、設定が期待どおりかどうかを確認できます。
スケジュールへのActorの追加
各スケジュールには、少なくとも1つのActorを含める必要があり、最大5つまで含めることができます。追加されたすべてのActorは、スケジュールされた時間に同時に実行されます。
適切なタスク動作を確保するために、各Actorに対して一意の入力変数を構成できます。
スケジュールログ
スケジュールされた実行の実行記録を表示します。各スケジュールされたタスクが正常に実行されたか、エラーが発生したかを迅速に特定し、監視とトラブルシューティングに役立ちます。
ストレージ
Actorは、Dataset、Key-Value、Queueの3種類のストレージをサポートしています。これらは、スクレイピングされたデータを効率的に保存、アクセス、および管理するのに役立ちます。
Dataset
Datasetタブからスクレイピングされたデータを表示およびダウンロードします。サポートされている機能には以下が含まれます。
- CSVとJSON形式でのダウンロード。
- フィールドの選択: ダウンロードする特定のフィールドを選択します。
- データ保持: 保存されたデータは、自動削除されるまで30日間利用可能です。
Key-Value
この柔軟なストレージは、JSON、HTML、ZIP、画像、またはプレーンテキストなど、あらゆる種類のデータを保存できます。各エントリには、適切な処理のためのMIMEタイプが含まれています。
Actorが実行されるたびに、システムは独立したキーバリューストレージ空間に割り当てて、データの分離と管理を容易にします。
30日間保存され、期限切れ後に自動的に削除されます。
Queue
多数のリクエストの管理とスケジューリングに使用されます。HTTPメソッドと追加のパラメータを使用して、URLなどのリクエスト情報を追加および取得できます。
Queueは、動的なWebクロールやバッチ処理などのスケーラブルなワークフローに最適です。
データもデフォルトで30日間保持されます。