はじめに
Crawlは、大規模なデータスクレイピングと処理のために特別に設計された最先端の機能です。そのコアとなる強みは、インテリジェントな再帰的スクレイピング、堅牢なバルクデータ処理機能、そして柔軟なマルチフォーマット出力です。これらの機能により、企業や開発者は大量のウェブデータを効率的に取得および処理し、AIトレーニング、市場分析、ビジネス意思決定など、様々なアプリケーションを推進できます。
主要機能と利点
- 大規模クロール機能: 大規模なシングルページクロールとインテリジェントな再帰的クロールをサポートします。
- 柔軟なマルチフォーマット配信: JSON、Markdown、メタデータ、HTML、リンク、スクリーンショットなど、複数のフォーマットでデータを出力し、様々なワークフローやシステムとの互換性を確保します。
- 高度な検知回避戦略: 独自開発のChromiumカーネルを搭載し、フィンガープリント設定、CAPTCHA解決、ステルスモード、プロキシローテーション**(195か国対応)**など、堅牢な検知回避ツールを提供して、ウェブサイトのブロックを回避します。
- 独自開発のChromium駆動によるパフォーマンス
- 自動CAPTCHAソルバー: reCAPTCHA v2やCloudflare Turnstile/Challengeなど、複雑なCAPTCHAを自動的に処理します。
- 並行処理の利点: 厳格な並行処理制限に制約される競合他社とは異なり、Crawlは基本プランで標準として50の同時セッションを提供し、プレミアムプランでは超高速で大量のデータ取得のための無制限の同時処理が可能です。
- コスト効率: クロール防止ウェブサイトでも他のツールを凌駕し、無料のCAPTCHA解決を提供し、代替ソリューションと比較して70%のコスト削減が期待できます。
課金情報:
課金は、プロキシ量と時間単位料金を組み合わせたハイブリッド課金モデルに基づいており、Browserと同じく、1GBあたり1.8ドル、1時間あたり0.09ドルから始まります。
ヒント
- 広範なJSレンダリングを伴い、自動化操作が必要なページについては、1,000 URLあたり0.20ドルから始まるコスト効率の高いページ単位課金モデルを提供する、当社のユニバーサルスクレイピングAPIを推奨します。
- PuppeteerやPlaywrightなどのフレームワークを通じてブラウザを操作する必要がある複雑な自動化とデータスクレイピングのワークフローには、ブラウザサービスをご利用ください。