コスト消費
このドキュメントの目的は、異なる構造と反クローラー対策を施したページをテストすることです。対象となるシナリオには、eコマース、ソーシャルメディア、旅行、テクノロジーニュース、学術分野が含まれます。各シナリオは10セットのテストを行い、平均データを取って最終分析を行いました。
使用事例
ウェブサイト | シナリオ | プロキシコスト/1kリクエスト | Crawl課金/1kリクエスト | Crawl課金/1kリクエスト (30%割引) |
---|---|---|---|---|
Eコマース | costco.com | $5.43 | $6.10 | $4.27 |
target.com | $5.93 | $6.61 | $4.62 | |
学術 | sciencedirect.com | $3.45 | $3.88 | $2.71 |
pubmed.ncbi.nlm.nih.gov | $2.19 | $2.87 | $2.00 | |
ソーシャルメディア | threads.com | $3.73 | $3.93 | $2.75 |
warriorforum.com | $9.33 | $9.93 | $6.95 | |
uadforum.com/community/index.php | $2.27 | $2.52 | $1.76 | |
旅行 | airbnb.com | $6.10 | $6.41 | $4.48 |
tripadvisor.com | $6.65 | $6.97 | $4.87 | |
テクノロジー/ニュース | appleinsider.com | $5.42 | $6.44 | $4.50 |
geekflare.com | $2.08 | $2.45 | $1.71 |
Tips
- 市場データによると、ウェブページの80~85%が4.5MB未満(60%が2.5MB未満)です。大容量のページは、主にeコマースやストリーミングメディアのウェブサイトに見られます。対照的に、CDNアクセラレーションとコードの合理化を使用するニュースや教育ページは、サイズが小さくなりがちです。
- Scrapelessは、ステルスモード向けに、より柔軟な個別の課金プランを導入し、全体的なコストをさらに最適化します。
- トラフィックの多いページの場合、Scrapelessの30%割引は大きなコストメリットをもたらします。
まとめ
Crawlは小規模なページ処理において優れたパフォーマンスを発揮しますが、ハイブリッド課金モデル(「プロキシトラフィック + 時間単位料金」の組み合わせで、単純なリクエスト単位料金ではなく、$1.8/GB + $0.09/Hourから開始)のため、トラフィックの多いシナリオではコストが高くなります。
その主な利点としては、無料のCAPTCHAソリューション、高並列処理のサポート、柔軟なカスタマイズ機能があり、複雑な反スクレイピング対策を効率的に処理し、エンタープライズレベルの大規模データ取得ニーズに対応できます。
👉詳細については、Scrapeless SDKをご覧ください。
製品マトリックスのサポート:
▸ JS集約ページ: Universal Scraping API ($0.20/1k URLから)を推奨します
▸ ブラウザ自動化ニーズ:Browser service (Puppeteer/Playwrightなどのフレームワークをサポート)を推奨します