Crawl快速入门介绍

简介

Crawl 是一款针对大规模数据抓取和处理而设计的尖端功能。其核心优势在于:智能递归抓取强大的批量数据处理能力以及灵活的多格式输出。这些功能使企业和开发者能够高效地获取和处理海量网页数据,从而推动 AI 训练、市场分析、商业决策等应用。

主要功能与优势

  1. 大规模爬取能力: 支持海量单页爬取和智能递归爬取。
  2. 灵活的多格式交付: 输出数据支持多种格式,包括 JSON、Markdown、元数据、HTML、链接和截图,确保与各种工作流程和系统兼容。
  3. 高级反检测策略: 基于我们自主研发的 Chromium 内核,提供强大的反检测工具,绕过网站封锁,例如指纹配置、验证码识别、隐身模式和代理轮换**(内置 195 个国家)**。
  4. 自主研发的 Chromium 驱动性能
    1. 自动验证码求解器: 自动处理复杂的验证码,例如 reCAPTCHA v2Cloudflare Turnstile/Challenge (免费)
    2. 并发优势: 与受严格并发限制的竞争对手不同,Crawl 在其基础方案中标准配置 50 个并发会话——高级套餐解锁无限并发,实现超高速、大容量的数据采集。
    3. 成本效益: 在反爬网站上优于其他工具,提供免费的验证码解析,与替代方案相比,预计可节省 70% 的成本

收费信息:

收费基于混合定价模式,结合代理数量和小时费率,起价为每 GB 1.8 美元和每小时 0.09 美元,与 Browser 服务相同。

提示
  • 对于涉及大量 JS 渲染并需要自动化操作的页面,我们推荐使用我们的 通用抓取 API。它提供经济高效的按页定价模式,起价为每 1k 个 URL 0.20 美元
  • 对于需要通过 Puppeteer 或 Playwright 等框架操作浏览器来完成复杂自动化和数据抓取工作流程,请使用 浏览器服务