Crawl快速入门介绍

简介

Crawl 是一款针对大规模数据抓取和处理而设计的尖端功能。其核心优势在于:智能递归抓取强大的批量数据处理能力以及灵活的多格式输出。这些功能使企业和开发者能够高效地获取和处理海量网页数据,推动人工智能训练、市场分析、商业决策等应用。

主要功能和优势

  1. 大规模爬取能力: 支持海量单页爬取和智能递归爬取。
  2. 灵活的多格式交付: 输出多种格式的数据,包括 JSON、Markdown、元数据、HTML、链接和截图,确保与各种工作流程和系统兼容。
  3. 先进的反检测策略: 由我们自主研发的 Chromium 内核驱动,提供强大的反检测工具来绕过网站封锁,例如指纹配置、验证码解决、隐身模式和代理轮换**(内置 195 个国家)**。
  4. 自主研发的 Chromium 驱动性能
    1. 自动验证码求解器: 自动处理复杂的验证码,例如reCAPTCHA v2Cloudflare Turnstile/Challenge,免费
    2. 并发优势: 与受严格并发限制的竞争对手不同,Crawl 在其基础计划中标准配置 50 个并发会话——而高级套餐则解锁无限并发,实现超高速、高容量的数据采集。
    3. 成本效益: 在反爬虫网站上优于其他工具,提供免费的验证码解析,与替代方案相比,预计可节省 70% 的成本

计费信息:

费用基于混合定价模式,结合代理流量和小时费率,起价为每 GB 1.8 美元和每小时 0.09 美元,与 Browser 服务相同。

查看成本消耗详情。

提示
  • 对于涉及大量 JS 渲染和需要自动化操作的页面,我们推荐使用我们的通用抓取 API。它提供经济高效的按页定价模式,起价为每 1k 个 URL 0.20 美元
  • 对于需要通过 Puppeteer 或 Playwright 等框架操作浏览器进行复杂自动化和数据抓取工作流程,请使用浏览器服务