Scraping API快速入门入门

快速上手

请求流程

  1. 提交任务 发送 POST 请求到 /api/v1/scraper/request
  2. 处理响应
    1. HTTP 200 (成功): 数据直接返回在响应体中。
    2. HTTP 201 (处理中): 使用提供的 taskId 轮询结果。
  3. 轮询结果 对于异步任务,重复调用 /api/v1/scraper/result/{taskId} 直到数据准备就绪 (HTTP 200)。

HTTP 状态码

代码含义操作
200成功直接使用响应体数据。
201任务处理中轮询 /result/{taskId} (建议间隔:1-5 秒)。
400参数无效请检查任务参数是否有效。
429速率限制超过降低请求频率或联系支持人员调整配额。
500内部服务器错误1 分钟后重试;如果持续出现,请联系支持人员。

代码示例

完整流程

import { Scrapeless, log } from '@scrapeless-ai/sdk';
const client = new Scrapeless({
  apiKey: 'YOUR_API_KEY',
});
 
async function runTask() {
  const result = await client.scraping.scrape({
    {
      actor: 'scraper.shopee',
      input: {
        url: 'https://shopee.tw/a-i.10228173.24803858474'
      }
    },
  });
 
  return result;
}
 
runTask()
  .then(data => {
    console.log('Data:', data);
  })
  .catch(error => {
    console.error('Error:', error);
  });

cURL (轮询示例)

curl --location --request GET 'https://api.scrapeless.com/api/v1/scraper/result/30681c8b-bfd3-48eb-a7c9-006e40b00591' \
--header 'x-api-token: YOUR_API_KEY' \
--header 'Content-Type: application/json'
 

参数

参数类型描述
actor字符串爬虫服务 (例如,scraper.shopee)。
input对象任务特定参数 (例如,action, url)。
proxy对象可选的代理配置,包含 country 字段。

注意

  1. 轮询建议
    1. 间隔:1-5 秒。
    2. 超时:设置最大重试次数限制 (例如,10 次尝试)。
  2. 调试技巧
    1. 首先使用简单的 URL 进行测试。