LLM 聊天爬虫模型抓取ChatGPT

ChatGPT 抓取器

使用 scraper.chatgpt Actor 捕获 ChatGPT 回答——包括 Markdown 响应、搜索链接和归属数据——而无需自行对 UI 进行逆向工程。

请求示例

curl 'https://api.scrapeless.com/api/v2/scraper/request' \
  --header 'Content-Type: application/json' \
  --header 'x-api-token: {you_api_key}' \
  --data '{
    "actor": "scraper.chatgpt",
    "input": {
      "prompt": "Most reliable proxy service for data extraction",
      "country": "JP",
      "web_search": true,
      "shopping": true
    },
    "webhook": {
      "url": "http://www.youwebhook.com"
    }
  }'

请求体参数

参数类型是否必需描述
promptstring发送给 ChatGPT 的提示词。
countrystring国家或地区代码。
web_searchboolean是否启用网络搜索。
shoppingboolean是否获取购物数据。默认为 true。启用后,将在 products 字段中返回产品信息。

响应字段

注意: 如果响应包含购物数据(products 字段),该 API 调用将按基础费率的 2 倍计费。这是因为从多个来源提取和处理产品信息需要额外的资源开销。

参数类型描述
promptstring原始提示词。
result_textstringChatGPT 返回的 Markdown 格式响应。
modelstring模型标识符,例如 gpt-5-1
web_searchbool指示是否运行了搜索增强。
linksarray补充链接数组。
search_resultarray与响应关联的 SERP(搜索引擎结果页)结果。
search_result.attributionstring搜索结果的来源。
search_result.snippetstringChatGPT 提供的摘要/片段。
search_result.titlestring搜索结果的标题。
search_result.urlstring搜索结果的 URL。
content_referencesarrayChatGPT 回答中包含的引用。
content_references.attributionstring引用来源。
content_references.titlestring引用内容的标题。
content_references.urlstring引用内容的 URL。
productsarrayChatGPT 返回的产品信息。
products.idstring唯一产品标识符。
products.titlestring产品标题。
products.descriptionstring产品描述(可能为 null)。
products.pricestring显示价格,例如 $799.99
products.ratingfloat平均评分。
products.num_reviewsint评论数量。
products.merchantsstring商家名称,例如 Sony + others
products.image_urlsarray产品图片 URL 数组。
products.urlstring产品页面 URL。
products.offersarray购买报价数组。
products.offers.merchant_namestring商家名称。
products.offers.pricestring报价。
products.offers.price_detailsobject详细价格明细。
products.offers.price_details.basestring基础价格。
products.offers.price_details.totalstring含税和运费的总价。
products.offers.availablebool产品库存/可用状态。
products.offers.detailsstring配送和库存信息。
products.offers.urlstring结账或产品 URL。
products.rating_grouped_citationobject评分的引用数据。
products.rating_grouped_citation.titlestring引用标题。
products.rating_grouped_citation.urlstring引用 URL。
products.rating_grouped_citation.supporting_websitesarray支持该评分的网站。
products.rating_grouped_citation.supporting_websites.titlestring网站标题。
products.rating_grouped_citation.supporting_websites.urlstring网站 URL。
adsobjectChatGPT 返回的广告信息。
ads.typestring广告响应类型,例如 ads
ads.contentobject广告内容。
ads.content.typestring广告单元类型,例如 single_advertiser_ad_unit
ads.content.advertiser_brandobject广告主品牌信息。
ads.content.advertiser_brand.idstring广告主品牌的唯一标识符。
ads.content.advertiser_brand.namestring广告主品牌名称。
ads.content.advertiser_brand.urlstring广告主品牌网站 URL。
ads.content.advertiser_brand.favicon_urlstring广告主网站图标 URL。
ads.content.ad_cardsarray广告卡片数组。
ads.content.ad_cards.titlestring广告卡片标题。
ads.content.ad_cards.bodystring广告正文或描述。
ads.content.ad_cards.company_namestring广告公司名称。
ads.content.ad_cards.formatstring广告卡片格式,例如 image_card_v2
ads.content.ad_cards.image_urlstring广告图片 URL。
ads.content.ad_cards.cta_product_copystring号召性用语(CTA)产品文案(可能为 null)。
ads.content.ad_cards.card_headerobject广告卡片头部信息。
ads.content.ad_cards.card_header.titlestring卡片头部标题。
ads.content.ad_cards.card_header.subtitlestring卡片头部副标题,例如 Sponsored
ads.content.ad_cards.card_header.logo_urlstring广告主 Logo URL。
ads.content.ad_cards.favicon_urlstring广告的网站图标 URL。
ads.content.ad_cards.targetobject广告目标链接信息。
ads.content.ad_cards.target.typestring目标类型,例如 url
ads.content.ad_cards.target.valuestring目标链接的实际 URL 值。
ads.content.ad_cards.target.open_externallybool是否在外部打开链接。
ads.content.carousel_cardsarray轮播广告卡片数组。
ads.content.carousel_cards.titlestring轮播卡片标题。
ads.content.carousel_cards.bodystring轮播卡片正文或描述。
ads.content.carousel_cards.image_urlstring轮播卡片图片 URL。
ads.content.carousel_cards.targetobject轮播卡片目标链接信息。
ads.content.carousel_cards.target.typestring目标类型,例如 url
ads.content.carousel_cards.target.valuestring轮播目标链接的实际 URL 值。
ads.content.carousel_cards.target.open_externallybool是否在外部打开轮播链接。