代理
简介
代理系统是抓取浏览器的一个组件,它通过代理服务器转发连接。它主要用于防止IP封锁、访问受地理限制的内容以及增强匿名性。抓取浏览器提供了一个可配置的代理系统,允许对自动化流量路由进行精确控制,包括匿名性、地理位置定位和提高可靠性,从而轻松地将代理集成到您的工作流程中。
核心能力
代理系统的核心能力在于通过中间服务器隐藏真实IP地址,并自动或按需在IP池中轮换不同的地址。它还允许选择特定地理位置的代理服务器,模拟来自世界各地的用户访问。
应用场景
主要适用于需要大规模数据抓取和绕过目标网站IP限制或封锁的场景。它也是访问受地理限制内容和在市场研究等任务中保持在线匿名性的关键工具。
分类
使用 Scrapeless,您有两种代理配置选项:
- 使用内置代理:通过我们管理的住宅代理轻松路由流量。
- 使用自定义代理:使用自定义 HTTP/HTTPS/SOCKS5 代理,对网络路由进行更灵活的控制。
操作指南
使用内置代理
使用抓取浏览器的内置代理将流量通过其管理的住宅代理进行路由。
const { ScrapelessClient } = require('@scrapeless-ai/sdk');
const puppeteer = require('puppeteer-core');
const client = new ScrapelessClient({ apiKey: 'API Key' });
const { browserWSEndpoint } = client.browser.create({
sessionName: 'sdk_test',
sessionTTL: 180,
proxyCountry: 'AU',
proxyState: 'NSW', // Optional: state code
proxyCity: 'sydney', // Optional: city name
sessionRecording: true,
});
(async () => {
const browser = await puppeteer.connect({ browserWSEndpoint });
const page = await browser.newPage();
await page.goto('https://www.scrapeless.com');
console.log(await page.title());
await browser.close();
})();地理代理选择
我们的内置代理网络覆盖全球195个国家和地区,为您的抓取操作提供精确的地理定位。每个代理位置都经过优化,以实现性能和可靠性,让您能够模拟来自特定区域的真实用户访问。
有关全面的国家和地区选择,包括州和城市级别的定位,请参阅我们的详细代理文档。
自定义代理
如果您想使用自己的代理服务/提供商,您可以在创建会话时指定以下参数。如果您使用自己的代理提供商,则无需支付代理使用费。
- 💡自定义代理功能目前仅对订阅用户开放。在此升级
const { ScrapelessClient } = require('@scrapeless-ai/sdk');
const puppeteer =require('puppeteer-core');
const client = new ScrapelessClient({ apiKey: 'API Key' });
const proxyUrl = client.proxies.proxy({
country: 'US',
sessionDuration: 30, // session duration
sessionId: 'test-session-123', // custom proxy sessionId
gateway: 'gw-us.scrapeless.io:8789' // allowed value: `gw-us.scrapeless.io:8789`, `gw-eu.scrapeless.io:8789`, `gw-ap.scrapeless.io:8789`
});
console.log(proxyUrl)我们的云浏览器内置代理仅支持住宅类型,更适合大规模数据提取操作。我们还单独提供各种代理类型,包括住宅代理、数据中心代理、静态ISP代理和IPv6代理,并支持更精细的配置。您也可以单独购买我们的代理并将其注入到云浏览器中,以匹配更多样化的使用场景。例如,如果您需要一个在不同会话中保持一致且专用的IP地址,您可以购买我们的静态ISP代理。 指南