代理
简介
代理系统是爬虫浏览器的一个组件,它通过代理服务器转发连接。它主要用于防止 IP 阻塞,访问地理限制的内容以及增强匿名性。爬虫浏览器提供了一个可配置的代理系统,允许精确控制自动化流量路由,包括匿名性、地理位置定位和更高的可靠性,从而轻松地将代理集成到您的工作流程中。
核心功能
代理系统核心功能在于通过中间服务器隐藏真实的 IP 地址,并自动或按需轮换 IP 池中的不同地址。它还允许选择特定地理位置的代理服务器,模拟来自世界各地的用户访问。
应用场景
主要适用于需要大规模数据抓取以及绕过目标网站 IP 限制或封锁的场景。它也是访问地理限制内容以及在市场调研等任务中保持在线匿名的关键工具。
分类
使用 Scrapeless,您有两种代理配置选项:
- 使用内置代理:轻松地通过我们管理的住宅代理路由流量。
- 使用自定义代理:使用自定义 HTTP/HTTPS/SOCKS5 代理,以便更灵活地控制网络路由。
操作指南
使用内置代理
使用爬虫浏览器的内置代理通过其管理的住宅代理路由流量。
const { ScrapelessClient } = require('@scrapeless-ai/sdk');
const puppeteer =require('puppeteer-core');
const client = new ScrapelessClient({ apiKey: 'API Key' });
const { browserWSEndpoint } = client.browser.create({
session_name: 'sdk_test',
session_ttl: 180,
proxy_country: 'ANY',
session_recording: true,
});
(async () => {
const browser = await puppeteer.connect({browserWSEndpoint});
const page = await browser.newPage();
await page.goto('https://www.scrapeless.com');
console.log(await page.title());
await browser.close();
})();
代理按国家/地区划分地理位置
我们的内置代理支持 195 个国家/地区。请参考详细的 Scrapeless 代理文档 Scrapeless 代理文档
自定义代理
如果您想使用您自己的代理服务/提供商,您可以在创建会话时指定以下参数。如果您使用您自己的代理提供商,则不会收取代理使用费。
const { ScrapelessClient } = require('@scrapeless-ai/sdk');
const puppeteer =require('puppeteer-core');
const client = new ScrapelessClient({ apiKey: 'API Key' });
const proxyUrl = client.proxies.proxy({
country: 'US',
sessionDuration: 30,
sessionId: 'test-session-123',
gateway: 'gate.smartproxy.com:7000'
});
(async () => {
const browser = await puppeteer.launch({ args: [`--proxy-server=${proxyUrl}`], headless: false });
const page = await browser.newPage();
await page.goto('API_URL');
await browser.close();
})();
您也可以单独购买 Scrapeless 代理服务。
代理 Playground: https://app.scrapeless.com/scrapelessteam/products/proxy/channel-list
代理文档: https://docs.scrapeless.com/en/proxies/features/proxy/