代理
简介
代理系统是抓取浏览器的一个组件,它通过代理服务器转发连接。它主要用于防止IP封锁、访问地理限制内容以及增强匿名性。抓取浏览器提供了一个可配置的代理系统,允许精确控制自动化流量路由,包括匿名性、地理位置定位和提高可靠性,从而易于将代理集成到您的工作流程中。
核心功能
代理系统核心功能在于通过中间服务器隐藏真实的IP地址,并自动或按需轮换IP池中的不同地址。它还允许选择特定地理位置的代理服务器,模拟来自世界各地的用户访问。
应用场景
主要适用于需要大规模数据抓取以及绕过目标网站IP限制或封锁的场景。它也是访问地理限制内容和在市场调研等任务中保持在线匿名的关键工具。
分类
使用Scrapeless,您有两种代理配置选项:
- 使用内置代理:轻松地通过我们管理的住宅代理路由流量。
- 使用自定义代理:使用自定义HTTP/HTTPS/SOCKS5代理,更灵活地控制网络路由。
操作指南
使用内置代理
使用抓取浏览器的内置代理会通过其管理的住宅代理路由流量。
const puppeteer = require('puppeteer-core');
const connectionURL = 'wss://browser.scrapeless.com/browser?token=APIKey&session_ttl=180&proxy_country=ANY';
(async () => {
const browser = await puppeteer.connect({browserWSEndpoint: connectionURL});
const page = await browser.newPage();
await page.goto('https://www.scrapeless.com');
console.log(await page.title());
await browser.close();
})();
按国家/地区划分代理地理位置
我们的内置代理支持195个国家/地区。请参考详细的Scrapeless代理文档 Scrapeless代理文档
自定义代理
如果您想使用您自己的代理服务/提供商,您可以在创建会话时指定以下参数。如果您使用您自己的代理提供商,您将不会被收取代理使用费。
const puppeteer = require('puppeteer-core');
(async () => {
try {
const proxyUrl = 'http://gw-us.scrapeless.com:8789';
const username = 'username';
const password = 'password';
const browser = await puppeteer.launch({ args: [`--proxy-server=${proxyUrl}`], headless: false });
const page = await browser.newPage();
await page.authenticate({ username, password });
await page.goto('API_URL');
await browser.close();
} catch (e) {
console.log(e)
}
})();
您也可以单独购买Scrapeless代理服务。
代理测试场: https://app.scrapeless.com/scrapelessteam/products/proxy/channel-list
代理文档: https://docs.scrapeless.com/en/proxies/features/proxy/