介绍
代理系统是scraping browser的一个组件,它通过代理服务器转发连接,主要用于防止IP被封锁、访问地域限制内容以及提高匿名性。Scraping Browser 提供可配置的代理系统,支持对自动化流量路由的精确控制,包括匿名性、地理位置定向和更高的可靠性,便于您将代理集成到工作流程中。
核心能力
代理系统的核心能力在于通过中介服务器隐藏真实IP地址,并能自动或按需轮换使用IP池中的不同地址。它还允许选择特定地理位置的代理服务器,模拟来自全球各地的用户访问。
适用场景
主要适用于需要大规模抓取数据、规避目标网站IP限制或封锁的场景。同时,它也是访问地理区域限制内容和在市场研究等任务中保持网络匿名的关键工具。
分类
通过 Scrapeless, 你有两种代理配置选择
- 使用内置代理:轻松通过我们管理住宅代理路由流量。
- 使用自定义代理:使用自定义 SOCKS5/HTTPS 代理以更灵活地控制网络路由。
操作指导
使用内置代理
使用 Scraping Browser 的内置代理,将流量通过其管理的住宅代理进行路由。
const puppeteer = require('puppeteer-core');
const connectionURL = 'wss://browser.scrapeless.com/browser?token=APIKey&session_ttl=180&proxy_country=ANY';
(async () => {
const browser = await puppeteer.connect({browserWSEndpoint: connectionURL});
const page = await browser.newPage();
await page.goto('https://www.scrapeless.com');
console.log(await page.title());
await browser.close();
})();
代理地理位置按国家
我们内置的代理支持 195个国家,请参考 Scrapeless 代理的详细说明 Scrapeless proxy documentation.
自定义代理
如果您想使用自己的代理服务/提供商,您可以在创建会话时指定以下参数。如果您使用自己的代理提供商,将不会对代理使用进行收费。
const puppeteer = require('puppeteer-core');
(async () => {
try {
const proxyUrl = 'http://gw-us.scrapeless.com:8789';
const username = 'username';
const password = 'password';
const browser = await puppeteer.launch({ args: [`--proxy-server=${proxyUrl}`], headless: false });
const page = await browser.newPage();
await page.authenticate({ username, password });
await page.goto('API_URL');
await browser.close();
} catch (e) {
console.log(e)
}
})();
您也可以单独购买 Scrapeless 代理服务。
代理测试区 (Playground): https://app.scrapeless.com/scrapelessteam/products/proxy/channel-list
代理文档: https://docs.scrapeless.com/en/proxies/features/proxy/