プロキシ
はじめに
プロキシシステムは、スクレイピングブラウザのコンポーネントであり、プロキシサーバーを介して接続を転送します。主に、IPブロックの回避、地理的に制限されたコンテンツへのアクセス、匿名性の向上に使用されます。Scraping Browserは、匿名性、地理位置情報ターゲティング、信頼性の向上など、自動化されたトラフィックルーティングを正確に制御できる設定可能なプロキシシステムを提供し、ワークフローへのプロキシの統合を容易にします。
コア機能
プロキシシステムの中核機能は、中継サーバーを介して実際のIPアドレスを隠蔽し、IPプール内の異なるアドレスを自動的またはオンデマンドでローテーションすることです。また、特定の地理位置のプロキシサーバーを選択し、世界中のさまざまな地域からのユーザーアクセスをシミュレートすることもできます。
アプリケーションシナリオ
主に、大規模なデータスクレイピングとターゲットWebサイトのIP制限またはブロックの回避を必要とするシナリオに適用されます。また、市場調査などのタスクにおける地理的に制限されたコンテンツへのアクセスとオンライン匿名性の維持のための重要なツールでもあります。
分類
Scrapelessを使用すると、2つのプロキシ構成オプションがあります。
- 組み込みプロキシの使用:管理された住宅用プロキシを介してトラフィックを簡単にルーティングします。
- カスタムプロキシの使用:カスタムHTTP / HTTPS / SOCKS5プロキシを使用して、ネットワークルーティングをより柔軟に制御します。
操作手順
組み込みプロキシの使用
Scraping Browserの組み込みプロキシを使用すると、管理された住宅用プロキシを介してトラフィックがルーティングされます。
const puppeteer = require('puppeteer-core');
const connectionURL = 'wss://browser.scrapeless.com/browser?token=APIKey&session_ttl=180&proxy_country=ANY';
(async () => {
const browser = await puppeteer.connect({browserWSEndpoint: connectionURL});
const page = await browser.newPage();
await page.goto('https://www.scrapeless.com');
console.log(await page.title());
await browser.close();
})();
国別のプロキシの地理位置情報
当社の組み込みプロキシは195カ国をサポートしています。詳細については、Scrapelessプロキシのドキュメントを参照してくださいScrapelessプロキシドキュメント
カスタムプロキシ
独自のプロキシサービス/プロバイダーを使用する場合は、セッションを作成する際に次のパラメーターを指定できます。独自のプロキシプロバイダーを使用する場合は、プロキシの使用料金は請求されません。
- 💡カスタムプロキシ機能は、現在、EnterpriseおよびEnterprise Plusサブスクライバーのみが利用できます こちらからアップグレード
- 💡エンタープライズレベルのカスタムユーザーは、カスタムプロキシを使用するためにお問い合わせください
const puppeteer = require('puppeteer-core');
(async () => {
try {
const proxyUrl = 'http://gw-us.scrapeless.com:8789';
const username = 'username';
const password = 'password';
const browser = await puppeteer.launch({ args: [`--proxy-server=${proxyUrl}`], headless: false });
const page = await browser.newPage();
await page.authenticate({ username, password });
await page.goto('API_URL');
await browser.close();
} catch (e) {
console.log(e)
}
})();
Scrapelessプロキシサービスは別途購入することもできます。
プロキシプレイグラウンド: https://app.scrapeless.com/scrapelessteam/products/proxy/channel-list
プロキシドキュメント: https://docs.scrapeless.com/en/proxies/features/proxy/