プロキシ

はじめに

プロキシシステムは、プロキシサーバーを介して接続を転送するスクレイピングブラウザのコンポーネントです。主にIPブロッキングの防止、地域制限コンテンツへのアクセス、匿名性の強化に使用されます。Scraping Browserは、匿名性、地理的位置ターゲティング、信頼性の向上など、自動トラフィックルーティングを正確に制御できる設定可能なプロキシシステムを提供し、プロキシをワークフローに簡単に統合できます。

コア機能

プロキシシステムのコア機能は、仲介サーバーを介して実際のIPアドレスを隠し、IPプール内の異なるアドレスを自動的またはオンデマンドでローテーションすることにあります。また、特定の地理的位置にあるプロキシサーバーを選択し、世界中のさまざまな場所からのユーザーアクセスをシミュレートすることも可能です。

アプリケーションシナリオ

主に、大規模なデータスクレイピングとターゲットウェブサイトのIP制限またはブロックの回避が必要なシナリオに適用されます。また、市場調査などのタスクで、地域制限コンテンツにアクセスし、オンライン匿名性を維持するための重要なツールでもあります。

分類

Scrapelessでは、2つのプロキシ設定オプションがあります。

  • 組み込みプロキシの使用:管理されたレジデンシャルプロキシを介してトラフィックを簡単にルーティングします。
  • カスタムプロキシの使用:ネットワークルーティングをより柔軟に制御するために、カスタムHTTP/HTTPS/SOCKS5プロキシを使用します。

操作ガイド

組み込みプロキシの使用

Scraping Browserの組み込みプロキシを使用すると、その管理されたレジデンシャルプロキシを介してトラフィックがルーティングされます。

const { ScrapelessClient } = require('@scrapeless-ai/sdk');
const puppeteer = require('puppeteer-core');
const client = new ScrapelessClient({ apiKey: 'API Key' });
 
const { browserWSEndpoint } = client.browser.create({
  sessionName: 'sdk_test',
  sessionTTL: 180,
  proxyCountry: 'AU',
  proxyState: 'NSW',      // Optional: state code
  proxyCity: 'sydney', // Optional: city name
  sessionRecording: true,
});
 
(async () => {
  const browser = await puppeteer.connect({ browserWSEndpoint });
  const page = await browser.newPage();
  await page.goto('https://www.scrapeless.com');
  console.log(await page.title());
  await browser.close();
})();

地理的プロキシ選択

当社の組み込みプロキシネットワークは世界195の国と地域に広がり、スクレイピング操作の正確な地理的ターゲティングを可能にします。各プロキシロケーションはパフォーマンスと信頼性のために最適化されており、特定の地域からの本物のユーザーアクセスをシミュレートできます。

州および都市レベルのターゲティングを含む、包括的な国および地域選択については、詳細なプロキシドキュメントを参照してください。

カスタムプロキシ

独自のプロキシサービス/プロバイダーを使用したい場合は、セッション作成時に以下のパラメータを指定できます。独自のプロキシプロバイダーを使用する場合、プロキシの使用料は発生しません。

const { ScrapelessClient } = require('@scrapeless-ai/sdk');
const puppeteer =require('puppeteer-core');
const client = new ScrapelessClient({ apiKey: 'API Key' });
 
const proxyUrl = client.proxies.proxy({
  country: 'US',
  sessionDuration: 30, // session duration
  sessionId: 'test-session-123', // custom proxy sessionId
  gateway: 'gw-us.scrapeless.io:8789' // allowed value: `gw-us.scrapeless.io:8789`, `gw-eu.scrapeless.io:8789`, `gw-ap.scrapeless.io:8789`
});
 
console.log(proxyUrl)

当社のクラウドブラウザの組み込みプロキシは、レジデンシャルタイプのみをサポートしており、大規模なデータ抽出操作に適しています。また、レジデンシャルプロキシ、データセンタープロキシ、静的ISPプロキシ、IPv6プロキシなど、さまざまなプロキシタイプを個別に提供しており、より洗練された構成をサポートしています。当社のプロキシを個別に購入し、クラウドブラウザに注入して、より多様な使用シナリオに合わせることもできます。たとえば、セッション間で一貫して専用のIPアドレスが必要な場合は、当社の静的ISPプロキシを購入できます。 ガイド