Scraping Browser特徴統合

統合

Puppeteer

Scraping Browserは、動的なウェブサイトからのデータ抽出プロセスを簡素化するために設計された、高性能なサーバーレスプラットフォームを提供します。Puppeteerとのシームレスな統合により、開発者は専用のサーバーリソースなしでヘッドレスブラウザを実行、管理、監視し、効率的なウェブ自動化とデータ収集を実現できます。

必要なライブラリのインストール

まず、既存のブラウザインスタンスに接続するために設計された、Puppeteerの軽量版であるpuppeteer-coreをインストールします。

npm install puppeteer-core

Scraping Browserへの接続コードの記述

Puppeteerコードで、次の方法を使用してScraping Browserに接続します。

const puppeteer = require('puppeteer-core');
const connectionURL = 'wss://browser.scrapeless.com/browser?token=APIKey&session_ttl=180&proxy_country=ANY';
 
(async () => {
    const browser = await puppeteer.connect({browserWSEndpoint: connectionURL});
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    console.log(await page.title());
    await browser.close();
})();
 

このようにして、スケーラビリティ、IPローテーション、グローバルアクセスなど、Scraping Browserのインフラストラクチャを活用できます。

実践例

Scraping Browserと統合した後の一般的なPuppeteer操作をいくつか示します。

  1. ナビゲーションとページコンテンツの抽出
const page = await browser.newPage();
await page.goto('https://www.example.com');
console.log(await page.title());
const html = await page.content();
console.log(html);
await browser.close();
 
  1. スクリーンショットのキャプチャ
const page = await browser.newPage();
await page.goto('https://www.example.com');
await page.screenshot({ path: 'example.png' });
console.log('Screenshot saved as example.png');
await browser.close();
 
  1. カスタムスクリプトの実行
const page = await browser.newPage();
await page.goto('https://www.example.com');
const result = await page.evaluate(() => document.title);
console.log('Page title:', result);
await browser.close();
 

Playwright

Scraping Browserは、動的なウェブサイトからのデータ抽出プロセスを簡素化するために設計された、高性能なサーバーレスプラットフォームを提供します。Playwrightとのシームレスな統合により、開発者は専用のサーバーリソースなしでヘッドレスブラウザを実行、管理、監視し、効率的なウェブ自動化とデータ収集を実現できます。

必要なライブラリのインストール

まず、既存のブラウザインスタンスに接続するために使用される、Playwrightの軽量版であるplaywright-coreをインストールします。

npm install playwright-core

Scraping Browserへの接続コードの記述

Playwrightコードで、次の方法を使用してScraping Browserに接続します。

const { chromium } = require('playwright-core');
const connectionURL = 'wss://browser.scrapeless.com/browser?token=APIKey&session_ttl=180&proxy_country=ANY';
 
(async () => {
    const browser = await chromium.connectOverCDP(connectionURL);
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    console.log(await page.title());
    await browser.close();
})();
 

これにより、スケーラビリティ、IPローテーション、グローバルアクセスなど、Scraping Browserのインフラストラクチャを活用できます。

実践例

Scraping Browserと統合した後の一般的なPlaywright操作をいくつか示します。

  1. ナビゲーションとページコンテンツの抽出
const page = await browser.newPage();
await page.goto('https://www.example.com');
console.log(await page.title());
const html = await page.content();
console.log(html);
await browser.close();
 
  1. スクリーンショットのキャプチャ
const page = await browser.newPage();
await page.goto('https://www.example.com');
await page.screenshot({ path: 'example.png' });
console.log('Screenshot saved as example.png');
await browser.close();
 
  1. カスタムスクリプトの実行
const page = await browser.newPage();
await page.goto('https://www.example.com');
const result = await page.evaluate(() => document.title);
console.log('Page title:', result);
await browser.close();
 

これらのコード例は、playwright-coreを使用してScraping Browserに接続し、操作する方法を示しています。