Playwright

Scraping Browserは、動的なウェブサイトからのデータ抽出プロセスを簡素化するために設計された、高性能なサーバーレスプラットフォームを提供します。Playwrightとのシームレスな統合により、開発者は、専用のサーバーリソースを必要とせずに、ヘッドレスブラウザを実行、管理、監視することができ、効率的なウェブ自動化とデータ収集を実現します。

必要なライブラリのインストール

最初に、既存のブラウザインスタンスに接続するために使用される、軽量版のPlaywrightであるplaywright-coreをインストールします。

npm install playwright-core

Scraping Browserに接続するためのコードの記述

Playwrightコードで、以下を使用してScraping Browserに接続します。

const { Playwright } = require('@scrapeless-ai/sdk');
 
(async () => {
    const browser = await Playwright.connect({
        apiKey: 'Your API key',
        sessionName: 'sdk_test',
        sessionTTL: 180,
        proxyCountry: 'US',
        sessionRecording: true,
    });
 
    const context = browser.contexts()[0];
    const page = await context.newPage();
 
    await page.goto('https://www.scrapeless.com');
    console.log(await page.title());
    await browser.close();
})();

これにより、スケーラビリティ、IPローテーション、グローバルアクセスなど、Scraping Browserのインフラストラクチャを活用できます。

実践例

Scraping Browserを統合した後の、一般的なPlaywright操作をいくつか紹介します。

ナビゲーションとページコンテンツの抽出

const page = await browser.newPage();
await page.goto('https://www.example.com');
console.log(await page.title());
const html = await page.content();
console.log(html);
await browser.close();

スクリーンショットの撮影

const context = browser.contexts()[0];
const page = await context.newPage();
await page.goto('https://www.example.com');
await page.screenshot({ path: 'example.png' });
console.log('Screenshot saved as example.png');
await browser.close();

カスタムコードの実行

const context = browser.contexts()[0];
const page = await context.newPage();
await page.goto('https://www.example.com');
const result = await page.evaluate(() => document.title);
console.log('Page title:', result);
await browser.close();

マウスのクリックをシミュレートします。

const { createPlaywrightCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPlaywrightCDPSession(page);
await cdpSession.realClick('button[type="submit"]');

キーボード入力をシミュレートします。

const { createPlaywrightCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPlaywrightCDPSession(page);
await cdpSession.realFill('#login-email', 'scrapeless@gmail.com');

Scrapeless Agentを使用して現在のページURLを取得します

const { createPlaywrightCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPlaywrightCDPSession(page);
const { error, liveURL } = await cdpSession.liveURL();

画像認証を解決します

const { createPlaywrightCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPlaywrightCDPSession(page);
await cdpSession.imageToText({
  imageSelector: '.captcha__image',
  inputSelector: 'input[name="captcha"]',
  timeout: 30000,
});

自動的なCAPTCHA解決を無効にします

const { createPlaywrightCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPlaywrightCDPSession(page);
await cdpSession.disableCaptchaAutoSolve();

指定されたオプションで手動でCAPTCHAを解決します

const { createPlaywrightCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPlaywrightCDPSession(page);
await cdpSession.solveCaptcha();

ページでCAPTCHAが検出されるのを待ちます

const { createPlaywrightCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPlaywrightCDPSession(page);
await cdpSession.waitCaptchaDetected({ timeout: 30000 });

CAPTCHAが解決されるのを待ちます（成功または失敗のいずれか）

const { createPlaywrightCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPlaywrightCDPSession(page);
await cdpSession.waitCaptchaSolved({ timeout: 30000 });

Puppeteer ライブセッション