Scraping Browser功能集成

集成

Puppeteer

Scraping Browser 提供了一个高性能的无服务器平台,旨在简化从动态网站进行数据提取的过程。通过与 Puppeteer 的无缝集成,开发者可以在无需专用服务器的情况下,运行、管理和监控无头浏览器,实现高效的网页自动化和数据收集。

安装必要的库

首先,安装 puppeteer-core,这是 Puppeteer 的轻量级版本,专为连接现有浏览器实例而设计:

npm install puppeteer-core

编写代码以连接 Scraping Browser

在您的 Puppeteer 代码中,使用以下方式连接到 Scraping Browser:

const puppeteer = require('puppeteer-core');
const connectionURL = 'wss://browser.scrapeless.com/browser?token=APIKey&session_ttl=180&proxy_country=ANY';
 
(async () => {
    const browser = await puppeteer.connect({browserWSEndpoint: connectionURL});
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    console.log(await page.title());
    await browser.close();
})();
 

通过这种方式,您可以利用 Scraping Browser 的基础设施,包括可扩展性、IP 轮换和全球访问等优势。

实用示例

以下是集成 Scraping Browser 后的一些常见 Puppeteer 操作:

  1. 导航和页面内容提取
const page = await browser.newPage();
await page.goto('https://www.example.com');
console.log(await page.title());
const html = await page.content();
console.log(html);
await browser.close();
 
  1. 截取屏幕截图
const page = await browser.newPage();
await page.goto('https://www.example.com');
await page.screenshot({ path: 'example.png' });
console.log('Screenshot saved as example.png');
await browser.close();
 
  1. 运行自定义代码
const page = await browser.newPage();
await page.goto('https://www.example.com');
const result = await page.evaluate(() => document.title);
console.log('Page title:', result);
await browser.close();
 

Playwright

Scraping Browser 提供了一个高性能的无服务器平台,旨在简化从动态网站进行数据提取的过程。通过与 Playwright 的无缝集成,开发者可以在无需专用服务器资源的情况下,运行、管理和监控无头浏览器,实现高效的网页自动化和数据收集。

安装必要的库

首先,安装 playwright-core,这是 Playwright 的轻量级版本,用于连接现有浏览器实例:

npm install playwright-core

编写代码以连接 Scraping Browser

在 Playwright 代码中,使用以下方式连接到 Scraping Browser:

const { chromium } = require('playwright-core');
const connectionURL = 'wss://browser.scrapeless.com/browser?token=APIKey&session_ttl=180&proxy_country=ANY';
 
(async () => {
    const browser = await chromium.connectOverCDP(connectionURL);
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    console.log(await page.title());
    await browser.close();
})();
 

通过这种方式,您可以利用 Scraping Browser 的基础设施,包括可扩展性、IP 轮换和全球访问等优势。

实用示例

以下是集成 Scraping Browser 后的一些常见 Playwright 操作:

  1. 导航和页面内容提取
const page = await browser.newPage();
await page.goto('https://www.example.com');
console.log(await page.title());
const html = await page.content();
console.log(html);
await browser.close();
 
  1. 截取屏幕截图
const page = await browser.newPage();
await page.goto('https://www.example.com');
await page.screenshot({ path: 'example.png' });
console.log('Screenshot saved as example.png');
await browser.close();
 
  1. 运行自定义代码
const page = await browser.newPage();
await page.goto('https://www.example.com');
const result = await page.evaluate(() => document.title);
console.log('Page title:', result);
await browser.close();
 

这些代码示例展示了如何使用 playwright-core 来连接和操作 Scraping Browser。