Scraping BrowserTính năngTích hợp

Tích hợp

Puppeteer

Scraping Browser cung cấp một nền tảng serverless hiệu năng cao được thiết kế để đơn giản hóa quá trình trích xuất dữ liệu từ các trang web động. Với tích hợp liền mạch với Puppeteer, các nhà phát triển có thể chạy, quản lý và giám sát các trình duyệt headless mà không cần tài nguyên máy chủ chuyên dụng, đạt được tự động hóa web và thu thập dữ liệu hiệu quả.

Cài đặt các thư viện cần thiết

Đầu tiên, cài đặt puppeteer-core, phiên bản nhẹ của Puppeteer, được thiết kế để kết nối với các phiên bản trình duyệt hiện có:

npm install puppeteer-core

Viết code để kết nối với Scraping Browser

Trong code Puppeteer của bạn, kết nối với Scraping Browser bằng phương pháp sau:

const puppeteer = require('puppeteer-core');
const connectionURL = 'wss://browser.scrapeless.com/browser?token=APIKey&session_ttl=180&proxy_country=ANY';
 
(async () => {
    const browser = await puppeteer.connect({browserWSEndpoint: connectionURL});
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    console.log(await page.title());
    await browser.close();
})();
 

Bằng cách này, bạn có thể tận dụng cơ sở hạ tầng của Scraping Browser, bao gồm khả năng mở rộng, luân chuyển IP và truy cập toàn cầu.

Ví dụ thực tế

Dưới đây là một số thao tác Puppeteer phổ biến sau khi tích hợp với Scraping Browser:

  1. Điều hướng và trích xuất nội dung trang
const page = await browser.newPage();
await page.goto('https://www.example.com');
console.log(await page.title());
const html = await page.content();
console.log(html);
await browser.close();
 
  1. Chụp ảnh màn hình
const page = await browser.newPage();
await page.goto('https://www.example.com');
await page.screenshot({ path: 'example.png' });
console.log('Screenshot saved as example.png');
await browser.close();
 
  1. Chạy các script tùy chỉnh
const page = await browser.newPage();
await page.goto('https://www.example.com');
const result = await page.evaluate(() => document.title);
console.log('Page title:', result);
await browser.close();
 

Playwright

Scraping Browser cung cấp một nền tảng serverless hiệu năng cao được thiết kế để đơn giản hóa quá trình trích xuất dữ liệu từ các trang web động. Với tích hợp liền mạch với Playwright, các nhà phát triển có thể chạy, quản lý và giám sát các trình duyệt headless mà không cần tài nguyên máy chủ chuyên dụng, đạt được tự động hóa web và thu thập dữ liệu hiệu quả.

Cài đặt các thư viện cần thiết

Đầu tiên, cài đặt playwright-core, phiên bản nhẹ của Playwright, được sử dụng để kết nối với các phiên bản trình duyệt hiện có:

npm install playwright-core

Viết code để kết nối với Scraping Browser

Trong code Playwright, kết nối với Scraping Browser bằng phương pháp sau:

const { chromium } = require('playwright-core');
const connectionURL = 'wss://browser.scrapeless.com/browser?token=APIKey&session_ttl=180&proxy_country=ANY';
 
(async () => {
    const browser = await chromium.connectOverCDP(connectionURL);
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    console.log(await page.title());
    await browser.close();
})();
 

Điều này cho phép bạn tận dụng cơ sở hạ tầng của Scraping Browser, bao gồm khả năng mở rộng, luân chuyển IP và truy cập toàn cầu.

Ví dụ thực tế

Dưới đây là một số thao tác Playwright phổ biến sau khi tích hợp với Scraping Browser:

  1. Điều hướng và trích xuất nội dung trang
const page = await browser.newPage();
await page.goto('https://www.example.com');
console.log(await page.title());
const html = await page.content();
console.log(html);
await browser.close();
 
  1. Chụp ảnh màn hình
const page = await browser.newPage();
await page.goto('https://www.example.com');
await page.screenshot({ path: 'example.png' });
console.log('Screenshot saved as example.png');
await browser.close();
 
  1. Chạy các script tùy chỉnh
const page = await browser.newPage();
await page.goto('https://www.example.com');
const result = await page.evaluate(() => document.title);
console.log('Page title:', result);
await browser.close();
 

Các ví dụ code này minh họa cách sử dụng playwright-core để kết nối và thao tác với Scraping Browser.