Scraping BrowserThư việnPuppeteer

Puppeteer

Scraping Browser cung cấp một nền tảng serverless, hiệu năng cao, được thiết kế để đơn giản hóa quá trình trích xuất dữ liệu từ các trang web động. Thông qua tích hợp liền mạch với Puppeteer, các nhà phát triển có thể chạy, quản lý và giám sát các trình duyệt headless mà không cần một máy chủ chuyên dụng, cho phép tự động hóa web và thu thập dữ liệu hiệu quả.

Cài đặt các thư viện cần thiết

Đầu tiên, cài đặt puppeteer-core, một phiên bản nhẹ của Puppeteer được thiết kế để kết nối với các phiên bản trình duyệt hiện có:

npm install puppeteer-core

Viết code để kết nối với Scraping Browser

Trong code Puppeteer của bạn, hãy kết nối với Scraping Browser bằng cách sử dụng các lệnh sau:

const { Puppeteer } = require('@scrapeless-ai/sdk');
 
(async () => {
    const browser = await Puppeteer.connect({
        session_name: 'sdk_test',
        session_ttl: 180,
        proxy_country: 'US',
        session_recording: true,
        defaultViewport: null
    });
 
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    console.log(await page.title());
    await browser.close();
})();

Điều này cho phép bạn tận dụng cơ sở hạ tầng của Scraping Browser, bao gồm khả năng mở rộng, luân phiên IP và truy cập toàn cầu.

Ví dụ thực tế

Dưới đây là một số thao tác Puppeteer phổ biến sau khi tích hợp Scraping Browser:

  1. Điều hướng và trích xuất nội dung trang
const page = await browser.newPage();
await page.goto('https://www.example.com');
console.log(await page.title());
const html = await page.content();
console.log(html);
await browser.close();
 
  1. Chụp ảnh màn hình
const page = await browser.newPage();
await page.goto('https://www.example.com');
await page.screenshot({ path: 'example.png' });
console.log('Screenshot saved as example.png');
await browser.close();
 
  1. Chạy code tùy chỉnh
const page = await browser.newPage();
await page.goto('https://www.example.com');
const result = await page.evaluate(() => document.title);
console.log('Page title:', result);
await browser.close();
 
  1. Mô phỏng nhấp chuột chuột.
await page.realClick('button[type="submit"]');
  1. Mô phỏng nhập liệu bàn phím.
await page.realFill('#login-email', 'scrapeless@gmail.com');