Playwright
Scraping Browser cung cấp một nền tảng serverless hiệu năng cao được thiết kế để đơn giản hóa quá trình trích xuất dữ liệu từ các trang web động. Thông qua tích hợp liền mạch với Playwright, các nhà phát triển có thể chạy, quản lý và giám sát các trình duyệt headless mà không cần tài nguyên máy chủ chuyên dụng, cho phép tự động hóa web và thu thập dữ liệu hiệu quả.
Cài đặt các thư viện cần thiết
Đầu tiên, cài đặt playwright-core, một phiên bản nhẹ của Playwright được sử dụng để kết nối với các phiên bản trình duyệt hiện có:
npm install playwright-core
Viết mã để kết nối với Scraping Browser
Trong mã Playwright của bạn, hãy kết nối với Scraping Browser bằng cách sử dụng các lệnh sau:
const { chromium } = require('playwright-core');
const connectionURL = 'wss://browser.scrapeless.com/browser?token=APIKey&session_ttl=180&proxy_country=ANY';
(async () => {
const browser = await chromium.connectOverCDP(connectionURL);
const page = await browser.newPage();
await page.goto('https://www.scrapeless.com');
console.log(await page.title());
await browser.close();
})();
Điều này cho phép bạn tận dụng cơ sở hạ tầng của Scraping Browser, bao gồm khả năng mở rộng, luân chuyển IP và truy cập toàn cầu.
Ví dụ thực tế
Dưới đây là một số thao tác Playwright phổ biến sau khi tích hợp Scraping Browser:
- Điều hướng và trích xuất nội dung trang
const page = await browser.newPage();
await page.goto('https://www.example.com');
console.log(await page.title());
const html = await page.content();
console.log(html);
await browser.close();
- Chụp ảnh màn hình
const page = await browser.newPage();
await page.goto('https://www.example.com');
await page.screenshot({ path: 'example.png' });
console.log('Screenshot saved as example.png');
await browser.close();
- Chạy mã tùy chỉnh
const page = await browser.newPage();
await page.goto('https://www.example.com');
const result = await page.evaluate(() => document.title);
console.log('Page title:', result);
await browser.close();