Playwright

Scraping Browser proporciona una plataforma serverless de alto rendimiento diseñada para simplificar el proceso de extracción de datos de sitios web dinámicos. A través de la integración perfecta con Playwright, los desarrolladores pueden ejecutar, administrar y monitorear navegadores headless sin necesidad de recursos de servidor dedicados, lo que permite una automatización web eficiente y la recolección de datos.

Instalación de Bibliotecas Necesarias

Primero, instale playwright-core, una versión ligera de Playwright utilizada para conectarse a instancias de navegador existentes:

npm install playwright-core

Escribiendo Código para Conectarse a Scraping Browser

En su código Playwright, conéctese a Scraping Browser usando lo siguiente:

const { chromium } = require('playwright-core');
const connectionURL = 'wss://browser.scrapeless.com/browser?token=APIKey&session_ttl=180&proxy_country=ANY';
 
(async () => {
    const browser = await chromium.connectOverCDP(connectionURL);
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    console.log(await page.title());
    await browser.close();
})();
 

Esto le permite aprovechar la infraestructura de Scraping Browser, incluyendo escalabilidad, rotación de IP y acceso global.

Ejemplos Prácticos

Aquí hay algunas operaciones comunes de Playwright después de integrar Scraping Browser:

  1. Navegación y Extracción de Contenido de Página
const page = await browser.newPage();
await page.goto('https://www.example.com');
console.log(await page.title());
const html = await page.content();
console.log(html);
await browser.close();
 
  1. Captura de Pantallas
const page = await browser.newPage();
await page.goto('https://www.example.com');
await page.screenshot({ path: 'example.png' });
console.log('Screenshot saved as example.png');
await browser.close();
 
  1. Ejecutando Código Personalizado
const page = await browser.newPage();
await page.goto('https://www.example.com');
const result = await page.evaluate(() => document.title);
console.log('Page title:', result);
await browser.close();