Playwright
Scraping Browser fornece uma plataforma serverless de alto desempenho, projetada para simplificar o processo de extração de dados de sites dinâmicos. Através da integração perfeita com o Playwright, os desenvolvedores podem executar, gerenciar e monitorar navegadores headless sem precisar de recursos de servidor dedicados, permitindo automação web eficiente e coleta de dados.
Instalando Bibliotecas Necessárias
Primeiro, instale playwright-core, uma versão leve do Playwright usada para conectar a instâncias de navegador existentes:
npm install playwright-core
Escrevendo Código para se Conectar ao Scraping Browser
Em seu código Playwright, conecte-se ao Scraping Browser usando o seguinte:
const { chromium } = require('playwright-core');
const connectionURL = 'wss://browser.scrapeless.com/browser?token=APIKey&session_ttl=180&proxy_country=ANY';
(async () => {
const browser = await chromium.connectOverCDP(connectionURL);
const page = await browser.newPage();
await page.goto('https://www.scrapeless.com');
console.log(await page.title());
await browser.close();
})();
Isso permite que você aproveite a infraestrutura do Scraping Browser, incluindo escalabilidade, rotação de IP e acesso global.
Exemplos Práticos
Aqui estão algumas operações comuns do Playwright após a integração do Scraping Browser:
- Navegação e Extração de Conteúdo da Página
const page = await browser.newPage();
await page.goto('https://www.example.com');
console.log(await page.title());
const html = await page.content();
console.log(html);
await browser.close();
- Tirando Capturas de Tela
const page = await browser.newPage();
await page.goto('https://www.example.com');
await page.screenshot({ path: 'example.png' });
console.log('Screenshot saved as example.png');
await browser.close();
- Executando Código Personalizado
const page = await browser.newPage();
await page.goto('https://www.example.com');
const result = await page.evaluate(() => document.title);
console.log('Page title:', result);
await browser.close();