Scraping Browserपुस्तकालयPuppeteer

Puppeteer

स्क्रेपिंग ब्राउज़र एक उच्च-प्रदर्शन, सर्वरलेस प्लेटफ़ॉर्म प्रदान करता है जो गतिशील वेबसाइटों से डेटा निकालने की प्रक्रिया को सरल बनाने के लिए डिज़ाइन किया गया है। Puppeteer के साथ सहज एकीकरण के माध्यम से, डेवलपर्स समर्पित सर्वर की आवश्यकता के बिना हेडलेस ब्राउज़र चला सकते हैं, प्रबंधित कर सकते हैं और उनकी निगरानी कर सकते हैं, जिससे कुशल वेब ऑटोमेशन और डेटा संग्रह संभव होता है।

आवश्यक लाइब्रेरीज़ स्थापित करना

सबसे पहले, puppeteer-core स्थापित करें, जो मौजूदा ब्राउज़र इंस्टेंस से कनेक्ट करने के लिए डिज़ाइन किया गया Puppeteer का एक हल्का संस्करण है:

npm install puppeteer-core

स्क्रेपिंग ब्राउज़र से कनेक्ट करने के लिए कोड लिखना

अपने Puppeteer कोड में, निम्नलिखित का उपयोग करके स्क्रेपिंग ब्राउज़र से कनेक्ट करें:

const puppeteer = require('puppeteer-core');
const connectionURL = 'wss://browser.scrapeless.com/browser?token=APIKey&session_ttl=180&proxy_country=ANY';
 
(async () => {
    const browser = await puppeteer.connect({browserWSEndpoint: connectionURL});
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    console.log(await page.title());
    await browser.close();
})();
 

यह आपको स्केलेबिलिटी, आईपी रोटेशन और वैश्विक पहुँच सहित स्क्रेपिंग ब्राउज़र के बुनियादी ढाँचे का लाभ उठाने की अनुमति देता है।

व्यावहारिक उदाहरण

स्क्रेपिंग ब्राउज़र को एकीकृत करने के बाद कुछ सामान्य Puppeteer ऑपरेशन यहां दिए गए हैं:

  1. नेविगेशन और पृष्ठ सामग्री निष्कर्षण
const page = await browser.newPage();
await page.goto('https://www.example.com');
console.log(await page.title());
const html = await page.content();
console.log(html);
await browser.close();
 
  1. स्क्रीनशॉट लेना
const page = await browser.newPage();
await page.goto('https://www.example.com');
await page.screenshot({ path: 'example.png' });
console.log('Screenshot saved as example.png');
await browser.close();
 
  1. कस्टम कोड चलाना
const page = await browser.newPage();
await page.goto('https://www.example.com');
const result = await page.evaluate(() => document.title);
console.log('Page title:', result);
await browser.close();