Browserपुस्तकालयPuppeteer

Puppeteer

स्क्रैपिंग ब्राउज़र एक उच्च-प्रदर्शन, सर्वरलेस प्लेटफ़ॉर्म प्रदान करता है जो गतिशील वेबसाइटों से डेटा निकालने की प्रक्रिया को सरल बनाने के लिए डिज़ाइन किया गया है। Puppeteer के साथ सहज एकीकरण के माध्यम से, डेवलपर्स समर्पित सर्वर की आवश्यकता के बिना हेडलेस ब्राउज़र चला सकते हैं, प्रबंधित कर सकते हैं और मॉनिटर कर सकते हैं, जिससे कुशल वेब ऑटोमेशन और डेटा संग्रह संभव होता है।

आवश्यक लाइब्रेरीज़ स्थापित करना

सबसे पहले, puppeteer-core स्थापित करें, जो मौजूदा ब्राउज़र इंस्टेंस से कनेक्ट करने के लिए डिज़ाइन किया गया Puppeteer का एक हल्का संस्करण है:

npm install puppeteer-core

स्क्रैपिंग ब्राउज़र से कनेक्ट करने के लिए कोड लिखना

अपने Puppeteer कोड में, निम्नलिखित का उपयोग करके स्क्रैपिंग ब्राउज़र से कनेक्ट करें:

const { Puppeteer } = require('@scrapeless-ai/sdk');
 
(async () => {
    const browser = await Puppeteer.connect({
        apiKey: 'Your API key',
        session_name: 'sdk_test',
        session_ttl: 180,
        proxy_country: 'US',
        session_recording: true,
        defaultViewport: null
    });
 
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    console.log(await page.title());
    await browser.close();
})();

यह आपको स्क्रैपिंग ब्राउज़र के इन्फ्रास्ट्रक्चर का लाभ उठाने की अनुमति देता है, जिसमें स्केलेबिलिटी, IP रोटेशन और वैश्विक पहुँच शामिल है।

व्यावहारिक उदाहरण

यहाँ स्क्रैपिंग ब्राउज़र को एकीकृत करने के बाद कुछ सामान्य Puppeteer ऑपरेशन दिए गए हैं:

  1. नेविगेशन और पेज कंटेंट एक्सट्रैक्शन
const page = await browser.newPage();
await page.goto('https://www.example.com');
console.log(await page.title());
const html = await page.content();
console.log(html);
await browser.close();
 
  1. स्क्रीनशॉट लेना
const page = await browser.newPage();
await page.goto('https://www.example.com');
await page.screenshot({ path: 'example.png' });
console.log('Screenshot saved as example.png');
await browser.close();
 
  1. कस्टम कोड चलाना
const page = await browser.newPage();
await page.goto('https://www.example.com');
const result = await page.evaluate(() => document.title);
console.log('Page title:', result);
await browser.close();
 
  1. माउस क्लिक को अनुकरण करता है।
const { createPuppeteerCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPuppeteerCDPSession(page);
await cdpSession.realClick('button[type="submit"]');
  1. कीबोर्ड इनपुट को अनुकरण करें।
const { createPuppeteerCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPuppeteerCDPSession(page);
await cdpSession.realFill('#login-email', 'scrapeless@gmail.com');
  1. Scrapeless Agent का उपयोग करके वर्तमान पृष्ठ URL प्राप्त करें
const { createPuppeteerCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPuppeteerCDPSession(page);
const { error, liveURL } = await cdpSession.liveURL();
  1. इमेज कैप्चा हल करें
const { createPuppeteerCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPuppeteerCDPSession(page);
await cdpSession.imageToText({
  imageSelector: '.captcha__image',
  inputSelector: 'input[name="captcha"]',
  timeout: 30000,
});
  1. स्वचालित कैप्चा समाधान अक्षम करें
const { createPuppeteerCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPuppeteerCDPSession(page);
await cdpSession.disableCaptchaAutoSolve();
  1. निर्दिष्ट विकल्पों के साथ मैन्युअल रूप से कैप्चा हल करें
const { createPuppeteerCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPuppeteerCDPSession(page);
await cdpSession.solveCaptcha();
  1. पृष्ठ पर कैप्चा का पता लगाने की प्रतीक्षा करें
const { createPuppeteerCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPuppeteerCDPSession(page);
await cdpSession.waitCaptchaDetected({ timeout: 30000 });
  1. कैप्चा के हल होने (या तो सफलतापूर्वक या असफल) की प्रतीक्षा करें
const { createPuppeteerCDPSession } = require('@scrapeless-ai/sdk');
// ... connect to Scraping Browser as shown above
const cdpSession = await createPuppeteerCDPSession(page);
await cdpSession.waitCaptchaSolved({ timeout: 30000 });