आरंभ करना

एकल पृष्ठ क्रॉल करें

क्रॉल API आपको एकल कॉल के साथ वेब पेजों से वांछित डेटा प्राप्त करने की अनुमति देता है। आप पृष्ठ सामग्री को स्क्रैप कर सकते हैं और इसके डेटा को विभिन्न स्वरूपों में कैप्चर कर सकते हैं।

स्क्रैपलेस स्क्रैप अनुरोध शुरू करने और इसकी स्थिति और परिणाम प्राप्त करने के लिए एंडपॉइंट प्रकट करता है। डिफ़ॉल्ट रूप से, स्क्रैपिंग को पहले नौकरी शुरू करने और फिर इसकी स्थिति की जांच करने के अतुल्यकालिक तरीके से संभाला जाता है जब तक कि यह पूरा नहीं हो जाता। हालाँकि, हमारे SDK के साथ, हम एक सरल फ़ंक्शन प्रदान करते हैं जो संपूर्ण प्रवाह को संभालता है और कार्य पूरा होने पर डेटा देता है।

स्थापना

npm install @scrapeless-ai/sdk

pnpm add @scrapeless-ai/sdk

उपयोग

import { ScrapingCrawl } from "@scrapeless-ai/sdk";
 
// क्लाइंट को इनिशियलाइज़ करें
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // अपनी API कुंजी https://scrapeless.com से प्राप्त करें
});
 
(async () => {
  const result = await client.scrapeUrl(
    "https://example.com"
  );
 
  console.log(result);
})();

ब्राउज़र कॉन्फ़िगरेशन

आप एक नया सत्र स्वयं बनाते समय स्क्रैप कार्य को निष्पादित करने के लिए उपयोग किए जाने वाले सत्र के लिए कॉन्फ़िगरेशन भी प्रदान कर सकते हैं; इनमें प्रॉक्सी का उपयोग शामिल हो सकता है।

स्क्रैपलेस स्वचालित रूप से सामान्य CAPTCHA प्रकारों को संभालता है, जिसमें reCAPTCHA v2, Cloudflare Turnstile/Challenge शामिल हैं।

किसी अतिरिक्त सेटअप की आवश्यकता नहीं है—स्क्रैपलेस स्क्रैपिंग के दौरान इसका ध्यान रखता है। 👉 अधिक विवरण के लिए, देखें Captcha Solving।

सभी विभिन्न उपलब्ध ब्राउज़र पैरामीटर देखने के लिए, API Reference या Browser Parameters देखें।

import { ScrapingCrawl } from "@scrapeless-ai/sdk";
 
// क्लाइंट को इनिशियलाइज़ करें
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // अपनी API कुंजी https://scrapeless.com से प्राप्त करें
});
 
(async () => {
  const result = await client.scrapeUrl(
    "https://example.com",
    {
      browserOptions: {
        proxyCountry: "ANY",
        sessionName: "Crawl",
        sessionRecording: true,
        sessionTTL: 900,
      },
    }
  );
 
  console.log(result);
})();

स्क्रैप कॉन्फ़िगरेशन

आप स्क्रैप कार्य के लिए वैकल्पिक पैरामीटर भी निर्दिष्ट कर सकते हैं, जैसे कि प्रतिक्रिया स्वरूप, केवल मुख्य-सामग्री-केवल निष्कर्षण को सक्षम करना, अधिकतम पृष्ठ नेविगेशन समय सीमा सेट करना, और बहुत कुछ।

import { ScrapingCrawl } from "@scrapeless-ai/sdk";
 
// क्लाइंट को इनिशियलाइज़ करें
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // अपनी API कुंजी https://scrapeless.com से प्राप्त करें
});
 
(async () => {
  const result = await client.scrapeUrl(
    "https://example.com",
    {
      formats: ["markdown", "html", "links"],
      onlyMainContent: false,
      timeout: 15000,
    }
  );
 
  console.log(result);
})();

स्क्रैप एंडपॉइंट पर पूर्ण संदर्भ के लिए, API Reference देखें।

बैच स्क्रैप

बैच स्क्रैप नियमित स्क्रैप के समान ही काम करता है, सिवाय इसके कि एकल URL के बजाय, आप एक बार में स्क्रैप करने के लिए URL की सूची प्रदान कर सकते हैं।

import { ScrapingCrawl } from "@scrapeless-ai/sdk";
 
// क्लाइंट को इनिशियलाइज़ करें
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // अपनी API कुंजी https://scrapeless.com से प्राप्त करें
});
 
(async () => {
  const result = await client.batchScrapeUrls(
    ["https://example.com", "https://scrapeless.com"],
    {
      formats: ["markdown", "html", "links"],
      onlyMainContent: false,
      timeout: 15000,
      browserOptions: {
        proxyCountry: "ANY",
        sessionName: "Crawl",
        sessionRecording: true,
        sessionTTL: 900,
      },
    }
  );
 
  console.log(result);
})();

उपपृष्ठ क्रॉल करें

व्यापक डेटा निकालने के लिए किसी वेबसाइट और उसके लिंक किए गए पृष्ठों को क्रॉल करें। विस्तृत उपयोग के लिए, Crawl API Reference देखें

डिफ़ॉल्ट रूप से, क्रॉल उपलिंक को छोड़ देता है जो आपके द्वारा निर्दिष्ट URL पदानुक्रम का हिस्सा नहीं हैं। उदाहरण के लिए, https://example.com/products/ क्रॉल करने से https://example.com/promotions/deal-567 के अंतर्गत पृष्ठ कैप्चर नहीं होंगे। ऐसे लिंक को शामिल करने के लिए, allowBackwardLinks पैरामीटर सक्षम करें।

स्क्रैपलेस क्रॉल अनुरोध शुरू करने और उसकी स्थिति और परिणाम प्राप्त करने के लिए एंडपॉइंट प्रकट करता है। डिफ़ॉल्ट रूप से, क्रॉलिंग को अतुल्यकालिक रूप से नियंत्रित किया जाता है: पहले कार्य प्रारंभ करें, फिर इसकी स्थिति की जांच करें जब तक कि यह पूरा न हो जाए। हालाँकि, हमारे SDK के साथ, हम एक सरल फ़ंक्शन प्रदान करते हैं जो संपूर्ण प्रवाह को संभालता है और कार्य समाप्त होने पर डेटा देता है।

स्थापना

npm install @scrapeless-ai/sdk

pnpm add @scrapeless-ai/sdk

उपयोग

import { ScrapingCrawl } from "@scrapeless-ai/sdk";
 
// क्लाइंट को इनिशियलाइज़ करें
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // अपनी API कुंजी https://scrapeless.com से प्राप्त करें
});
 
(async () => {
  const result = await client.crawlUrl(
    "https://example.com",
    {
      limit: 2,
      scrapeOptions: {
        formats: ["markdown", "html", "links"],
        onlyMainContent: false,
        timeout: 15000,
      },
      browserOptions: {
        proxyCountry: "ANY",
        sessionName: "Crawl",
        sessionRecording: true,
        sessionTTL: 900,
      },
    }
  );
 
  console.log(result);
})();

प्रतिक्रिया

{
  "success": true,
  "status": "completed",
  "completed": 2,
  "total": 2,
  "data": [
    {
      "url": "https://example.com",
      "metadata": {
        "title": "Example Page",
        "description": "A sample webpage"
      },
      "markdown": "# Example Page\nThis is content...",
      ...
    },
    ...
  ]
}

प्रत्येक क्रॉल किए गए पृष्ठ की अपनी completed या failed की स्थिति होती है और उसका अपना त्रुटि क्षेत्र हो सकता है, इसलिए उससे सावधान रहें।

पूर्ण स्कीमा देखने के लिए, API Reference देखें।

ब्राउज़र कॉन्फ़िगरेशन

उपलब्ध मापदंडों की पूरी सूची के लिए, API Reference या Browser Parameters देखें।

import { ScrapingCrawl } from "@scrapeless-ai/sdk";
 
// क्लाइंट को इनिशियलाइज़ करें
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // अपनी API कुंजी https://scrapeless.com से प्राप्त करें
});
 
(async () => {
  const result = await client.crawlUrl(
    "https://example.com",
    {
      limit: 2,
      browserOptions: {
        proxyCountry: "ANY",
        sessionName: "Crawl",
        sessionRecording: true,
        sessionTTL: 900,
      },
    }
  );
 
  console.log(result);
})();

स्क्रैप कॉन्फ़िगरेशन

import { ScrapingCrawl } from "@scrapeless-ai/sdk";
 
// क्लाइंट को इनिशियलाइज़ करें
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // अपनी API कुंजी https://scrapeless.com से प्राप्त करें
});
 
(async () => {
  const result = await client.crawlUrl(
    "https://example.com",
    {
      limit: 2,
      scrapeOptions: {
        formats: ["markdown", "html", "links"],
        onlyMainContent: false,
        timeout: 15000,
      }
    }
  );
 
  console.log(result);
})();

क्रॉल एंडपॉइंट पर पूर्ण संदर्भ के लिए, API Reference देखें।

परिचय लागत खपत