はじめに
シングルページのクロール
Crawl APIを使用すると、単一の呼び出しでWebページから必要なデータを取得できます。ページコンテンツをスクレイピングし、さまざまな形式でデータをキャプチャできます。
Scrapelessは、スクレイピングリクエストの開始、ステータス、結果の取得のためのエンドポイントを提供します。デフォルトでは、ジョブを開始してから完了するまでステータスをチェックするという非同期的な方法でスクレイピングが処理されます。しかし、私たちのSDKでは、この全体の流れを処理し、ジョブが完了したらデータを返すシンプルな関数を提供しています。
インストール
npm install @scrapeless-ai/sdk
pnpm add @scrapeless-ai/sdk
使用方法
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// クライアントの初期化
const client = new ScrapingCrawl({
apiKey: "your-api-key", // APIキーはhttps://scrapeless.comから取得してください
});
(async () => {
const result = await client.scrapeUrl(
"https://example.com"
);
console.log(result);
})();
ブラウザ設定
新しいセッションを作成する際に、スクレイピングジョブを実行するために使用されるセッションの設定(プロキシの使用など)も指定できます。
Scrapelessは、reCAPTCHA v2、Cloudflare Turnstile/Challengeなど、一般的なCAPTCHAタイプを自動的に処理します。
追加の設定は必要ありません。Scrapelessがスクレイピング中に処理します。👉 詳細については、 CAPTCHA解決をご覧ください。
利用可能なすべてのブラウザパラメータについては、APIリファレンスまたはブラウザパラメータをご覧ください。
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// クライアントの初期化
const client = new ScrapingCrawl({
apiKey: "your-api-key", // APIキーはhttps://scrapeless.comから取得してください
});
(async () => {
const result = await client.scrapeUrl(
"https://example.com",
{
browserOptions: {
proxy_country: "ANY",
session_name: "Crawl",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
スクレイピング設定
レスポンス形式、メインコンテンツのみの抽出の有効化、ページナビゲーションの最大タイムアウトの設定など、スクレイピングジョブのオプションパラメータも指定できます。
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// クライアントの初期化
const client = new ScrapingCrawl({
apiKey: "your-api-key", // APIキーはhttps://scrapeless.comから取得してください
});
(async () => {
const result = await client.scrapeUrl(
"https://example.com",
{
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
}
);
console.log(result);
})();
スクレイピングエンドポイントの完全なリファレンスについては、APIリファレンスをご覧ください。
バッチスクレイプ
バッチスクレイプは通常のスクレイプと同じですが、単一のURLの代わりに、一度にスクレイピングするURLのリストを提供できます。
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// クライアントの初期化
const client = new ScrapingCrawl({
apiKey: "your-api-key", // APIキーはhttps://scrapeless.comから取得してください
});
(async () => {
const result = await client.batchScrapeUrls(
["https://example.com", "https://scrapeless.com"],
{
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
browserOptions: {
proxy_country: "ANY",
session_name: "Crawl",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
サブページのクロール
ウェブサイトとそのリンクされたページをクロールして、包括的なデータを取得します。詳細な使用方法については、Crawl APIリファレンスをご覧ください。
Scrapelessは、クロールリクエストの開始、ステータス、結果の取得のためのエンドポイントを提供します。デフォルトでは、クロールは非同期的に処理されます。最初にジョブを開始し、完了するまでそのステータスを確認します。しかし、私たちのSDKでは、この全体の流れを処理し、ジョブが完了したらデータを返すシンプルな関数を提供しています。
インストール
npm install @scrapeless-ai/sdk
pnpm add @scrapeless-ai/sdk
使用方法
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// クライアントの初期化
const client = new ScrapingCrawl({
apiKey: "your-api-key", // APIキーはhttps://scrapeless.comから取得してください
});
(async () => {
const result = await client.crawlUrl(
"https://example.com",
{
limit: 2,
scrapeOptions: {
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
},
browserOptions: {
proxy_country: "ANY",
session_name: "Crawl",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
レスポンス
{
"success": true,
"status": "completed",
"completed": 2,
"total": 2,
"data": [
{
"url": "https://example.com",
"metadata": {
"title": "Example Page",
"description": "A sample webpage"
},
"markdown": "# Example Page\nThis is content...",
...
},
...
]
}
クロールされた各ページには、完了または失敗の独自のステータスがあり、独自のエラーフィールドを持つ可能性があるため、注意してください。
完全なスキーマについては、APIリファレンスをご覧ください。
ブラウザ設定
新しいセッションを作成する際に、スクレイピングジョブを実行するために使用されるセッションの設定(プロキシの使用など)も指定できます。
利用可能なパラメータの完全なリストについては、APIリファレンスまたはブラウザパラメータを参照してください。
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// クライアントの初期化
const client = new ScrapingCrawl({
apiKey: "your-api-key", // APIキーはhttps://scrapeless.comから取得してください
});
(async () => {
const result = await client.crawlUrl(
"https://example.com",
{
limit: 2,
browserOptions: {
proxy_country: "ANY",
session_name: "Crawl",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
スクレイピング設定
返す形式、ページのメインコンテンツのみを返す、ページへのナビゲーションの最大タイムアウトの設定など、クロールジョブのオプションのスクレイピングオプションも指定できます。
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// クライアントの初期化
const client = new ScrapingCrawl({
apiKey: "your-api-key", // APIキーはhttps://scrapeless.comから取得してください
});
(async () => {
const result = await client.crawlUrl(
"https://example.com",
{
limit: 2,
scrapeOptions: {
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
}
}
);
console.log(result);
})();
クロールエンドポイントの完全なリファレンスについては、APIリファレンスをご覧ください。