Bắt đầu
Crawl Trang Đơn
API Crawl cho phép bạn lấy dữ liệu bạn muốn từ các trang web chỉ với một lần gọi. Bạn có thể trích xuất nội dung trang và chụp dữ liệu của nó ở nhiều định dạng khác nhau.
Scrapeless cung cấp các điểm cuối để bắt đầu yêu cầu trích xuất và để lấy trạng thái và kết quả của nó. Theo mặc định, việc trích xuất được xử lý theo cách bất đồng bộ, trước tiên là bắt đầu công việc và sau đó kiểm tra trạng thái của nó cho đến khi hoàn thành. Tuy nhiên, với SDK của chúng tôi, chúng tôi cung cấp một hàm đơn giản xử lý toàn bộ luồng và trả về dữ liệu sau khi công việc hoàn tất.
Cài đặt
npm install @scrapeless-ai/sdk
pnpm add @scrapeless-ai/sdk
Sử dụng
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// Khởi tạo client
const client = new ScrapingCrawl({
apiKey: "your-api-key", // Lấy API key từ https://scrapeless.com
});
(async () => {
const result = await client.scrapeUrl(
"https://example.com"
);
console.log(result);
})();
Cấu hình Trình duyệt
Bạn cũng có thể cung cấp cấu hình cho phiên được sử dụng để thực thi công việc trích xuất khi tự tạo một phiên mới; điều này có thể bao gồm việc sử dụng proxy.
Scrapeless tự động xử lý các loại CAPTCHA phổ biến, bao gồm reCAPTCHA v2, Cloudflare Turnstile/Challenge.
Không cần thiết lập bổ sung nào—Scrapeless sẽ tự động xử lý trong quá trình trích xuất. 👉 Để biết thêm chi tiết, hãy xem Giải quyết CAPTCHA.
Để xem tất cả các tham số trình duyệt khác nhau có sẵn, hãy xem Tài liệu tham khảo API hoặc Tham số Trình duyệt.
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// Khởi tạo client
const client = new ScrapingCrawl({
apiKey: "your-api-key", // Lấy API key từ https://scrapeless.com
});
(async () => {
const result = await client.scrapeUrl(
"https://example.com",
{
browserOptions: {
proxy_country: "ANY",
session_name: "Crawl",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
Cấu hình Trích xuất
Bạn cũng có thể chỉ định các tham số tùy chọn cho công việc trích xuất, chẳng hạn như định dạng phản hồi, bật trích xuất chỉ nội dung chính, đặt thời gian chờ điều hướng trang tối đa và nhiều hơn nữa.
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// Khởi tạo client
const client = new ScrapingCrawl({
apiKey: "your-api-key", // Lấy API key từ https://scrapeless.com
});
(async () => {
const result = await client.scrapeUrl(
"https://example.com",
{
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
}
);
console.log(result);
})();
Để biết tài liệu tham khảo đầy đủ về điểm cuối trích xuất, hãy xem Tài liệu tham khảo API.
Trích xuất Hàng loạt
Trích xuất hàng loạt hoạt động giống như trích xuất thông thường, ngoại trừ thay vì một URL duy nhất, bạn có thể cung cấp một danh sách URL để trích xuất cùng một lúc.
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// Khởi tạo client
const client = new ScrapingCrawl({
apiKey: "your-api-key", // Lấy API key từ https://scrapeless.com
});
(async () => {
const result = await client.batchScrapeUrls(
["https://example.com", "https://scrapeless.com"],
{
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
browserOptions: {
proxy_country: "ANY",
session_name: "Crawl",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
Crawl Trang Con
Crawl một trang web và các trang được liên kết của nó để trích xuất dữ liệu toàn diện. Để biết cách sử dụng chi tiết, hãy xem Tài liệu tham khảo API Crawl
Theo mặc định, việc crawl bỏ qua các liên kết con không phải là một phần của phân cấp URL mà bạn chỉ định. Ví dụ: crawl https://example.com/products/ sẽ không chụp các trang nằm trong https://example.com/promotions/deal-567. Để bao gồm các liên kết đó, hãy bật tham số allowBackwardLinks
.
Scrapeless cung cấp các điểm cuối để bắt đầu yêu cầu crawl và lấy trạng thái và kết quả của nó. Theo mặc định, việc crawl được xử lý bất đồng bộ: trước tiên hãy bắt đầu công việc, sau đó kiểm tra trạng thái của nó cho đến khi hoàn tất. Tuy nhiên, với SDK của chúng tôi, chúng tôi cung cấp một hàm đơn giản xử lý toàn bộ luồng và trả về dữ liệu sau khi công việc hoàn tất.
Cài đặt
npm install @scrapeless-ai/sdk
pnpm add @scrapeless-ai/sdk
Sử dụng
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// Khởi tạo client
const client = new ScrapingCrawl({
apiKey: "your-api-key", // Lấy API key từ https://scrapeless.com
});
(async () => {
const result = await client.crawlUrl(
"https://example.com",
{
limit: 2,
scrapeOptions: {
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
},
browserOptions: {
proxy_country: "ANY",
session_name: "Crawl",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
Phản hồi
{
"success": true,
"status": "completed",
"completed": 2,
"total": 2,
"data": [
{
"url": "https://example.com",
"metadata": {
"title": "Example Page",
"description": "A sample webpage"
},
"markdown": "# Example Page\nThis is content...",
...
},
...
]
}
Mỗi trang được crawl có trạng thái riêng là completed
hoặc failed
và có thể có trường lỗi riêng, vì vậy hãy thận trọng với điều đó.
Để xem sơ đồ đầy đủ, hãy xem Tài liệu tham khảo API.
Cấu hình Trình duyệt
Bạn cũng có thể cung cấp cấu hình cho phiên được sử dụng để thực thi công việc trích xuất khi tự tạo một phiên mới; điều này có thể bao gồm việc sử dụng proxy.
Để biết danh sách đầy đủ các tham số có sẵn, hãy tham khảo Tài liệu tham khảo API hoặc Tham số Trình duyệt.
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// Khởi tạo client
const client = new ScrapingCrawl({
apiKey: "your-api-key", // Lấy API key từ https://scrapeless.com
});
(async () => {
const result = await client.crawlUrl(
"https://example.com",
{
limit: 2,
browserOptions: {
proxy_country: "ANY",
session_name: "Crawl",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
Cấu hình Trích xuất
Bạn cũng có thể chỉ định các tham số tùy chọn cho công việc trích xuất, chẳng hạn như định dạng phản hồi, bật trích xuất chỉ nội dung chính, đặt thời gian chờ điều hướng trang tối đa và nhiều hơn nữa.
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// Khởi tạo client
const client = new ScrapingCrawl({
apiKey: "your-api-key", // Lấy API key từ https://scrapeless.com
});
(async () => {
const result = await client.crawlUrl(
"https://example.com",
{
limit: 2,
scrapeOptions: {
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
}
}
);
console.log(result);
})();
Để biết tài liệu tham khảo đầy đủ về điểm cuối crawl, hãy xem Tài liệu tham khảo API.