Proxies

Giới thiệu

Hệ thống proxy là một thành phần của trình duyệt scraping chuyển tiếp các kết nối thông qua một máy chủ proxy. Nó chủ yếu được sử dụng để ngăn chặn chặn IP, truy cập nội dung bị giới hạn địa lý và tăng cường tính ẩn danh. Scraping Browser cung cấp một hệ thống proxy có thể cấu hình cho phép kiểm soát chính xác việc định tuyến lưu lượng tự động, bao gồm tính ẩn danh, nhắm mục tiêu địa lý và tăng độ tin cậy, giúp dễ dàng tích hợp proxy vào quy trình làm việc của bạn.

Khả năng cốt lõi

Khả năng cốt lõi của hệ thống proxy nằm ở việc ẩn địa chỉ IP thực thông qua một máy chủ trung gian và tự động hoặc theo yêu cầu xoay vòng qua các địa chỉ khác nhau trong một nhóm IP. Nó cũng cho phép chọn máy chủ proxy ở các vị trí địa lý cụ thể, mô phỏng quyền truy cập của người dùng từ nhiều nơi trên thế giới.

Kịch bản ứng dụng

Chủ yếu áp dụng cho các kịch bản yêu cầu trích xuất dữ liệu quy mô lớn và bỏ qua các hạn chế hoặc chặn IP của trang web mục tiêu. Đây cũng là một công cụ quan trọng để truy cập nội dung bị giới hạn địa lý và duy trì tính ẩn danh trực tuyến trong các tác vụ như nghiên cứu thị trường.

Phân loại

Với Scrapeless, bạn có hai tùy chọn cấu hình proxy:

  • Sử dụng proxy tích hợp: Dễ dàng định tuyến lưu lượng truy cập thông qua các proxy dân cư được quản lý của chúng tôi.
  • Sử dụng proxy tùy chỉnh: Sử dụng proxy HTTP/HTTPS/SOCKS5 tùy chỉnh để kiểm soát định tuyến mạng linh hoạt hơn.

Hướng dẫn vận hành

Sử dụng proxy tích hợp

Sử dụng proxy tích hợp của Scraping Browser sẽ định tuyến lưu lượng truy cập thông qua các proxy dân cư được quản lý của nó.

const { ScrapelessClient } = require('@scrapeless-ai/sdk');
const puppeteer = require('puppeteer-core');
const client = new ScrapelessClient({ apiKey: 'API Key' });
 
const { browserWSEndpoint } = client.browser.create({
  sessionName: 'sdk_test',
  sessionTTL: 180,
  proxyCountry: 'AU',
  proxyState: 'NSW',      // Optional: state code
  proxyCity: 'sydney', // Optional: city name
  sessionRecording: true,
});
 
(async () => {
  const browser = await puppeteer.connect({ browserWSEndpoint });
  const page = await browser.newPage();
  await page.goto('https://www.scrapeless.com');
  console.log(await page.title());
  await browser.close();
})();

Lựa chọn proxy địa lý

Mạng proxy tích hợp của chúng tôi trải rộng 195 quốc gia và vùng lãnh thổ trên toàn thế giới, cho phép nhắm mục tiêu địa lý chính xác cho các hoạt động scraping của bạn. Mỗi vị trí proxy được tối ưu hóa cho hiệu suất và độ tin cậy, cho phép bạn mô phỏng quyền truy cập của người dùng xác thực từ các khu vực cụ thể.

Để lựa chọn quốc gia và khu vực toàn diện, bao gồm nhắm mục tiêu cấp tiểu bang và thành phố, vui lòng tham khảo tài liệu proxy chi tiết của chúng tôi.

Proxy tùy chỉnh

Nếu bạn muốn sử dụng dịch vụ/nhà cung cấp proxy của riêng mình, bạn có thể chỉ định các tham số sau khi tạo phiên. Nếu bạn sử dụng nhà cung cấp proxy của riêng mình, bạn sẽ không bị tính phí sử dụng proxy.

const { ScrapelessClient } = require('@scrapeless-ai/sdk');
const puppeteer =require('puppeteer-core');
const client = new ScrapelessClient({ apiKey: 'API Key' });
 
const proxyUrl = client.proxies.proxy({
  country: 'US',
  sessionDuration: 30, // session duration
  sessionId: 'test-session-123', // custom proxy sessionId
  gateway: 'gw-us.scrapeless.io:8789' // allowed value: `gw-us.scrapeless.io:8789`, `gw-eu.scrapeless.io:8789`, `gw-ap.scrapeless.io:8789`
});
 
console.log(proxyUrl)

Proxy tích hợp của trình duyệt đám mây của chúng tôi chỉ hỗ trợ loại dân cư, phù hợp hơn cho các hoạt động trích xuất dữ liệu quy mô lớn. Chúng tôi cũng cung cấp riêng nhiều loại proxy khác nhau bao gồm proxy dân cư, proxy trung tâm dữ liệu, proxy ISP tĩnh và proxy IPv6, với sự hỗ trợ cho các cấu hình tinh vi hơn. Bạn cũng có thể mua proxy của chúng tôi một cách độc lập và đưa chúng vào trình duyệt đám mây để phù hợp với nhiều kịch bản sử dụng đa dạng hơn. Ví dụ, nếu bạn cần một địa chỉ IP nhất quán và dành riêng cho các phiên, bạn có thể mua proxy ISP tĩnh của chúng tôi. Hướng dẫn