Khái niệm cơ bản

Tìm hiểu cách tạo và sử dụng Actor trên Bảng điều khiển Scrapeless để thực hiện web scraping và tự động hóa.

Actor

Tạo một Actor

Các Actor được xây dựng từ mã nguồn dựa trên Docker và chạy trên đám mây Scrapeless. Việc xây dựng Actor hiện chưa mở cửa cho công chúng và Scrapeless sẽ cung cấp các Actor được xây dựng tùy chỉnh dựa trên yêu cầu của người dùng.

Bước 1. Truy cập danh sách Actor và nhấp vào “Tạo Actor” để bắt đầu.

Bước 2. Chọn lấy mã nguồn từ kho lưu trữ GitHub hoặc GitLab để xây dựng Actor. Sau khi ủy quyền kho lưu trữ Git của bạn, hệ thống sẽ tự động lấy dự án và xác định số phiên bản trong đó. Khi xây dựng, bạn có thể chọn một trong tất cả các phiên bản có sẵn để xây dựng, điều này rất thuận tiện cho việc kiểm soát chính xác và quản lý phiên bản.

Tham số đầu vào

Khi tạo hoặc cấu hình Actor, bạn có thể định nghĩa các biến môi trường như trang đích hoặc quy tắc dữ liệu thông qua các tham số đầu vào. Chúng được tự động tạo dựa trên tệp input_schema.json trong kho lưu trữ Git. Hệ thống của chúng tôi sẽ xây dựng một giao diện cấu hình tham số trực quan dựa trên kiểu dữ liệu, tên và mô tả được định nghĩa trong schema, để người dùng có thể điền nội dung đầu vào tương ứng khi chạy Actor.

[Tìm hiểu thêm về định dạng input_schema.json → (Insert hyperlink)]

Bản ghi chạy

Dữ liệu bản ghi chạy được tạo ra sau khi Actor chạy. Thông qua Bản ghi chạy, bạn có thể xem tất cả các bản ghi chạy của Actor này.

Thông tin

Mô tả Thông tin đến từ tệp README trong kho lưu trữ Git của bạn. Khi tạo Actor, Scrapeless sẽ tự động đọc tệp README cho kho này.

Bản build

Một Actor có thể có nhiều phiên bản mã nguồn và cài đặt liên quan. Vì vậy, trước khi chạy nó, vui lòng xây dựng các phiên bản và chọn phiên bản mục tiêu khi chạy.

Nhấp vào “Build” để bắt đầu quá trình trên. Trong “Chi tiết Build”, bạn có thể theo dõi trạng thái và nhật ký của Phiên bản.

Sau khi hoàn tất, quay lại “Chi tiết Actor” để xem phiên bản build mới.

Tên & Mô tả

Thông tin cơ bản của Actor như tên và biểu tượng cũng sẽ được lấy từ kho Git, nhưng mô tả có thể được chỉnh sửa.

Chạy Actor

Tìm hiểu cách bắt đầu, chạy và quản lý Actor.

Tùy chọn chạy

Trước khi bắt đầu Actor, bạn có thể cấu hình môi trường chạy:

Phiên bản Actor: Chọn phiên bản Actor để chạy.
Thời gian chờ: Đặt thời lượng chờ cho Actor ở trạng thái chờ xử lý.
Bộ nhớ: Cấp phát bộ nhớ cho việc thực thi Actor.
Chế độ Server:
- Server: Actor chạy liên tục ở chế độ nền và lắng nghe các yêu cầu đến — lý tưởng cho các tác vụ chạy lâu.
- Once: Actor chạy một lần duy nhất rồi dừng lại — tốt nhất cho các tác vụ một lần hoặc cố định, và bạn cũng có thể đặt thời gian thực thi tối đa cho Actor.

Bắt đầu Actor

Bạn có thể bắt đầu một Actor bằng hai cách:

Bắt đầu thủ công: Nhấp vào “Bắt đầu” để khởi chạy Actor thủ công.
Lập lịch: Thiết lập một tác vụ theo lịch để tự động thực thi Actor（有图片吗）

Thực thi

Mỗi lần Actor chạy, hệ thống của chúng tôi tự động tạo một bản ghi cho phép bạn xem trạng thái và chi tiết của nó.

Thực thi đồng thời

Cùng một Actor có thể được bắt đầu nhiều lần cùng một lúc để đạt được việc thực thi đồng thời các tác vụ và cải thiện hiệu quả xử lý.

Bản ghi chạy

Bản ghi chạy được sử dụng để ghi lại trạng thái, tham số đầu vào, dữ liệu đầu ra và nhật ký liên quan của Actor. Bạn có thể xem tất cả các bản ghi chạy lịch sử trong danh sách Bản ghi.

Bạn có thể nhận được các thông tin sau trong mỗi Bản ghi chạy:

Đầu ra: Dữ liệu đầu ra của Actor.
Lưu trữ: Truy cập vào dữ liệu được lưu trong quá trình thực thi.
Đầu vào: Biến môi trường và tham số đầu vào được sử dụng.
Nhật ký: Nhật ký được tạo trong quá trình thực thi.

⚠️ Bản ghi được lưu giữ trong 30 ngày. Các bản ghi cũ hơn sẽ bị tự động xóa. Vui lòng sao lưu dữ liệu quan trọng kịp thời.

Đầu ra

Đầu ra là kết quả dữ liệu được tạo ra sau khi Actor chạy, được lưu trữ trong Dataset theo mặc định.

Lưu trữ

Sau khi thực thi, kết quả được lưu vào Dataset mặc định. Bạn có thể xem chúng trong chi tiết chạy và tải xuống từ trang Lưu trữ.

Đầu vào

Hiển thị các tham số Đầu vào được Actor sử dụng trong thời gian chạy, giúp dễ dàng xem lại cấu hình tham số khi khởi động.

Nhật ký

Trang Nhật ký ghi lại nhật ký chi tiết từ quá trình thực thi của Actor, giúp gỡ lỗi và giải quyết sự cố.

Lịch trình

Tìm hiểu cách tự động chạy Actor bằng cách thiết lập lịch trình, cho phép bạn chạy Actor vào thời điểm đã chỉ định.

Tạo lịch trình

Cấu hình tần suất chạy

Bạn có thể đặt tần suất chạy tự động của Actor bằng cách sử dụng biểu thức Cron. Nếu bạn không quen với cú pháp Cron, chúng tôi khuyên bạn nên truy cập crontab.guru để được hướng dẫn và ví dụ.

Múi giờ

Chúng tôi sẽ hiển thị thời gian theo múi giờ hệ thống của trình duyệt hiện tại của bạn để giúp bạn hiểu trực quan hơn về thời gian thực thi tương ứng với biểu thức Cron. Trong khi đó, bản xem trước Thời gian tiếp theo hiển thị 5 thời gian chạy theo lịch tiếp theo để xác minh xem cấu hình có đáp ứng mong đợi hay không.

Thêm Actor vào Lịch trình

Mỗi lịch trình phải bao gồm ít nhất một Actor và có thể bao gồm tối đa 5 Actor. Tất cả các Actor được thêm vào sẽ chạy đồng thời vào thời điểm đã lên lịch.

Bạn có thể cấu hình các biến đầu vào duy nhất cho mỗi Actor để đảm bảo hành vi nhiệm vụ chính xác.

Nhật ký lịch trình

Xem các bản ghi thực thi của các lần chạy theo lịch. Nhanh chóng xác định xem mỗi tác vụ theo lịch đã được thực thi thành công hay gặp lỗi — hữu ích cho việc giám sát và khắc phục sự cố.

Lưu trữ

Các Actor hỗ trợ ba loại lưu trữ: Dataset, Key-Value và Queue. Chúng có thể giúp lưu trữ, truy cập và quản lý dữ liệu đã thu thập của bạn một cách hiệu quả.

Dataset

Xem và tải xuống dữ liệu đã thu thập thông qua tab Dataset. Các tính năng được hỗ trợ bao gồm:

Tải xuống ở định dạng CSV và JSON.
Chọn trường: Chọn các trường cụ thể để tải xuống.
Giữ dữ liệu: Dữ liệu được lưu trữ có sẵn trong 30 ngày trước khi bị xóa tự động.

Key-Value

Lưu trữ linh hoạt này có thể lưu trữ bất kỳ loại dữ liệu nào — JSON, HTML, ZIP, hình ảnh hoặc văn bản thuần túy. Mỗi mục bao gồm loại MIME của nó để xử lý đúng cách.

Mỗi lần một Actor chạy, hệ thống sẽ phân bổ nó vào một không gian lưu trữ key-value độc lập để tạo điều kiện cho việc phân lập và quản lý dữ liệu.

Được lưu trữ trong 30 ngày; tự động xóa sau khi hết hạn.

Queue

Được sử dụng để quản lý và lập lịch cho một số lượng lớn yêu cầu. Nó hỗ trợ thêm và truy xuất thông tin yêu cầu như URL bằng phương thức HTTP và các tham số bổ sung.

Queue rất lý tưởng cho các quy trình làm việc có khả năng mở rộng như thu thập dữ liệu web động hoặc xử lý hàng loạt.

Dữ liệu cũng được giữ lại trong 30 ngày theo mặc định.

Bắt đầu Input Schema