मूलभूत बातें
वेब स्क्रैपिंग और ऑटोमेशन करने के लिए स्क्रैपलेस डैशबोर्ड में ऐक्टर्स कैसे बनाएँ और उपयोग करें, यह जानें।
ऐक्टर
ऐक्टर बनाएँ
ऐक्टर्स Docker-आधारित स्रोत कोड से बनते हैं और स्क्रैपलेस क्लाउड में चलते हैं। ऐक्टर बनाना वर्तमान में जनता के लिए खुला नहीं है और स्क्रैपलेस उपयोगकर्ता आवश्यकताओं के आधार पर कस्टम-निर्मित ऐक्टर्स प्रदान करेगा।
चरण 1. ऐक्टर सूची में जाएँ और प्रारंभ करने के लिए “ऐक्टर बनाएँ” पर क्लिक करें।
चरण 2. ऐक्टर बनाने के लिए GitHub या GitLab रिपॉजिटरी से स्रोत कोड प्राप्त करें। अपने Git रिपॉजिटरी को अधिकृत करने के बाद, सिस्टम स्वचालित रूप से प्रोजेक्ट प्राप्त करेगा और उसमें संस्करण संख्या की पहचान करेगा। निर्माण करते समय, आप निर्माण के लिए सभी उपलब्ध संस्करणों में से एक चुन सकते हैं, जो सटीक नियंत्रण और संस्करण प्रबंधन के लिए सुविधाजनक है।
इनपुट पैरामीटर
ऐक्टर बनाते या कॉन्फ़िगर करते समय, आप इनपुट पैरामीटर के माध्यम से लक्षित साइट या डेटा नियम जैसे पर्यावरण चर परिभाषित कर सकते हैं। वे Git रिपॉजिटरी में input_schema.json
फ़ाइल के आधार पर स्वचालित रूप से उत्पन्न होते हैं। हमारा सिस्टम स्कीमा में परिभाषित फ़ील्ड प्रकार, नाम और विवरण के आधार पर एक दृश्य पैरामीटर कॉन्फ़िगरेशन इंटरफ़ेस बनाएगा, ताकि उपयोगकर्ता ऐक्टर चलाते समय संबंधित इनपुट सामग्री भर सकें।
[input_schema.json प्रारूप के बारे में और जानें → (हाइपरलिंक डालें)]
रन रिकॉर्ड
ऐक्टर चलने के बाद रनिंग रिकॉर्ड डेटा उत्पन्न होता है। रन रिकॉर्ड के माध्यम से, आप इस ऐक्टर के सभी रनिंग रिकॉर्ड देख सकते हैं।
जानकारी
जानकारी विवरण आपके Git रिपॉजिटरी में README फ़ाइल से आता है। ऐक्टर बनाते समय, स्क्रैपलेस स्वचालित रूप से इस रेपो के लिए README फ़ाइल को पढ़ेगा।
बिल्ड
एक ऐक्टर में स्रोत कोड और संबंधित सेटिंग्स के कई संस्करण हो सकते हैं। इसलिए, इसे चलाने से पहले, कृपया संस्करण बनाएँ और रनटाइम पर लक्षित संस्करण का चयन करें।
- उपरोक्त प्रक्रिया प्रारंभ करने के लिए “बिल्ड” पर क्लिक करें। “बिल्ड विवरण” में, आप संस्करण की स्थिति और लॉग की निगरानी कर सकते हैं।
- पूरा होने के बाद, नया बिल्ड संस्करण देखने के लिए “ऐक्टर विवरण” पर वापस जाएँ।
नाम और विवरण
ऐक्टर की मूल जानकारी जैसे नाम और आइकन भी Git रेपो से प्राप्त किए जाएंगे, लेकिन विवरण संपादित करने के लिए सुलभ है।
ऐक्टर चलाएँ
ऐक्टर्स को कैसे प्रारंभ करें, चलाएँ और प्रबंधित करें, यह जानें।
रन विकल्प
ऐक्टर शुरू करने से पहले, आप रनटाइम वातावरण को कॉन्फ़िगर कर सकते हैं:
- ऐक्टर संस्करण: चलाने के लिए ऐक्टर का संस्करण चुनें।
- समय सीमा: लंबित स्थिति में ऐक्टर के लिए समय सीमा अवधि सेट करें।
- मेमोरी: ऐक्टर के निष्पादन के लिए मेमोरी आवंटित करें।
- सर्वर मोड:
- सर्वर: ऐक्टर पृष्ठभूमि में लगातार चलता है और आने वाले अनुरोधों को सुनता है—लंबे समय तक चलने वाले कार्यों के लिए आदर्श।
- एक बार: ऐक्टर एक बार चलता है और फिर रुक जाता है—एकमुश्त या निश्चित कार्यों के लिए सबसे अच्छा है, और आप ऐक्टर के लिए अधिकतम निष्पादन समय भी सेट कर सकते हैं।
ऐक्टर प्रारंभ करना
आप दो तरीकों से ऐक्टर प्रारंभ कर सकते हैं:
- मैनुअल प्रारंभ: ऐक्टर को मैन्युअल रूप से लॉन्च करने के लिए “प्रारंभ” पर क्लिक करें।
- शेड्यूलर: ऐक्टर को स्वचालित रूप से निष्पादित करने के लिए एक शेड्यूल्ड कार्य सेट करें (क्या चित्र है?)
निष्पादन
हर बार जब ऐक्टर चलता है, तो हमारा सिस्टम स्वचालित रूप से एक रिकॉर्ड उत्पन्न करता है जो आपको इसकी स्थिति और विवरण देखने की अनुमति देता है।
समानांतर निष्पादन
कार्यों के समवर्ती निष्पादन को प्राप्त करने और प्रसंस्करण दक्षता में सुधार करने के लिए एक ही ऐक्टर को एक साथ कई बार शुरू किया जा सकता है।
रन रिकॉर्ड
रन रिकॉर्ड का उपयोग ऐक्टर्स की अवस्थाओं, इनपुट पैरामीटर, आउटपुट डेटा और संबंधित लॉग को रिकॉर्ड करने के लिए किया जाता है। आप रिकॉर्ड सूची में सभी ऐतिहासिक रन रिकॉर्ड देख सकते हैं।
आप प्रत्येक रन रिकॉर्ड में निम्नलिखित जानकारी प्राप्त कर सकते हैं:
- आउटपुट: ऐक्टर का आउटपुट डेटा।
- भंडारण: निष्पादन के दौरान सहेजे गए डेटा तक पहुँच।
- इनपुट: उपयोग किए गए पर्यावरण चर और इनपुट पैरामीटर।
- लॉग: निष्पादन के दौरान उत्पन्न लॉग।
⚠️ रिकॉर्ड 30 दिनों के लिए रखे जाते हैं। पुराने वाले स्वचालित रूप से हटा दिए जाएंगे। कृपया समय पर महत्वपूर्ण डेटा का बैकअप लें।
आउटपुट
आउटपुट ऐक्टर के चलने के बाद उत्पन्न डेटा परिणाम है, जो डिफ़ॉल्ट रूप से Dataset
में संग्रहीत होता है।
भंडारण
निष्पादन के बाद, परिणाम डिफ़ॉल्ट Dataset में सहेजे जाते हैं। आप उन्हें रन विवरण में देख सकते हैं और उन्हें भंडारण पृष्ठ से डाउनलोड कर सकते हैं।
इनपुट
रनटाइम के दौरान ऐक्टर द्वारा उपयोग किए गए इनपुट पैरामीटर प्रदर्शित करता है, जिससे स्टार्टअप पर पैरामीटर कॉन्फ़िगरेशन की समीक्षा करना आसान हो जाता है।
लॉग
लॉग पृष्ठ ऐक्टर के निष्पादन से विस्तृत लॉग कैप्चर करता है, जिससे डीबगिंग और समस्या समाधान में मदद मिलती है।
शेड्यूल
शेड्यूल सेट करके ऐक्टर को स्वचालित रूप से चलाना सीखें, जो आपको निर्दिष्ट समय पर ऐक्टर चलाने की अनुमति देता है।
शेड्यूल बनाना
रन आवृत्ति कॉन्फ़िगरेशन
आप Cron अभिव्यक्ति का उपयोग करके ऐक्टर की स्वचालित रन आवृत्ति सेट कर सकते हैं। यदि आप Cron सिंटैक्स से परिचित नहीं हैं, तो हम मार्गदर्शन और उदाहरणों के लिए crontab.guru पर जाने की सलाह देते हैं।
समय क्षेत्र
हम आपके वर्तमान ब्राउज़र के सिस्टम समय क्षेत्र के अनुसार समय प्रदर्शित करेंगे ताकि आपको Cron अभिव्यक्ति के अनुरूप निष्पादन समय को अधिक सहज रूप से समझने में मदद मिल सके। इस बीच, अगला समय पूर्वावलोकन अगले 5 निर्धारित रनिंग समय दिखाता है ताकि यह सत्यापित किया जा सके कि क्या कॉन्फ़िगरेशन अपेक्षाओं को पूरा करता है।
शेड्यूल में ऐक्टर जोड़ें
प्रत्येक शेड्यूल में कम से कम एक ऐक्टर शामिल होना चाहिए और इसमें अधिकतम 5 शामिल हो सकते हैं। निर्धारित समय पर सभी जोड़े गए ऐक्टर एक साथ चलेंगे।
उचित कार्य व्यवहार सुनिश्चित करने के लिए आप प्रत्येक ऐक्टर के लिए अद्वितीय इनपुट चर कॉन्फ़िगर कर सकते हैं।
शेड्यूल लॉग
निर्धारित रन के निष्पादन रिकॉर्ड देखें। जल्दी से पहचानें कि क्या प्रत्येक निर्धारित कार्य सफलतापूर्वक निष्पादित हुआ या त्रुटियों का सामना किया—निगरानी और समस्या निवारण के लिए सहायक।
भंडारण
ऐक्टर्स तीन प्रकार के भंडारण का समर्थन करते हैं: Dataset, Key-Value, और Queue। वे आपके स्क्रैप किए गए डेटा को कुशलतापूर्वक संग्रहीत, एक्सेस और प्रबंधित करने में मदद कर सकते हैं।
Dataset
Dataset टैब के माध्यम से स्क्रैप किए गए डेटा को देखें और डाउनलोड करें। समर्थित सुविधाओं में शामिल हैं:
- CSV और JSON प्रारूपों में डाउनलोड करना।
- फ़ील्ड चुनें: डाउनलोड करने के लिए विशिष्ट फ़ील्ड चुनें।
- डेटा प्रतिधारण: स्वचालित हटाने से पहले संग्रहीत डेटा 30 दिनों के लिए उपलब्ध है।
Key-Value
यह लचीला भंडारण किसी भी प्रकार के डेटा को संग्रहीत कर सकता है—JSON, HTML, ZIP, चित्र, या सादा पाठ। उचित हैंडलिंग के लिए प्रत्येक प्रविष्टि में इसका MIME प्रकार शामिल होता है।
हर बार जब कोई ऐक्टर चलता है, तो सिस्टम डेटा अलगाव और प्रबंधन को सुविधाजनक बनाने के लिए इसे एक स्वतंत्र कुंजी-मूल्य भंडारण स्थान पर आवंटित करता है।
30 दिनों के लिए संग्रहीत; समाप्ति के बाद स्वचालित रूप से हटा दिया जाता है।
Queue
बड़ी संख्या में अनुरोधों के प्रबंधन और शेड्यूलिंग के लिए उपयोग किया जाता है। यह HTTP विधियों और अतिरिक्त पैरामीटर का उपयोग करके URL जैसे अनुरोध जानकारी को जोड़ने और पुनर्प्राप्त करने का समर्थन करता है।
Queues गतिशील वेब क्रॉलिंग या बैच प्रसंस्करण जैसे स्केलेबल वर्कफ़्लो के लिए आदर्श हैं।
डेटा डिफ़ॉल्ट रूप से 30 दिनों के लिए भी बना रहता है।