स्वयं Google खोज - अब दस्तावेज़ स्कैन पर भी है

उन्हें गोपनीय रखते हुए पूर्ण-पाठ खोज के लिए कंपनी के सर्वरों पर दस्तावेज़ों को कैसे सुलभ बनाया जाए? कंपनी के नेटवर्क में दस्तावेजों को छोड़कर , सार्वजनिक रूप से गंदे लिनन को बाहर निकाले बिना Google खोज की कार्यक्षमता कैसे प्राप्त करें? कॉर्पोरेट खोज एक और तेजी से बढ़ने वाला स्वादिष्ट केक है



टिनी अल्पज्ञात कंपनी Google मानक 19-इंच रैक - Google खोज उपकरण में स्थापना के लिए एक सुंदर पीले बॉक्स के रूप में एक समाधान प्रदान करता है।



योजना इस प्रकार है:



एक ही परिचित खोज (क्रमशः, कर्मचारियों को प्रशिक्षित करने का न्यूनतम प्रयास), और दस्तावेज़ कंपनी के नेटवर्क को नहीं छोड़ते हैं। एक महत्वपूर्ण सीमा यह है कि फ़ाइल स्टोरेज में छवि फ़ाइलें (उदाहरण के लिए, दस्तावेज़ स्कैन) खोज के लिए उपलब्ध नहीं हैं - GSA उनके बारे में पाठ नहीं निकाल सकता है। ह्यूस्टन, हमें एक समस्या है।



जैसा कि अक्सर इस कॉर्पोरेट ब्लॉग पर होता है, कैप्टन टेक्स्ट रिकॉग्निशन के बचाव के ऑप्टिकल साक्ष्य के लिए आता है।



Google खोज उपकरण न केवल साइटों को स्वयं क्रॉल कर सकते हैं, बल्कि तथाकथित फ़ीड्स भी स्वीकार कर सकते हैं (अफसोस, एक पर्याप्त रूसी शब्द अभी तक नहीं मिला है)।



एक फ़ीड एक विशेष XML दस्तावेज़ है; आप इसमें एक जोड़ी (URL + पाठ) शामिल कर सकते हैं। फ़ीड को जीएसए को एक बाहरी कार्यक्रम द्वारा भेजा जाता है - संबंधित पोर्ट के लिए केवल एक HTTP पोस्ट अनुरोध। जीएसए फ़ीड को स्वीकार करेगा, इसे पार्स करेगा, और इसे सूचकांक में लिखेगा "इस दस्तावेज़ में इस URL के साथ यह पाठ है"।



इसके अलावा, जब उपयोगकर्ता एक उपयुक्त खोज क्वेरी दर्ज करता है, तो खोज परिणामों में दस्तावेज़ (लिंक प्लस निकाले गए पाठ के साथ मिलान) प्रदर्शित किया जाएगा। वही Google खोज, लेकिन पाठ को एक बाहरी प्रोग्राम द्वारा निकाला और "एम्बेडेड" किया जाता है।



सुख निकट है। पाठ मान्यता के लिए, हम हमेशा की तरह ABBYY मान्यता सर्वर विद्युत टेप का उपयोग करेंगे। इसमें एक अलग सेवा शामिल है जो फ़ाइल स्टोरेज को बायपास कर सकती है, मान्यता सर्वर के लिए मान्यता के लिए फ़ाइलों को स्थानांतरित कर सकती है, मान्यता परिणामों से फीड बना सकती है और Google खोज उपकरण में फ़ीड ट्रांसफर कर सकती है।



भंडारण को कई बार क्रॉल किया जा सकता है, जबकि बदली हुई फ़ाइलों को फिर से मान्यता दी जाती है, उनके लिए नए फ़ीड भेजे जाते हैं, हटाए गए फ़ाइलों के लिए विशेष फीड भेजे जाते हैं, जो सूचकांक से फ़ाइल URL को हटाने का निर्देश देते हैं। सेवा मान्यता प्राप्त सर्वर के रूप में एक ही मशीन पर चलती है।



फ़ीड तंत्र आपको जीएसए से खुद को पूरी तरह से अलग पहचान देने की अनुमति देता है। मान्यता सर्वर की उत्कृष्ट स्केलेबिलिटी के कारण, बड़ी संख्या में दस्तावेजों के मामले में भी मान्यता बहुत तेज़ी से प्रदर्शित की जा सकती है। उदाहरण के लिए, यदि आपको इंडेक्स में एक बड़े संग्रह को जल्दी से शामिल करने की आवश्यकता है, तो आप एक एसएमएस इंस्टॉलेशन का उपयोग करके कर्मचारियों की मशीनों पर मान्यता स्टेशन डाल सकते हैं और उत्पाद को कॉन्फ़िगर कर सकते हैं ताकि स्टेशन केवल सप्ताहांत पर या केवल रात में उपयोग किए जाएं।



स्वाभाविक रूप से, एक ही मान्यता सर्वर इंस्टालेशन का उपयोग संगठन की बाकी व्यावसायिक प्रक्रियाओं के लिए किया जा सकता है।



यहाँ यह है, मान्यता सर्वर का उपयोग करने के लिए एक और परिदृश्य - उस तेजी से बढ़ते पाई को प्राप्त करने में मदद करने के लिए।



दिमित्री मेश्चेरीकोव

डाटा एंट्री उत्पाद विभाग



All Articles