पाठ में स्वचालित तथ्य-खोज ("विंडोज़-तथ्य" विधि)

आज हम "विंडो-तथ्य" विधि का उपयोग करके विश्लेषण प्रक्रिया को स्वचालित करने के तरीके के बारे में बात करेंगे। दुर्भाग्य से, इस विधि के बारे में पर्याप्त जानकारी नहीं है, हालांकि, यह सूचना प्रवाह के प्रसंस्करण के लिए प्रमुख तरीकों में से एक बना हुआ है। पाठ के विश्लेषण के बारे में अधिक विवरण, उदाहरण के लिए, यहां मिल सकते हैं । सामान्य शब्दों में, "विंडो-फैक्ट्स" विधि का कार्य टेक्स्ट में निर्विवाद तथ्यों की खोज करना है। लेकिन हमें स्पष्ट करना चाहिए कि वास्तव में इसका मतलब क्या है।



इस लेख में, एक तथ्य को निम्नलिखित के रूप में समझा जाएगा - यह एक प्रस्ताव (वाक्य) है, जो किसी भी विषय या नामित वस्तु को संदर्भित करता है। कई ग्रंथों से समान तथ्यों को निकालने का अवसर मिलने के बाद, हमें "पानी" से रहित और केवल तथ्यों से युक्त पाठ मिलता है।



पाठ में तथ्य और अभिनेता



बेशक, "तथ्य" शब्द की व्याख्या के लिए यह दृष्टिकोण, परिणामस्वरूप, कुछ ग्रंथों में, बहुत सारी जानकारी याद आती है। हालाँकि, यह समस्या सभी ग्रंथों में नहीं देखी गई थी। उसी समय, जिस जानकारी के साथ विश्लेषक काम करता है (अंतिम सॉफ्टवेयर सूचना विश्लेषक के साथ काम करना) बल्कि उच्च सटीकता के साथ विश्लेषण किया गया था।



आइए हम थोड़ा और स्पष्ट रूप से उस कार्य को तैयार करें जिसका हम सामना कर रहे हैं: पाठ के रूप में उपलब्ध जानकारी में, ऐसे शब्द खोजें जो व्यक्तित्व या अन्य महत्वपूर्ण वस्तुएं हैं (उदाहरण के लिए, किसी स्थान, स्थान का नाम, या शब्द की मानव समझ में कुछ और महत्वपूर्ण)। इसके बाद, उन सभी ऑफ़र को खोजें, जिसमें यह व्यक्ति पाया जाता है (जैसे ऑफ़र, जैसा कि हमने पहले ही कहा है, "तथ्य" कहा जाता है)।



हम किस आधार पर व्यक्तित्व को सामान्य शब्दों से अलग करते हैं? मुझे लगता है कि इस प्रश्न का उत्तर बहुत सरल है - पूंजी पत्र में। कठोर और कठोर। बेशक, इस तरह के सामान्यीकरण में बहुत सारी समस्याएं हैं, जिसके बिना एक समान विधि काम नहीं कर सकती है। और यह ठीक है कि एक व्यक्ति में क्या समस्याएं आती हैं जो कुछ इसी तरह लागू करने की कोशिश कर रहा है, और उनके साथ कैसे व्यवहार करें, हम आपको अधिक विस्तार से बताएंगे।



विषय खोज मुद्दे



हमने मुख्य बात (शुरुआत के लिए) - एक पूंजी पत्र के साथ शुरू होने वाली सभी चीजों को पाठ में संदर्भित विषय या वस्तु के रूप में संदर्भित किया जाएगा या पाठ में संदर्भित किया जाएगा। हालांकि, तुरंत यह प्रत्येक भाषा में कुछ सम्मेलनों को याद करने के लायक है। उदाहरण के लिए, ऐसे प्रतीक हैं जिनके बाद अगला शब्द सबसे अधिक बार बड़े अक्षर से शुरू होता है। हमारे रूसी के लिए, इस तरह के प्रतीक एक अवधि, एक प्रश्न चिह्न, एक विस्मयादिबोधक चिह्न, आदि हो सकते हैं। इस प्रकार, वाक्य की शुरुआत में कम से कम वे सभी शब्द हमारे दृष्टिकोण के दायरे से बाहर हो जाते हैं, क्योंकि यह ज्ञात नहीं है कि किस कारण से उनके पास एक पूंजी पत्र है। इस तरह का प्रतिबंध, पहली नज़र में, काम के परिणाम को सकारात्मक रूप से प्रभावित नहीं कर सकता है। हालांकि, और जैसा कि अभ्यास से पता चला है, एक नकारात्मक प्रभाव नहीं देखा गया है।



इसलिए, इंटरमीडिएट के परिणामों को संक्षेप में लें: हमने बड़े अक्षरों में जानकारी के विषय की पहचान करना सीख लिया है। चूंकि, किसी बड़े अक्षर से शुरू होने वाले सभी शब्द विषय नहीं हैं, इसलिए हम नियमों की एक सूची तैयार करने की आवश्यकता पर आए हैं, जिसके द्वारा हम अपवादों का विश्लेषण करते हैं (जब एक शब्द भी बड़े अक्षर से शुरू होता है, तो इसे विषय नहीं माना जाएगा)।



इसके अलावा, हम विषयों द्वारा तथ्यों को छांटने की समस्या से जूझ रहे हैं। चूंकि अलग-अलग तथ्यों में एक ही विषय को एक परिवर्तित रूप (अलग-अलग गिरावट, मामलों, आदि) में उल्लेख किया जा सकता है। यह निर्धारित करने के लिए कि क्या दो शब्द - विषय - एक ही विषय के हैं, हम इन दोनों शब्दों की एक दूसरे से "समानता" से तुलना करते हैं। साथ ही प्रयोगात्मक रूप से शब्दों की "समानता" की दहलीज की स्थापना की, जिसमें शब्दों को समान माना जाता है।



पाठ में व्यक्तित्वों की खोज की इस तरह की व्याख्या आपको भाषाई पाठ विश्लेषक के लिए महत्वपूर्ण लागतों के बिना, लगभग किसी भी भाषा के लिए स्वचालित रूप से समान रूप से कुशलतापूर्वक कार्य करने की अनुमति देती है। यही है, एल्गोरिथ्म अंग्रेजी, यूक्रेनी और रूसी दोनों में समान रूप से अच्छे परिणाम दिखाता है।



मैं आपको याद दिला दूं कि हम बड़े अक्षरों में व्यक्तित्व को अलग करने के लिए सहमत हुए हैं। हम इस बात से भी सहमत हैं कि हमारे पास एक सेट ए है, जो सभी पात्रों को सूचीबद्ध करता है जिसके बाद एक कैपिटल लेटर रखा जाता है (ऐसा इसलिए किया जाता है ताकि हम सामान्य शब्दों के साथ व्यक्तित्व को भ्रमित न करें)। इसका मतलब यह है कि यदि शब्द कैपिटल अक्षर और अंतिम गैर-खाली चरित्र से शुरू होता है, जो सेट ए में निहित नहीं है, तो इस शब्द को एक व्यक्ति माना जाएगा, और इस शब्द वाले वाक्य को इस व्यक्ति के बारे में एक तथ्य माना जाएगा।



प्रक्रिया स्वचालन



बेशक, अब, उपरोक्त बातों को ध्यान में रखते हुए, हम स्वचालित रूप से निम्नलिखित समस्याओं को हल कर सकते हैं:



लेकिन यह पूरी तरह से पूरी सूची से दूर है जो हम पूरी तरह से स्वचालित मोड में कर सकते हैं। तथ्यों और व्यक्तित्वों की एक सरणी होने से, आप व्यक्तियों के बीच एक तथ्यात्मक संबंध बना सकते हैं। लिंक ग्राफ एक अलग पाठ पर बनाया जा सकता है या बाद के ग्रंथों में लिंक जमा कर सकता है। उदाहरण के लिए, आप किसी विशेष व्यक्ति के बारे में तथ्यों की तलाश कर सकते हैं, और यह व्यक्ति किसके साथ जुड़ा हुआ है, और किन तथ्यों के माध्यम से।



तथ्यों के माध्यम से व्यक्तियों के बीच संबंधों की श्रृंखला को लंबाई में मापा जा सकता है।



MadWin







इन सभी विशेषताओं को मैडविन नामक एक एकल सॉफ्टवेयर पैकेज में एक साथ रखा गया था। दुर्भाग्य से, कार्यक्रम के स्रोत कोड को बाहर करने का कोई तरीका नहीं है, और कार्यक्रम को थोड़ा "कट बैक" करना पड़ा। कार्यक्रम x86 के लिए डिब और आरपीएम पैकेज में संकलित किया गया है। डाउनलोड के लिए उपलब्ध कार्यक्रम के "स्ट्रिप्ड डाउन" संस्करण की कार्यक्षमता निम्नानुसार है:



आउटपुट फ़ाइल (रिपोर्ट) में, कार्यक्रम दिखाता है:



कार्यक्रम संचालन उदाहरण


इनपुट पाठ


एक इनपुट फ़ाइल जो निकोल किडमैन (प्रेस से ली गई) की कहानी बताती है: txt ( यहां लिया गया पाठ)।



पाठ का एक छोटा उद्धरण:

आंगन में, एक उच्च बाड़ के पीछे, एक बड़ा पूल और एक शानदार बगीचा है। घर एक अच्छी तरह से संरक्षित और समान रूप से सभी प्रकार के अजनबियों के क्वार्टर से सुरक्षित रूप से स्थित है, जिसने आवास चुनते समय पति-पत्नी के लिए एक निर्णायक भूमिका निभाई: माता-पिता चाहते हैं कि उनकी बेटी सबसे अधिक आराम के माहौल में बड़े हो।

इन सभी सुविधाओं के लिए, स्टार युगल ने लगभग पाँच मिलियन डॉलर का भुगतान किया। समानांतर में, निकोल लंदन में एक घर की तलाश में है, जहां उसे जल्द ही संगीतमय "नाइन" के निर्माण में भाग लेने के लिए जाना होगा।





आउटपुट रिपोर्ट फ़ाइल


HTML प्रारूप में कार्यक्रम की रिपोर्ट।

रिपोर्ट में समूहबद्ध व्यक्तित्व होते हैं, और उनमें से प्रत्येक में तथ्य होते हैं। उदाहरण के लिए, विषय निकोल के लिए निम्नलिखित तथ्य हैं

निकोल

  • जबकि कुछ स्टार कपल बच्चों के होने का पूरा कारोबार कर लेते हैं, शिशुओं को प्रकाशित करने और वीडियो शूट करने के अधिकार पहले से ही बेच रहे हैं, निकोल किडमैन "ऐसा नहीं है"
  • अभिनेत्री निकोल किडमैन और उनके पति, गायक केट अर्बन, ने उन लाखों डॉलर को अस्वीकार कर दिया, जो उन्हें अपने नवजात बच्चे की पहली तस्वीरों को प्रकाशित करने के लिए दिए गए थे।
  • लेकिन कीथ और निकोल अपने और बच्चे के लिए एक बड़ी दिलचस्पी देखते हैं, वे इसकी सराहना करते हैं
  • जबकि उनके पास पत्रिकाओं से निपटने का समय नहीं है, वे अपनी बेटी के जीवन के पहले दिनों का आनंद लेते हैं, और निकोल स्तनपान के मुद्दों के बारे में सबसे अधिक चिंतित हैं
  • ध्यान दें कि टॉम क्रूज और केटी होम्स ने निकोल को गुलाब का एक बड़ा गुलदस्ता और खिलौने, बच्चे के कपड़े और बच्चों के लिए आवश्यक अन्य चीजों के साथ कई विशाल बैग भेजे।
  • हाल ही में यह ज्ञात हुआ कि निकोल किडमैन, अपने पति, देश गायक कीथ अर्बन के साथ, बेवर्ली हिल्स में एक हवेली का अधिग्रहण किया
  • समानांतर में, निकोल लंदन में एक घर की तलाश में है, जहां उसे जल्द ही संगीतमय "नाइन" के निर्माण में भाग लेने के लिए जाना होगा





जैसा कि आप ऊपर दिए गए पाठ से तथ्य देख सकते हैं।



रिपोर्ट में निम्नलिखित एक व्यक्तिगत संबंध तालिका है। प्रत्येक व्यक्ति को एक नंबर दिया जाता है और दो नंबरों के चौराहे पर या तो एक "+" होता है, जिसका अर्थ है कि इन व्यक्तियों के बीच आप तथ्यों के माध्यम से कनेक्शन बना सकते हैं, या एक ऋण, जो अन्यथा इंगित करता है।

1 2 3 4 5 6 7 8 9 10 11 12 13 14
1: नौ, लंदन - - + + + + - - + + + + + +
2: ई-गति - - - - - - - - - - - - - -
3: हिल्स, बेवर्ली, व्हेल + - - + + + - - + + + + + +
4: होम्स, केटी + - + - + + - - + + + + + +
५: क्रूज + - + + - + - - + + + + + +
6: टेनेसी, नैशविले + - + + + - - - + + + + + +
7: मैककोनाघी, मैथ्यू, एगुइलेरा, क्रिस्टीना, एंथनी, मार्क, लोपेज, जेनिफर, पिट, ब्रैड, जोली - - - - - - - - - - - - - -
8: हेराल्ड, मॉर्निंग, सिडनी - - - - - - - - - - - - - -
9: स्टारलाइफ + - + + + + - - - + + + + +
10: रोज, रविवार + - + + + + - - + - + + + +
11: शहरी + - + + + + - - + + - + + +
12: केट + - + + + + - - + + + - + +
13: किडमैन + - + + + + - - + + + + - +
14: निकोल + - + + + + - - + + + + + -




और वह सभी व्यक्तित्वों को जोड़ने वाली तालिका "पथ" को पूरा करता है जिसके बीच एक कनेक्शन है।



संदर्भ





युपीडी:

बीटा दूसरा संस्करण



मैडविन x867 डिबेट

मैडविन x86 आरपीएम

लेखक का ब्लॉग b0noI



All Articles