DIY खोज इंजन

खोज इंजन का विचार हमेशा मुझे परेशान करता है, विशेष रूप से यह तथ्य कि शुरुआत में रचनाकारों को इस तकनीक की असाधारण संभावनाओं पर भी संदेह नहीं था।

मैंने अभ्यास में तय किया कि यह क्या है - एक खोज इंजन। उसे nanorit.com कहा जाता है। लेकिन प्रयोगों के लिए, मैंने Google से कोई भी प्रसिद्ध एपीआई नहीं लिया, लेकिन अपना खुद का बनाने का फैसला किया।

आरंभ करने के लिए, मैंने डोमेन डेटाबेस डाउनलोड किया, मुझे लगभग 70,000 अद्वितीय साइटें मिलीं। फिर उन्होंने एक खोज रोबोट विकसित किया जो एक साइट के बदले में जुड़ा हुआ था और मुख्य पृष्ठ से सभी लिंक डाउनलोड किए जो इस साइट से संबंधित हैं। मैंने इस तरह की पाबंदी लगाई ताकि रोबोट किसी बड़ी साइट, या एक प्रचार मंच के चक्कर में न फंसे। लेकिन, मुझे लगता है, एल्गोरिथ्म को और बेहतर बनाने के लिए। अगला, मैं अनुक्रमित दिनांक के साथ अनुक्रमित साइट के लिए एक लेबल रखता हूं और अगली साइट पर जाता हूं।



मैंने अब तक क्या हासिल किया है - डेटाबेस में अब लगभग 1.5 मिलियन दस्तावेज हैं, और मैं केवल हेडर लोड करता हूं, क्योंकि संसाधनों के संदर्भ में दस्तावेज़ के शरीर को लोड करना बहुत महंगा है। डेटाबेस पहले से ही 500 एमबी डिस्क स्थान लेता है, और मैं इसे समर्पित सर्वर के बिना, एक साधारण होस्टिंग पर होस्ट कर रहा हूं।

आगे, मैंने अपने विचार के बारे में विज्ञान के एक मित्र से बात की, एक साथ अध्ययन किया। उन्होंने मुझे भाषाई विश्लेषण के बारे में बताया। मैंने सभी शीर्षकों को अलग-अलग शब्दों में तोड़ने का फैसला किया और इन शब्दों के एक रजिस्टर और एक संबंधित तालिका को संकलित किया - जिसमें प्रत्येक शीर्षक के लिए शब्द पहचानकर्ताओं की एक सूची है। नतीजतन, सूचकांक में शब्द 139000 थे, और हेडर के लिए संयोजक 2,184,204 थे। इसके बाद, मैंने इस इंडेक्स के लिए एक खोज एल्गोरिथ्म बनाया, लेकिन इसका नतीजा इससे भी बुरा था, जब मैंने सिर्फ '% कीवर्ड%' के माध्यम से खोज की, इसलिए मैंने अब तक इस दिशा में एल्गोरिदम विकसित नहीं करने का फैसला किया।

तब मैंने उपयोगकर्ताओं की रुचि की जाँच करने का निर्णय लिया, और प्रत्येक क्वेरी के हिट की संख्या की गणना के लिए, मैंने खोज क्वेरी की एक रैंकिंग जोड़ी। सबसे दिलचस्प बात यह है कि खोज इंजनों ने भी "क्लिक" करना शुरू कर दिया है, एक खतरा है कि उन्हें प्रतिबंधित कर दिया जाएगा, लेकिन यैंडेक्स अभी भी अनुक्रमित है।

अब मैंने अपनी साइट को सूचकांक में जोड़ने का कार्य जोड़ा है, और उपयोगकर्ताओं ने भी रुचि दिखाई है और नियमित रूप से अपनी साइटें जोड़ते हैं।

मुझे क्या निष्कर्ष मिला है - देवताओं ने बर्तनों को नहीं जलाया। यहाँ मुख्य निष्कर्ष है। मुझे लगता है कि अब विचार विकसित करना है और खोज इंजन के लिए एक समर्पित सर्वर खरीदना है। आगे, क्लस्टर डेटा प्रोसेसिंग की वास्तुकला का अध्ययन करने और अनुरोध प्रसंस्करण की गति को अनुकूलित करने की योजना है - अब, स्पष्ट रूप से, यह Google की तुलना में बहुत धीरे-धीरे दिख रहा है।



All Articles