Skip to content

सर्च इंजन क्या है और कैसे काम करता है? जानें गूगल के 24 विकल्प

वेब सर्च इंजन एक सॉफ्टवेयर प्रोग्राम है जो निर्दिष्ट खोज शब्दों (Query Word) के आधार पर इंटरनेट पर वांछित सूचना की खोज करता है. आपके जरुरत के अनुसार जानकारी ढूंढने के लिए यह अपने स्वयं के डेटाबेस में जाता है. वेब सर्च इंजन बड़े पैमाने पर सूचना पुनर्प्राप्ति प्रणाली (Information Retrieval System) का एक प्रमुख उदाहरण हैं.

सर्च इंजन वेबसाइट्स के पास सबसे ज्यादा इन्फ्रास्ट्रक्चर होता है, और इनमें सबसे प्रसिद्ध नाम गूगल है. गूगल डॉट कॉम एक सर्च इंजन है जो विभिन्न वेबसाइट्स के डेटा को अपने पास रखता है. जब कोई यूजर गूगल पर की-वर्ड (सर्च शब्द) सर्च करता है, तो गूगल संबंधित वेबसाइट्स को ढूंढ़कर यूजर के सामने प्रस्तुत करता है. यह सर्चिंग वास्तव में एक प्रोग्राम के माध्यम से होती है, जो इंटरनेट डाटाबेस से हमारे सर्च किए गए की-वर्ड को खोजता है. गूगल के अलावा याहू, बिंग, अल्टाविस्टा और डकडकगो जैसे कई सर्च इंजन भी उपयोगकर्ताओं द्वारा इस्तेमाल किए जाते हैं.

सर्च इंजन का इतिहास (History of Search Engine in Hindi)

(इंटरनेट के विकास के समानांतर ही सर्च इंजन का विकास भी आरम्भ हो गया था. इसलिए सर्च इंजन के इतिहास को बेहतर ढंग से समझने के लिए आप इंटरनेट के विकास को यहाँ से पढ़ लें.)

वेब के शुरुआती विकास के दौरान, टिम बर्नर्स-ली ने CERN के वेब सर्वर पर होस्ट किए गए वेब सर्वरों की एक सूची संपादित की. जैसे-जैसे और अधिक सर्वर ऑनलाइन आते गए, केंद्रीय सूची को संतुलित बनाए रखना कठिन हो गया. NCSA साइट ने “व्हाट्स न्यू! (What’s New!)” के तहत नए सर्वरों की घोषणा की.

दुनिया का पहला इंटरनेट सर्च टूल आर्ची (Archie) था. इसे 1990 में मैकगिल विश्वविद्यालय के कंप्यूटर विज्ञान छात्रों द्वारा बनाया गया. आर्ची ने सार्वजनिक FTP साइटों की निर्देशिका सूची (Directory Index) को इंडेक्स किया.

1991 में बनाए गए “गॉफ़र (Gopher)” ने वेरोनिका और जुगहेड (Veronica and Jughead) सर्च प्रोग्रामों का विकास किया. यह गॉफ़र सिस्टम्स में फाइल के नामों और टाइटल्स को इंडेक्स करता था. वेब का पहला प्राथमिक सर्च इंजन- W3Catalog, 1993 में जिनेवा विश्वविद्यालय के ऑस्कर निएरस्ट्राज़ द्वारा जारी किया गया था.

1993 में, मैथ्यू ग्रे ने  पहला वेब रोबोट, वर्ल्ड वाइड वेब वांडरर बनाया. इसका उपयोग वेब के आकार को मापने के लिए किया गया. नवंबर 1993 में अलीवेब नामक वेब का दूसरा सर्च इंजन आया, जो वेबसाइट प्रशासकों द्वारा सूचित इंडेक्स फ़ाइलों पर निर्भर था.

दिसंबर 1993 में लॉन्च, जंप स्टेशन ने क्रॉलिंग, इंडेक्सिंग और सर्चिंग को संयुक्त किया. 1994 में लॉन्च वेबक्रॉलर, पहला फुल-टेक्स्ट क्रॉलर-आधारित सर्च इंजन था. लाइकोस भी 1994 में आया था.

इसके बाद कई सर्च इंजन उभरे, जिनमें मैगेलन, एक्साइट, इंफोसीक, इंक्तोमी, नॉर्दर्न लाइट और अल्टाविस्टा शामिल हैं. याहू! अपने वेब डायरेक्टरी-आधारित सर्च के लिए प्रसिद्ध था.

1996 में, नेटस्केप ने पांच प्रमुख सर्च इंजनों (याहू!, मैगेलन, लाइकोस, इंफोसीक और एक्साइट) के साथ एक समझौता किया, ताकि वे उसके ब्राउज़र पर विशेष रूप से फीचर्ड हों.

1990 के दशक के अंत में, इंटरनेट सर्च इंजन निवेशों में एक उछाल देखा गया. गूगल का सर्च इंजन 2000 के आसपास प्रख्यात हुआ, जो पेजरैंक एल्गोरिदम के साथ बेहतरीन परिणाम देने लगा था.

2000 तक, याहू! ने इंक्तोमी (Inktomi) का सर्च इंजन उपयोग करने लगा. माइक्रोसॉफ्ट ने 1998 में MSN सर्च लॉन्च किया. 2009 में बिंग (Bing) के रूप में इसका पुनः ब्रांडिंग किया गया. 2009 में याहू! और माइक्रोसॉफ्ट ने बिंग तकनीक के साथ याहू! सर्च संचालित करने के लिए एक समझौता किया.

अब सर्च इंजन के दुनिया में AI आधारित चैटबॉट की चर्चा है. ChatGPT को 30 नवंबर, 2022 को OpenAI द्वारा लॉन्च किया गया था. इसने तेजी से लोकप्रियता हासिल की. यह इतिहास में सबसे तेजी से बढ़ते उपभोक्ता सॉफ्टवेयर अनुप्रयोगों में से एक है.

इसके बाद गूगल ने भी लार्ज लैंग्वेज मॉडल पर आधारित “बार्ड” और “जैमिनी” को जारी किया. इसके बाद OpenAI ने 26 जुलाई, 2024 को GPT सर्च या SearchGPT लॉन्च किया गया. यह इंटरनेट से वास्तविक समय की जानकारी प्राप्त करते हुए उपयोगकर्ता के प्रश्नों के लिए त्वरित, संवादात्मक प्रतिक्रिया प्रदान करने के लिए जेनरेटिव AI क्षमता और पारंपरिक सर्च इंजन सुविधाओं को जोड़ता है.

फिलहाल, सर्च इंजन के दुनिया में तकनिकी तौर पर OpenAI का SearchGPT काफी आगे दिख रहा है. यह AI को सर्च इंजन से जोड़कर गूगल से आगे बढ़ने के राह पर है.

सर्च इंजन के प्रकार (Types of Search Engines)

सर्च इंजन पाँच प्रकार के होते हैं:

  1. क्रॉवलर आधारित: ये सर्च इंजन पूरी तरह से कंप्यूटर प्रोग्राम से चलते हैं, जिन्हें स्पाइडर, क्रॉवलर या बॉट्स भी कहते हैं. इनमें मानव की आवश्यकता नहीं होती. उदाहरण: ऑस्क डॉट कॉम.
  2. डायरेक्ट्री आधारित: इन सर्च इंजनों में केवल मानव टीम द्वारा चयनित वेबसाइट्स दिखाई देती हैं. ये स्वतः वेबसाइट नहीं दिखाते.
  3. हाइब्रिड: ये सर्च इंजन क्रॉवलर और मानव द्वारा चुनी गई चीजों का मिश्रण होते हैं. उदाहरण: गूगल, याहू.
  4. मेटा: ये सर्च इंजन स्वयं लाखों वेबसाइटों का डाटाबेस नहीं रखते, बल्कि कीवर्ड्स को अन्य बड़े सर्च इंजनों (जैसे गूगल, याहू) में सर्च करके दिखाते हैं. उदाहरण: डकडकगो, डॉगपाइल.
  5. विशेष सर्च इंजन: ये सर्च इंजन किसी खास प्रकार की या क्षेत्र की मांग को पूरा करने के लिए बनाए जाते हैं. उदाहरण: लोकल सर्च इंजन, शॉपिंग सर्च इंजन (याहू शॉपिंग).

वेब सर्च इंजन की कार्यप्रणाली:

Working Diagram of Search Engine

आज के समय में कोई भी Search Engine तीन तकनीकों का इस्तेमाल करके जानकारी जुटाता है:

A. वेब क्रॉलिंग  (Web Crawling): वेब क्रॉलिंग वह प्रक्रिया है जिसमें वेब क्रॉलर या स्पाइडर (एक स्वचालित वेब ब्राउज़र) विभिन्न वेब पृष्ठों से जानकारी इकट्ठा करता है. ये क्रॉलर एक वेब पेज से लिंक द्वारा दूसरे पेज पर जाते हैं और पेज की सामग्री को संग्रहित करते हैं.

इसके मुख्य चरण हैं:

  • लिंक फॉलो करना: क्रॉलर वेब पृष्ठों पर मौजूद सभी लिंक का अनुसरण करता है.
  • robots.txt का उपयोग: वेबसाइट के मालिक कुछ पृष्ठों को क्रॉल करने से रोकने के लिए robots.txt फाइल का उपयोग कर सकते हैं.
  • डेटा संग्रहण: क्रॉलर पृष्ठों की सामग्री को इकट्ठा करता है, जिसे बाद में इंडेक्स करने के लिए विश्लेषण किया जाता है.

B. अनुक्रमण (Indexing): यह वेब पर सामाग्री प्रकाशित करने वालों में सबसे प्रसिद्ध शब्द है. इस तकनीक का इस्तेमाल प्रत्येक पृष्ठ की सामग्री का विश्लेषण किया जाता है. इसी विश्लेषण से कोई सर्च सेवा प्रदाता तय करता है कि इसे कैसे अनुक्रमित किया जाना चाहिए और सामान वेबपेजों में किसके पहले या बाद में दिखाया जाएं. इसके लिए शीर्षक, उप-शीर्षक या मेटाटैग के शब्दों को समझा जाता है. वेब पेजों के इस डेटा को बाद में खोज की जाने वाली वांछित सुचना में उपयोग के लिए एक इंडेक्स डेटाबेस में संग्रहीत (Store) किया जाता है.

C. खोज करना (Search): यह वेब सर्च इंजन का अंतिम चरण है, जिसमें यूजर द्वारा दी गई क्वेरी का उत्तर खोजा जाता है.

मुख्य चरण:

  1. क्वेरी सबमिशन: यूजर एक सर्च बार में एक शब्द या एक वाक्यांश टाइप करता है और सर्च बटन पर क्लिक करता है.
  2. इंडेक्स में खोज: सर्च इंजन अपने इंडेक्स डेटाबेस में संग्रहीत जानकारी के बीच खोज करता है.
  3. प्रासंगिकता रैंकिंग: फिर यह प्रासंगिकता और महत्व के आधार पर परिणामों की रैंकिंग करता है.
  4. परिणाम दिखाना: यूजर को सर्च परिणाम दिखाए जाते हैं, जिनमें टाइटल्स, URLs, और एक संक्षिप्त विवरण (Meta Description) शामिल होता है.

अल्टाविस्टा जैसे इंजन अपने द्वारा खोजे गए प्रत्येक पृष्ठ के प्रत्येक शब्द को संग्रहीत करते हैं. दूसरे तरफ, गूगल जैसे इंजन स्रोत पृष्ठ के सभी या कुछ हिस्सों को संग्रहीत करते हैं, जिसे कैश (cache) के रूप में जाना जाता है. कैश्ड पेज User और Search Relevancy को बढ़ाने में मदद करते हैं. यह सुनिश्चित करते हैं कि खोज शब्द (Query) से सम्बन्धित जानकारी लौटाए गए वेब पेजों पर पाए जाए, भले ही पृष्ठ की सामग्री अद्यतन हो गई हो.

आज के समय में ज़्यादातर वेब सर्च इंजन वाणिज्यिक होते हैं और विज्ञापन द्वारा राजस्व जुटाते है. विज्ञापनदाता खोज परिणामों में उच्च रैंकिंग के लिए भुगतान कर सकते हैं या नियमित परिणामों के साथ-साथ खोज-संबंधी विज्ञापन चला सकते हैं, जिससे प्रति क्लिक राजस्व उत्पन्न होता है.

गूगल सर्च के विकल्प (Alternatives of Google Search)

पिछले दो दशकों से, Google सबसे प्रभुत्वशाली सर्च इंजन रहा है. यह SEO विशेषज्ञों और मार्केटिंग पेशेवरों के लिए भी प्राथमिक फ़ोकस रहा है. ChatGPT और Bing Chat के आने पर Google ने भी मई 2023 में चैटबॉट Bard और मई 2024 में अमेरिकी उपयोगकर्ताओं के लिए AI ओवरव्यू पेश किया है. OpenAI ने 2024 के अंत में ChatGPT सर्च के साथ इस प्रतियोगिता का अनुसरण किया है.

AI आधारित सर्च इंजन (AI based Search Engines)

OpenAI ChatGPT Homepage Screenshot Optimized without Losing Quality
ChatGPT होमपेज का स्क्रीनशॉट

सर्च इंजन में एकीकृत विस्तृत भाषा मॉडल (Large Language Model – LLM) पर आधारित AI चैटबॉट में त्रुटियां और भ्रामक जानकारी हो सकते है. इसलिए, AI-आधारित सर्च इंजन से प्राप्त किसी भी महत्वपूर्ण जानकारी को सत्यापित करना आवश्यक है. विशेष रूप से चिकित्सा, वित्तीय, कानूनी और सुरक्षा जैसे क्षेत्रों से सम्बंधित जानकारी को अन्य आधिकारिक स्रोतों से जरूर जांच ले. AI आधारित मुख्य सर्च इंजन है:

  1. Bing.com: दिसंबर 2023 तक, Bing का यू.एस. सर्च में 7.45% हिस्सा था. Bing के पास रिवॉर्ड प्रोग्राम और “Bing Chat” (Copilot) नामक एक AI-संचालित टूल है.
  2. Perplexity.ai: यह 2022 में सर्च इंजन की दुनिया में आया. इसके सर्च परिणाम स्रोत उद्धरणों और अनुवर्ती प्रश्न के विकल्पों के साथ समृद्ध जानकारी प्रदान करने में सक्षम है. इसके 15 मिलियन उपयोगकर्ता हैं और जुलाई 2024 तक इसने 250 मिलियन प्रश्नों का उत्तर दिया है.
  3. You.com: यह व्यक्तिगत और निजी मोड वाला एक AI-संचालित सर्च इंजन है. यह AI इमेज जेनरेशन और AI लेखन में सहायता करता है.
  4. ChatGPT सर्च: इसे OpenAI द्वारा पेश किया गया है. यह स्पष्ट उद्धरणों और एक इंटरैक्टिव (interactive), संवादात्मक खोज अनुभव के साथ वास्तविक समय की जानकारी प्रदान करता है.

राजस्व-बांटने वाले सर्च इंजन

5. Yep.com: या यूजर डेटा को न ट्रैक करने या न बेचने की नीति अपनाकर उपयोगकर्ता के गोपनीयता पर जोर देता है. यह 90/10 रेवेन्यू शेयर मॉडल का उपयोग करता है, जहां विज्ञापन राजस्व का 90% कंटेंट क्रिएटर्स को जाता है.

कॉपीराइट-फ्री सर्च इंजन

6. Openverse: यह इमेज, ऑडियो और वीडियो जैसी कॉपीराइट-फ्री कंटेंट खोजने के लिए आदर्श है. इसका सर्च ओपन-सोर्स मीडिया पर केंद्रित है.

मुख्यधारा के सर्च इंजन

7. Yahoo.com: इसका दिसंबर 2023 तक अमेरिका में 2.56% सर्च मार्केट शेयर था. ईमेल, समाचार और वित्त जैसी विविध विषयों की जानकारी यहाँ पा सकते है.

8. Ecosia: यह विज्ञापन रेवेन्यू का उपयोग पर्यावरण संबंधी उद्देश्यों जैसे पेड़ लगाने के लिए करता है. सर्च इंडेक्स और वेब विज्ञापनों के लिए इसकी निर्भरता Google और Bing के साथ साझेदारी में है.

9. AOL: यह आरंभिक सर्च इंजनों में से एक है. इसका बाज़ार हिस्सेदारी 0.09% है. सर्च रिजल्ट के लिए Google और Bing पर निर्भर करता है और क्यूरेटेड कंटेंट पर ध्यान केंद्रित करता है.

गोपनीयता-केंद्रित खोज इंजन

10. DuckDuckGo: दिसंबर 2023 तक अमेरिका में इसकी 2.13% बाजार हिस्सेदारी थी. यह व्यक्तिगत जानकारी एकत्र या संग्रहीत नहीं करता है, जिससे गुमनाम खोज सुनिश्चित होती है.

11. Startpage: कई खोज इंजनों से परिणाम एकत्रित करता है और उपयोगकर्ता गतिविधि को ट्रैक न करके गोपनीयता को बढ़ावा देता है.

12. Swisscows: परिवार के अनुकूल अर्थपूर्ण खोज इंजन जो उपयोगकर्ता की गोपनीयता का सम्मान करता है और संदर्भ-आधारित प्रश्नों के लिए AI का उपयोग करता है.

13. Gibiru: बिना सेंसर किए निजी खोज की सुविधा देता है. यह बिना किसी लक्ष्यीकरण या निजी डेटा को बेचे काम करता है. यह संशोधित Google एल्गोरिदम का उपयोग करता है.

14. Brave: 2023 में इसने अन्य खोज इंजनों से पूर्ण स्वतंत्रता प्राप्त की. यह गोपनीयता, पारदर्शिता और उन्नत सुरक्षा सुविधाओं पर जोर देता है.

ज्ञान-आधारित खोज इंजन

15. Wiki.com: हजारों विकी वेबपृष्ठों से परिणाम दिखता है. विकिपीडिया जैसे ज्ञान आधारित वेबसाइट से उपलब्ध जानकारी बेहतरीन होते है.

16. X (पूर्व में Twitter): यह एक सोशल मीडिया प्लेटफार्म है. लेकिन, आपातकालीन स्थितियों के दौरान वास्तविक समय में मिनट-दर-मिनट अपडेट के लिए बेहतरीन सर्च इंजन भी है.

17. SlideShare: यह प्रलेखित स्लाइड शो प्रस्तुतियों, ईबुक और PDF के लिए खोज की अनुमति देता है. व्यावसायिक प्रस्तुतियों के लिए उपयोगी है.

18. वेबैक मशीन: पुरानी वेबसाइटों पर शोध करने और मुफ़्त वीडियो, किताबें, संगीत और सॉफ़्टवेयर के विशाल संग्रह तक पहुँचने के लिए बढ़िया स्त्रोत है.

विशेष खोज इंजन

19. WolframAlpha: समस्याओं को हल करने और विशेषज्ञ-स्तर के डेटा की खोज करने के लिए एक कम्प्यूटेशनल ज्ञान इंजन है. $5.49 प्रति माह शुल्क के साथ शुरू होने वाला यह सर्च इंजन प्रो सुविधाएँ प्रदान करता है.

20. LinkedIn: यह संगठन के नामों की विशिष्टता और खोज परिणामों के लिए अन्य कारकों पर विचार करते हुए व्यवसाय-केंद्रित खोज इंजन के रूप में उपयोग किया जाता है.

देश आधारित खोज इंजन

21. Baidu: यह 66% बाजार हिस्सेदारी के साथ चीन में सबसे बड़ा खोज इंजन है. मानचित्र, संगीत, वीडियो और ऐप स्टोर सहित सेवाओं की एक विस्तृत श्रृंखला प्रदान करता है.

22. Yandex: इसे 69% से ज़्यादा रूसी इंटरनेट यूज़र प्रयोग करते है. साथ ही बेलारूस, कज़ाकिस्तान, तुर्की और यूक्रेन में इस्तेमाल किया जाता है. बाइडू की तरह यह भी कई बेहतरीन टूल उपलब्ध कराता है.

23. Sogou: यह चीन में 5% मार्केट शेयर के साथ लोकप्रियता में बढ़ रहा है, वीचैट, आर्टिकल सर्च, अंग्रेज़ी सर्च और अनुवाद के खासियत इसमें है.

24. Naver: यह दक्षिण कोरिया में 34% मार्केट शेयर के साथ लोकप्रिय है. यह ब्लॉग, समाचार, संगीत और शॉपिंग जैसी सेवाएँ प्रदान करता है.

प्रचलित सर्च इंजन की बाज़ार हिस्सेदारी 

1997 में अपनी शुरुआत के बाद से ही Google सबसे प्रमुख सर्च इंजन रहा है. अक्टूबर 2024 के आंकड़ों के आधार पर मुख्य सर्च इंजन की बाज़ार हिस्सेदारी इस प्रकार है:

  1. गूगल- 89.34%
  2. बिंग- 4.16%
  3. यांडेक्स- 2.78%
  4. बाइडू- 0.82%

हालाँकि, कुछ देशों में गूगल सर्च के विकल्प भी हैं जो Google से प्रतिस्पर्धा करते हैं, जैसे:

  • रूस में Yandex सबसे लोकप्रिय सर्च इंजन है, जिसकी बाज़ार हिस्सेदारी 62.6% है. यहाँ Google की हिस्सेदारी मात्र 28.3% है.
  • Baidu चीन में सबसे लोकप्रिय सर्च इंजन है.
  • Naver दक्षिण कोरिया में सबसे लोकप्रिय सर्च इंजन है, जिसकी यहाँ बाज़ार हिस्सेदारी 62.8% है.
  • Seznam चेक गणराज्य में Google का एक मज़बूत प्रतियोगी है.
  • ChatGPT का चैटबॉट और सर्च इंजन पुरे दुनिया में तेजी से लोकप्रिय हो रहा है. कई विशेषज्ञ भविष्य में इसके द्वारा गूगल सर्च को पछाड़ने का संभावना जताया जा रहा है.

फिलहाल, Microsoft, Apple, Amazon और Meta सहित अन्य कंपनियाँ Google के प्रभुत्व पर कड़ी नज़र रख रही हैं.

Search Engine क्या है ? और कैसे काम करता है ? (हिंदी में) | Video Via Technical Recap Youtube Channel.
Spread the love!

Leave a Reply

Your email address will not be published. Required fields are marked *

मुख्य बिंदु