शोधयंत्राचा शोध - भाग ६ - दर्शनी भाग

विकिबुक्स कडून

या आधीच्या लेखात आपण शोधयंत्राच्या सूचिकार ह्या भागाचा परिचय करून घेतला. हा सूचिकार त्याआधीच्या भागाने, म्हणजे संचारकाने, तयार केल्या संकेतस्थळांवरील पृष्ठे, आणि त्यातील मजकूर ह्या यादीला उलटे करतो, आणि त्यातून विश्वजालावर दिसणारे शब्द कुठल्या पृष्ठांत आहेत, याची यादी तयार करतो.

यानंतरचा महत्वाचा भाग म्हणजे, शोधयंत्राचा आपल्याला प्रत्यक्ष दिसणारा भाग, म्हणजे दर्शनी भाग (फ्रंट-एंड). हे विश्वजाळावरील एक इतर सामान्य पृष्ठांसारखे दिसणारे एक पृष्ठ. त्यात असतो एक रकाना, तो आपण भरायचा. आपल्याला ज्या विषयावरची माहिती हवी आहे, त्या एका किंवा एकापेक्षा जास्त शब्दांनी. आणि कळफलकावर (की-बोर्ड) एंटरची कळ बडवायची किंवा त्या पृष्ठावरच्या 'शोधा' ह्या दुव्यावर टिचकी मारायची. म्हणजे ती विनंती शोधयंत्राच्या ह्या भागाला पोहोचते. ह्या विनंतीतून त्याला कळते की तुम्हाला कोणता शब्द कुठल्या पृष्ठांवर आलाय ती माहिती हवीय. त्या शब्दाचा आपल्याजवळ असलेल्या यादीतून शोध घेऊन, हा दर्शनी भाग आपल्याला लगेच उत्तर देतो एक एच-टी-एम-एल भाषेत संबंधित दुव्यांनी भरलेले पृष्ठ दाखवून. ह्याला म्हणतात शोधफलितपृष्ठ. किंवा इंग्रजीत म्हणायचे झाले, तर सर्च रिझल्ट्स पेज.

ह्या दर्शनी भागाचे काम समजवून घेण्यासाठी आपण पुन्हा आपल्या जुन्याच उदाहरणाकडे जाऊ या. म्हणजे घरातील वस्तूंची खोलीनुसार यादी करण्याच्या उदाहरणाकडे. सुरुवातीला तुम्ही संचारक होऊन घरातल्या सर्व खोल्या धुंडाळल्या आणि प्रत्येक खोलीतील वस्तूंची खोलीनुसार यादी केली. नंतर तुम्ही सूचिकार झालात, आणि ही यादी पूर्णपणे उलटी केली. म्हणजे, प्रत्येक वस्तूसाठी दुसऱ्या वहीत एक पान केलेत, आणि त्यात वस्तूच्या नावाच्या शीर्षकाखाली, ती वस्तू ज्या खोलीत आहे, त्या खोल्यांची नावे लिहिलीत. आता, त्या घरासमोर ती दुसरी वही घेऊन उभे रहा. पदपथावरून येणारे-जाणारे लोक तुमच्यासमोर येऊन थांबतील. त्यांना ह्या घरात काय आहे, याचे कुतूहल असेल. आणि ते तुम्हाला विचारतील, की अहो, या घरात लेखण्या आहेत का? आणि असल्यास कुठल्या खोल्यांत आहेत? काहीही काळजी करू नका. तुमच्या वहीत त्याचे उत्तर आहे. पटकन वही उघडा, लेखणीचे पृष्ठ कुठे आहे त्या वहीत? अरे, तुम्ही तर पहिले पान उघडून लेखणीचे पृष्ठ शोधायला सुरुवात केलीत. असे कसे चालेल? ती बघा, विचारणा करणाऱ्यांची केवढी रांग लागली आहे! पहिल्या व्यक्तीला उत्तर देतानाच तुमचा एवढा वेळ गेला, तर इतर व्यक्ती कंटाळून निघून जातील ना?

प्रश्न आला की लगेच उत्तर मिळावे, ही आपली अपेक्षा असते. एवढा वेळच घालवायचा होता, तर मग संचारक आणि सूचिकार बनून ही वही कशाला बनवली आपण? विचारणा आल्यावर लगेच उत्तर मिळायला हवे, म्हणूनच ना? पण हे कसं बरं जमणार? घरात इतक्या वस्तू आहेत, त्यातल्या कुठल्या वस्तूविषयी विचारणा होणार, हे आधी माहिती असतं, तर त्यांची एक छोटी वही आपण वेगळी केली नसती का? ह्या प्रश्नाचे उत्तर द्यायला मदत करते ती आज्ञावली म्हणजे हा शोधयंत्राचा दर्शनी भाग.

आपण सर्वांनी शब्दकोश (डिक्शनरी) पाहिलाच आहे. लाखो शब्दांचे अर्थ त्यात असतात. कुणाला कधी कोणत्या शब्दाचा अर्थ शोधायचा असेल, हे कसे कळणार? मग एखाद्या शब्दाचा अर्थ लवकर शोधता यावा, म्हणून ह्या शब्दकोशकारांनी काय केले आहे? शब्द एका सर्वज्ञात क्रमाने मांडले आहेत. आणि एवढेच नाही, तर आद्याक्षरानुसार शब्दकोशाचे विभागही केलेले आहेत. ते विभाग शब्द शोधणाऱ्याला बाहेरून दिसावे अशी सोयही केली आहे. त्यामुळे ‘भ’ पासून सुरू होणारे शब्द शोधायला आपल्याला शब्दकोशाचे पहिल्या पानापासून वाचन करावे लागत नाही. बाहेरूनच आपल्याला दिसते, की 'भ' हे आद्याक्षर असलेले शब्द कुठल्या पानापासून सुरू होतात ते. आणि आपण ‘भ’ अक्षराने सुरू होणाऱ्या शब्दांच्या पहिल्या पानावर लगेच जाऊ शकतो. पण मराठी भाषेत 'भ' ह्या अक्षराने सुरू होणारे शब्द देखील हजारो असतील. रस्त्यावरच्या भांडणात आपण ह्यातील बहुतेक शब्द ऐकलेच असतील. असो. त्यातूनही आपल्याला हवा असलेला 'भवितव्य' हा चतुराक्षरी शब्द कसा शोधावा? कारण 'भ'ने सुरू होणारे १००० शब्द समजले, आणि शब्दकोशातल्या प्रत्येक पानावर २० शब्दांचे अर्थ आहेत असे समजले, तरी प्रत्येक शब्दासाठी सरासरी २५ पाने चाळावी लागतील. नाही का? मग आपण असे करू, की हे सगळे शब्द अनुक्रमे लावले आहेत असे समजू. त्या पन्नास पानांपैकी पंचविसावे पान निवडू. त्यातला पहिला शब्द शब्दकोशातील शब्दांच्या क्रमात आपल्याला हव्या असलेल्या शब्दाच्या आधी आहे, की नंतर? आधी असेल, तर आपल्याला त्या पानाच्या पुढच्या पंचवीस पानात तो शब्द शोधायला लागेल, अन्यथा आधीच्या पंचवीस पानात. आता त्या पंचवीस पानातले बारावे पान निवडा, आणि हाच तर्क करा. असे करत करत आपण एका पानावर पोहोचू. त्या पानातल्या वीस शब्दांत हा शब्द कुठे आहे? आपण आता पान शोधण्यात जो कृतिक्रम वापरला, तोच ह्या पानावरच्या शब्दांतही वापरू. म्हणजे आपल्याला तो शब्द मिळेल.

शब्दकोशात त्या शब्दाचा अर्थ दिलेला असतो. आपल्या सूचिकाराने केलेल्या यादीत तो शब्द विश्वजालातील ज्या पृष्ठांत आहे, त्या पृष्ठांची यादी असते. आणि शोधयंत्राला तीच तर उत्तर म्हणून साभार परत करायची असते. मग आपले काम झालेच. ही सगळी दुव्यांची यादी त्या शब्दाविषयीच्या पृच्छेला शोधफलितपृष्ठ म्हणून द्यायची आहे!

आपण हा शब्द शोधायला ज्या कृतिक्रमाची मदत घेतली त्याला ह्या शिष्ट संगणक वैज्ञानिकांच्या भाषेत द्विमान शोध (बायनरी सर्च) म्हणतात. जणू ह्याचा त्यांनीच शोध लावलाय अशा तोऱ्यात वावरत असतात हे लोक. पण आपल्याला हे कसे करायचे ते आधीच माहिती होते, नाही का? आणि हो, शब्दांना आद्याक्षरांनुसार वेगळे करून एकाच आद्याक्षरापासून सुरू होणारे सगळे शब्द लगेच शोधून काढायचे, ह्याला हे शिष्ट लोक म्हणतात 'हॅश टेबल'. काहीतरी नवीन नावे ठेवून आपले सामान्य लोकांचे अज्ञान दाखवून द्यायचे, आणि स्वत:चे महत्व वाढवून घ्यायचे, ह्यात ह्या संगणक तज्ञांना मर्दुमकी वाटते. त्यामुळे आपल्याला ह्या गोष्टी आधीच माहिती होत्या, हे आपण पदोपदी त्यांना सांगायला हवे, नाही का?

पण त्यांनी देखील ह्याचा गणितातून अभ्यास केलाय, आणि निर्बुद्ध संगणकाला आपण नेहमी जे करीत होतो, ते शिकवले आहे, हेदेखील मानायला हवे. खरे ना? आणि ह्या शब्दकोशातून शब्द शोधण्याच्या कामात त्यांनी किती सुधारणा केल्या आहेत? अगणित! आता असे बघा, तुम्हाला शब्दकोशातून ‘भवितव्य’ हा शब्द शोधायचाय. आपण 'भ' ह्या आद्याक्षरापासून सुरू होणाऱ्या शब्दांची पन्नास पाने उघडली. मधले पंचविसावे पान बघितले, त्यात पहिला शब्द होता 'भव्यदिव्य'. आपल्याला कळले, की आता 'भवितव्य' हा शब्द त्यापासून जवळच असणार. त्यामुळे आधीच्या पंचवीस पानांपैकी बारावे पान उघडून बघण्याऐवजी, सध्याच्या पानाच्या आधीचेच पान उघडून बघितले, तर काय हरकत आहे? ह्या संगणक वैज्ञानिकांनी हेही तंत्र संगणकाला शिकवले! आपल्याला हवा असलेला शब्द आणि आत्ताच्या पानात उपलब्ध असलेला शब्द ह्यात अंतर किती, त्यानुसार उरलेल्या पानांतले अगदी मधले पान उघडायचे, की जवळपासचे, तेदेखील ह्या कांपुटरवाल्यांनी ठरवले, आणि स्वत:ला नविन प्रणालीचा जनक (किंवा जननी) म्हणवून घेतले!

असो. आपल्याला आधीच माहिती असलेले कृतिक्रम त्यांनी स्वत:च्या नावावर खपवले, म्हणून आपण त्यांना इतकी दूषणे देत बसलो, तर मूळ शोधयंत्राचे कार्य आपल्याला समजवून घेता येणार नाही. तर मग आपल्या घरातील वस्तूंच्या यादीत एक बदल करा. नव्हे तिसरी वही तयार करा. आणि त्यात ह्या वस्तूंची नावे शब्दकोशातील शब्दांसारखी क्रमाने लिहा. आता, कुणीही तुम्हाला विचारले, की 'लेखणी' कुठे आहे? तर तुम्हाला ती वही पहिल्या पानापासून शोधायची गरज नाही. सरळ 'ल' आद्याक्षराने सुरू होणाऱ्या पानावर जा, आणि वर सांगितलेल्या द्विमान शोधाच्या कृतिक्रमाने शोधा ती लेखणी, आणि त्या पानावरची खोल्यांची नावे धडाकून सांगा विचारणाऱ्याला!

इतके सोपे असते शोधयंत्राच्या तिसऱ्या पण मुख्य (कारण तो दर्शनी, ना?) भागाचे कार्य.

वाचकहो, आपण शोधयंत्राच्या तीन्ही भागांचे कार्य ढोबळ स्वरूपात पाहिले. इथे आपण कुठून आलो होतो, आठवतेय का? खरंच, आपण आल्टाव्हिस्टा ह्या संस्थेने आधुनिक शोधयंत्राचा पाया रचला, म्हणजे नक्की काय केले हे बघत होतो. तर, आल्टाव्हिस्टाने शोधयंत्राचे हे तीन भाग वेगळे केले. आणि त्यांच्या (म्हणजे त्यांच्या आईने, डेकने, तयार केलेल्या) अल्फा ह्या प्रक्रियकाची ह्या कार्यात गुणवत्ता दाखवून देण्यासाठी एक प्रयोग म्हणून हे शोधयंत्र तयार केले.

माहिती-तंत्रज्ञानात एवढी मूलभूत क्रांती करूनही आल्टाव्हिस्टा ही संस्था उदयास का आली नाही? आणि आली तेव्हा तिचे एवढे महत्व का उरले नाही, हे पुढच्या भागात पाहू.

[गृहपाठ: द्विमान शोधासाठी कमी वेळ लागतो हे आपण पाहिले. म्हणजे १००० मधला एक शब्द शोधायचा असेल, तर सरासरी १० प्रयासात तो शब्द शोधता येईल. सुरुवातीच्या पानापासून शोधायचा झाला, तर सरासरी किती प्रयास लागतील ? १० पेक्षाही कमी प्रयासात शोधायचा असेल तो शब्द, तर कसे करावे ? युक्ती सुचवतो: एका पानात जेव्हा खूप शब्द (आणि त्यांच्या पानाचा क्रमांक) असतील, तेव्हा १००० ऐवजी १० पाने लागतील. त्यात हा शब्द शोधणे सोपे जाईल, नाही का? ह्याला ते शिष्ट संगणक वैज्ञानिक 'दुय्यम सूची' (सेकंडरी इंडेक्स) म्हणतात. किंवा समजा शब्दातील प्रत्येक अक्षराला एक अंक समजले. इंग्रजीत एकून २६ अक्षरे आहेत, तेव्हा प्रत्येक शब्द हा सव्वीस-मान अंक झाला. त्या शब्दातून जो अंक तयार होतो, त्या अंकाच्या पृष्ठावर तो शब्द आणि त्या शब्दाचा अर्थ असेल, तर शोधायला किती सोपे जाईल, नाही का? शब्द बघून आपण सांगू शकू, की हा शब्द ह्या क्रमांकाच्या पानावर आहे! पण त्यात काही पानांवर शब्दच नसतील. खूप पाने मोकळीच सोडावी लागतील, नाही का? समजा आपण अशाप्रकारे मांडणी केलेल्या शब्दकोशात जास्तीत जास्त १० अक्षरांचे शब्द असतील असे बंधन टाकले, तर ह्या शब्दकोशात किती पाने असतील? त्यातली किती मोकळी असतील?]