शोधयंत्राचा शोध - भाग ५ - सूचिकार

विकिबुक्स कडून
येथे जा: सुचालन, शोध

याआधीच्या भागात आपण शोधयंत्राच्या तीन मुख्य भागांपैकी, संचारक ह्या भागाचा परिचय करून घेतला. संचारकाचे थोडक्यात वर्णन म्हणजे ही आज्ञावली विश्वजाळ धुंडाळून त्यावरची सगळी पृष्ठे शोधयंत्रातील संगणकांच्या चुंबकीय तबकड्यांवर साठवून ठेवते.

आता आपण बघू यानंतरचा मुख्य भाग म्हणजे शोधयंत्रातील सूची (इंडेक्स) तयार करणे. आणि गेल्या वेळच्या ‘घरातील वस्तूंची यादी’ ह्याच उदाहरणावरून पुढे सुरू करूया. त्या भागात मी तुम्हाला संचारकाचे कार्य एखाद्या घरातील प्रत्येक खोलीतील सर्व वस्तूंची यादी करण्यासारखे असेल असे सांगितले होते. होय ना? मग आता हे सूची करण्याचे मधले कार्य कशाला? ह्याला कारणीभूत आहेत त्यानंतर आपल्याला होणार आहेत, त्या विचारणा. घरातल्या वस्तूंची यादी करण्याचे मुख्य कारण म्हणजे, नंतर तुम्हाला लोक विचारणार आहेत, की तेलाचे बुटकुले कुठल्या खोलीत आहे? पांघरुणे कुठल्या खोलीत ठेवली आहेत? अभ्यासाची पुस्तके कुठल्या खोलीत आहेत? अशा त्या विचारणा. प्रत्येक विचारणेनंतर तुम्ही आपली वही सुरुवातीपासून वाचून त्या वस्तू कोणत्या खोलीत आहेत, ते शोधणार का ? त्यात खूपच वेळ जाईल.

तुम्ही (म्हणजे संचारकाने) संपूर्ण घर धुंडाळून जी यादी बनवली आहे, त्यावर एकदा नजर टाका. कशी आहे ती यादी ? ती एका वहीत केलेली यादी आहे. वहीच्या प्रत्येक पानावर वर खोलीचे नाव लिहिलेले आहे. आणि त्याखाली त्या खोलीतल्या वस्तूंची नावे लिहिलेली आहेत. तसेच, विश्वजालसंचारकाचे काम पूर्ण झाले की आपल्याला अशीच एक मोठ्ठी यादी मिळते. या यादीत दोन प्रत्येक ओळीत दोन रकाने असतात. पहिल्या रकान्यात असतो विश्वजालावरील एखाद्या पृष्ठाचा दुवा. आणि दुसऱ्या रकान्यात असतो त्या दुव्यावरील मजकूर. आता हा मजकूर असतो एच-टी-एम-एल या विश्वजालावरील प्रमाणीकृत (स्टॅंडर्डाईझ्ड) भाषेत लिहिलेला. ही एच-टी-एम-एल भाषा कळायला अत्यंत सोपी. संगणकालाही ती कळू शकते, म्हणजे किती सोपी असेल, त्याचा अंदाज येईलच. त्या भाषेत लिहिलेल्या पृष्ठात मूळ इंग्रजी, मराठी अशा भाषांमध्ये लिहिलेला मजकूर असतो. आणि त्या मजकुराला सुशोभित करण्याच्या आज्ञा असतात. म्हणजे एखादा शब्द ठळक करा, एखादा अधोरेखित करा, एखादा शब्द हिरव्या रंगात लिहा, अशा आज्ञा त्यात असतात. ह्या आज्ञा संगणकाला अगदी सहज समजाव्या ह्या स्वरूपात लिहिलेल्या असतात. त्या आज्ञा शोधून काढायला फारच सोप्या आहेत, कारण ह्या आज्ञा < आणि > ह्या चिन्हांच्या मध्ये टाकल्या आहेत. ह्या आज्ञा न्याहाळकाला उपयोगी असतात, वाचकाला पृष्ठ कसे दाखवावे म्हणून. पण शोधयंत्राला या आज्ञांविषयी काहीही घेणेदेणे नाही. त्याला हवी आहे मूळ माहिती जी पृष्ठातून ह्या आज्ञा गाळून त्याला मिळवता येईल.

तर सूची बनवण्याआधी ही सूचीकार आज्ञावली एच-टी-एम-एल भाषेतील आज्ञा पृष्ठाच्या मजकुरातून काढून टाकते. आता उरतात फक्त त्या मजकुरातले शब्द. पण मजकूर म्हणजे तर अक्षरांची एक मोठी रांग. त्यातून शब्द कसे ओळखायचे? आपण अक्षरांच्या ह्या कोलाहलातून शब्द कसे वेगळे करतो? जेव्हा दोन अक्षरगटांत मोकळी जागा असते, तेव्हा ते अक्षरगट शब्द मानतो, नाही का? मग संगणकाने तरी वेगळी भूमिका का घ्यावी? म्हणजे आता संगणकाला पूर्ण पृष्ठावरचा मजकूर दिला, की एक आज्ञावली आपल्याला त्यातील शब्दांची यादी तयार करून देऊ शकते. त्यामुळे सूचिकारातील पहिले काम म्हणजे एखादा दुवा, आणि त्या दुव्यावरचा मजकूर संचारकाने दिला, की त्या मजकुरातून शब्द वेगळे करायचे, आणि त्या दुव्याच्या शीर्षकाखाली त्या शब्दांची यादी तयार करायची.

आता तुम्ही त्या घरात जेव्हा संचारक होतात, तेव्हा तुम्ही प्रत्येक खोलीतील वस्तूंची नावे एका पृष्ठावर सलग एकाच ओळीत कदाचित स्वल्पविराम वगैरे देऊन लिहिली असतील ना? मग आता असं करा. दुसरी एक वही घ्या. त्यात प्रत्येक पानावर पूर्वीसारखेच खोलीचे नाव शीर्षक म्हणून लिहा. पण यावेळी उरलेल्या पृष्ठात एका ओळीवर एका वस्तूचे नाव देऊन तशीच यादी तयार करा. तुम्ही आता वैतागला असाल. सुरुवातीला खोल्या धुंडाळताना असे करायला सांगितले असते, तर पुन्हा ही वेगळी प्रत काढावी लागली नसती. मनातल्या मनात मला दूषणे देताहात हे मला लक्षात आलं आहे. आल्टाव्हिस्टाने आपल्या शोधयंत्राचा पाया रचताना ही वैतागवाडी लक्षात घेतली होती. त्यामुळे त्यांचा संचारक विश्वजालावरचे प्रत्येक पृष्ठ उतरवून घेतल्यावर ते जसेच्यातसे साठवून घेत नव्हता, तर त्यातील एच-टी-एम-एल च्या आज्ञा गाळून शब्दांची यादी फक्त आपल्या चुंबकीय तबकडीवर साठवत होता. (त्यामुळे मजकुराला चुंबकीय तबकडीवरही कमी जागा लागते.) तर ह्या संचारक आज्ञावलीतून आपल्याला काय मिळाले? तर एक मोठी यादी. ह्या यादीतील प्रत्येक ओळीत दोन रकाने. पहिल्या रकान्यात पृष्ठाचा दुवा. आणि दुसऱ्यात त्या दुव्यावरच्या शब्दांची यादी.

चला तर मग. आपल्याला संचारकाने दिलेल्या वरील यादीतून आपण शब्दसूची तयार करूया. ही शब्दसूची म्हणजे आणखी एक यादी. पण संचारकाच्या यादीच्या अगदी उलटी. म्हणजे या यादीतही प्रत्येक ओळीत दोन रकाने आहेत. पण आता पहिल्या रकान्यात एक शब्द, आणि त्यालगतच्या रकान्यात तो शब्द ज्या दुव्यांत आहे त्या दुव्यांची यादी आहे. संचारकाने तयार केलेल्या पहिल्या यादीतून ही दुसरी यादी तयार करणे आपल्याला कदाचित सोपे वाटणार नाही. पण आपले कपडे शिवणाऱ्या शिंप्याला ते कसे करायचे हे विचारा. त्याला नक्की माहिती असेल. कारण आपण आपल्या शर्टाचा किंवा पॅंटचा विचार करतो, तेव्हा एकमेकाला शिवून जोडलेले कापडाचे तुकडे म्हणजे आपले कपडे, असा विचार करतो. पण एखादे तत्वज्ञानी प्रोफेसर ठिगळे, जोडीला डकवलेली कापडे असा आपल्या कपड्यांविषयी विचार करतील. नाही का? कापडाच्या तुकड्यांना मारलेल्या शिवणी, ह्यालाच समांतर म्हणजे शिवणीला अडकवलेली कापडे, असे हे तत्वज्ञान. मूळ मुद्दा असा, की संचारकाने दिलेली माहिती म्हणजे हे कापडाचे तुकडे. त्याला आपण उलटे करायचे आहे. म्हणजे, प्रत्येक शिवणीला कुठले कापडाचे तुकडे जोडलेत हे सांगायचे.

सूचिकाराचे काम हे असेच. आणि हे काम करण्याचे कारण की, आपल्याला यापुढच्या भागात जे प्रश्न विचारण्यात येणार त्यांचे उत्तर द्यायला सोपे व्हावे, म्हणून ही उलटी यादी तयार करायला हवी. हा कृतिक्रम असा:

संचारकाने केलेली यादी = {(दुवा, शब्द-१, शब्द-२,….), (दुवा, शब्द-२, शब्द-३५६…)…} शब्दसूची = {रिक्त संच} संचारकाने केलेल्या यादीतील प्रत्येक ओळीसाठी खालील कामे करा:

त्यातील दुसऱ्या रकान्यातील प्रत्येक शब्दासाठी:

त्या शब्दाची आधी वेगळी केलेली ओळ आहे का?

नसल्यास त्या शब्दाची वेगळी ओळ करा.

त्या ओळीतील पहिल्या रकान्यात तो शब्द भरा. मूळ ओळीतल्या पहिल्या रकान्यातील दुवा त्या शब्दाच्या दुसऱ्या रकान्यात टाका.

ही नियमावली संचारकाने केलेल्या पूर्ण यादीसाठी आपण वापरली, तर आपल्याला शब्दसूची मिळते. हेच जर आपण आपल्या घरातल्या वस्तूंच्या यादीच्या संदर्भात केले तर आपल्याला काय मिळेल ? एक मोठी वही. त्या वहीतील प्रत्येक पानावर शीर्षक म्हणून एखाद्या वस्तूचे नाब. आणि त्याखाली ती वस्तू कोणत्या कोणत्या खोल्यांत आहे, त्या खोल्यांची यादी. उदाहरणार्थ: ‘तेलाची बुटकुली’ ह्या शीर्षकाच्या पानात आपल्याला स्वयंपाकघर हे खोलीचे नाव मिळेल. पण ‘लेखणी’ ह्या शीर्षकाच्या वहीच्या पानात आपल्याला ‘दिवाणखाना’, ‘अभ्यासाची खोली’, आणि ‘शयनगृह’ अशी खोल्यांची यादी मिळेल. (निदान आमच्या घरी तरी लेखण्या कुठल्याही खोलीत सापडू शकतात.) आता आपल्याला कुणी विचारले, की ह्या घरात लेखणी कुठे आहे, तर आपल्याला लगेच सांगता येईल, की वर दिलेल्या तीन खोल्यात आपल्याला लेखणी सापडू शकेल. संचारकाने दिलेली यादी अशी उलटी करणे, हेच सूचिकाराचे काम आहे. सूचिकाराने आपले त्यानंतरच्या शोधयंत्राच्या दर्शनी भागाचे काम फारच सुरळित केले आहे, ते पुढच्या भागात बघू.

[गृहपाठ: पुस्तकाची सूची कशी तयार करतात, हे आपल्याला आता समजलेच असेल. पण एखादा शब्द एखाद्या पृष्ठावर समजा ठळक अक्षरांत लिहिला असेल, तर त्याला महत्व द्यावे की नाही? ह्यावर विचार करा. संचारकाने समजा त्या पृष्ठावरचे सुशोभितीकरण आधीच काढून टाकले, तर शब्दाचे महत्व कुठल्या पृष्ठावर अधिक आहे, हे कसे समजणार? पुढे गूगल आणि इतर शोधयंत्रांतील फरकाविषयी आपण चर्चा करू त्यात हा मुद्दा प्रामुख्याने येणार आहे. तेव्हा आत्ताच त्यावर विचार करून ठेवा.]

[१]