چهارشنبه, ۲۶ دی, ۱۴۰۳ / 15 January, 2025
اینترنت پنهان و منابع اطلاعاتی نهفته در اعماق نامرئی شبکهٔ جهان گستر وب
مقالهٔ حاضر به تعریف مفهوم اینترنت پنهان یا وب نامرئی و همچنین عوامل مؤثر در ایجاد آن پرداخته است. اجزای مختلف قلمرو تاریک اینترنت نظیر وب عمیق، وب مات، وب شخصی، وب ملکی و وب مرده به تفکیک تشریحشدهاند و چگونگی ایجاد و اهمیت هریک مورد بحث قرار گرفته است. این مقاله ضمن اشاره به حجم و کیفیت قابلتوجه منابع اطلاعاتی نهفته در اینترنتپنهان، بر اهمیت مهارتهای اطلاعیابی در محدودهٔ خارج از حوزهٔ جستجوی موتورهای کاوش تأکید میکند. از آنجا که اطلاعات نهفته در دل اینترنت پنهان معمولاً از کیفیت بالایی برخوردار است، این بخش از اینترنت اهمیت قابل توجهی دارد و نمیتوان آن را نادیده گرفت.
نقش کتابداران و متخصصان اطلاعرسانی در آگاهسازی کاربران اینترنت از وجود وب نامرئی و درنتیجه ارتقای سطح دسترسپذیری اطلاعات برای آنان و همچنین نقشی که کتابداران میتوانند در ساخت دروازههای اطلاعاتی ایفا کنند، از دیگر مباحث مطرحشده در این نوشتار است.
کلیدواژهها: اینترنت پنهان، وب پنهان، وب نامرئی، وب عمیق، وب مات، بازیابی اطلاعات در وب
نگاهی کوتاه بر مشکلات جستجو و بازیابی در اینترنت
جستجو و بازیابی اطلاعات در اینترنت فرایندی پیچیده و چندبُعدی است که میتوان آن را از زوایای مختلف مورد توجه و بررسی قرار داد. تاکنون نیز پژوهشهای متعددی دربارهٔ جنبههای مختلف کاوش و بازیابی اطلاعات در این محیط صورت گرفته است. در سالهای اخیر این موضوع همچنان جزء زمینههای مهم پژوهشی در حوزهٔ بازیابی اطلاعات و مطالعات اطلاعیابی محسوب شده. بهرغم تفاوتهای موجود در رویکرد این پژوهشها، محور اصلی همهٔ آنها یافتن راهکارهایی عملی برای ارتقای سطح دسترسپذیری اطلاعات در این شبکه و سهولت بازیابی است. (e.g. Jansen, ۲۰۰۰; Jansen & Spink, ۲۰۰۰; Wany et.al, ۲۰۰۰; Palmpuist, ۲۰۰۰; Kim, ۲۰۰۱, Cothey, ۲۰۰۰۲; Hargittai, ۲۰۰۲; Ford et al, ۲۰۰۲; Ford et al, ۲۰۰۳)
موتورهای جستجو اصلیترین و معمولیترین ابزار کاوش در اینترنت به شمار میآیند و معمولاً اغلب کاربران از این موتورها برای بازیابی اطلاعات اینترنتی استفاده میکنند.(Gordon & Pathak, ۱۹۹۹) اهمیت و جایگاه این ابزارهای کاوش بهحدی است که بدون آنها عملاً، جستجو در این شبکهٔ عظیم اگر ناممکن نباشد، قطعاً بسیار دشوار خواهد بود.
با این حال و با تمام ویژگیهای ارزندهٔ این موتورها و کاربرد گستردهٔ آنها در فرایند بازیابی اطلاعات، مشکلات متعددی در پیوند با کارآیی و سودمندی آنها وجود دارد. پژوهشهای گذشته حاکی از آن است که کاربران اینترنت با دشواریهایی در استفاده از موتورهای جستجو مواجه هستند.(Gorden & Pathak, ۱۹۹۹; Chu & Rojenthal, ۱۹۹۶) آنها گاهی برای یافتن اطلاعات مورد نیاز خود ساعتها وقت صرف میکنند و ممکن است این تلاش حاصلی هم درپی نداشته باشد. دلایل متعددی برای دشواریهای جستجو در اینترنت وجود دارند که تاکنون موضوع پژوهشهای فراوانی بودهاند. در یک طبقهبندی کلی، بخشی از این دشواریها به حجم عظیم و روزافزون اطلاعات موجود در اینترنت مربوط میشود که معمولاً نتایج بازیابی موتورهای جستجو را با ریزش کاذب فراوان همراه میسازد. بخش دیگر به میزان مهارتهای اطلاعیابی و تجربهٔ کاربران در جستجو بازمیگردد. گاهی نیز ناکامی در جستجو ریشه در نوع نیاز اطلاعاتی کاربران دارد که ممکن است گسترده و مبهم باشد و کاربر نتواند آن را به شکل مناسبی در قالب یک راهبرد جستجوی کارآمد تعریف کند.
هریک از این احتمالات خود زمینهٔ گستردهای برای پژوهش و مطالعه بهشمار میآیند و تشریح و تبیین آنها نیازمند مطالعات مستقل و مفصلی است که این مقاله قصد پرداختن به آنها را ندارد. آنچه که محور اصلی این نوشته را تشکیل میدهد موضوع دیگری است که تاکنون چندان مورد توجه کاربران اینترنت و پژوهشگران حوزهٔ بازیابی اطلاعات در وب قرار نگرفته و بیتوجهی به آن میتواند به طور بالقوه در ناکامی جستجو در وب مؤثر باشد. محور اصلی این مقاله پدیدهای تحت عنوان اینترنت پنهان [۲] یا وب نامرئی [۳] میباشد که در ادامه معنا و مفهوم آن تشریح میشود و به عوامل ایجادکنندهٔ آن و اهمیت آن در فرایند بازیابی اطلاعات در اینترنت اشاره میگردد.
● اینترنت پنهان چیست
واژهٔ اینترنت پنهان یا وب نامرئی اشاره به یک مفهوم چندبُعدی و گسترده دارد، به شکلی که ارائهٔ تعریفی گویا و کوتاه از آن را کمی دشوار میکند. به بیان دیگر، ارائهٔ یک تعریف جامع و مانع از اینترنت پنهان مستلزم تبیین بخشهای مختلف آن است. با این حال در سادهترین شکل میتوان این بخش پنهان از اینترنت را بهطور خلاصه این چنین تعریف نمود:
اینترنت پنهان آن بخش از فضای اینترنت است که به هر دلیل، خارج از حوزهٔ جستجوی موتورهای کاوش قرار دارد و بازیابی اطلاعات موجود در آن از طریق استفادهٔ مستقیم از این موتورها میسر نیست (Pedley, ۲۰۰۱; Price & Sherman, ۲۰۰۱). افزودن قید «بههردلیل» در این تعریف حاکی از آن است که ایجاد اینترنت پنهان ناشی از وجود فقط یک عامل نیست و به عوامل متعددی مربوط میشود. تأثیر همین عوامل متعدد منجر به ایجاد انواع مختلف از پنهانشدگی اطلاعات در اینترنت گردیده که در بخشهای بعدی مقاله تشریح خواهند شد.
ذکر این نکته ضروری است که واژههای موازی دیگری نظیر وب نامرئی، وب پنهان، وب عمیق و وب تاریک یا وب مات [۴] برای این بخش از اینترنت در متون مختلف مشاهده میشود. گرچه این اصطلاحات گاهی بهصورت مترادف بهکار برده میشوند، اما در حقیقت معادل یکدیگر نیستند و هریک اشاره به نوع خاصی از ناپیدایی [۵] در وب دارند.
از آنجا که ارتباط مستقیمی بین شیوهٔ کار موتورهای جستجو و ایجاد اینترنت پنهان، یا به بیان دقیقتر بروز پنهانی اطلاعات در اینترنت وجود دارد، بهنظر میرسد قبل از توصیف بخشهای مختلف اینترنت پنهان لازم باشد به نحوهٔ عملکرد موتورهای جستجو اشاره شود.
● اجزای تشکیلدهندهٔ موتورهای جستجو و چگونگی عملکرد آنها
بهرغم وجود گوناگونی و تنوع فراوان در موتورهای جستجو، اغلب آنها از ویژگیهای مشترکی برخوردارند. ساختار اصلی موتور جستجو معمولاً از سه بخش عمده تشکیل شده. این قسمتها عبارتاند از:
۱) نرمافزار خزنده یا روبات جستجوگر: [۶] این قسمت از موتور جستجو در واقع نرمافزاری است که با دنبالکردن پیوند [۷]های موجود در صفحات وب، صفحات جدید را شناسایی میکند و این فرایند، پیوسته تکرار میشود. انتخاب نام «خزنده» برای این نوع از نرمافزارها بهدلیل نوع کاری است که انجام میدهند. عملکرد آنها در یافتن صفحات وب مثل خزیدن در فضای وب است. هر موتور جستجو، نرمافزار خزندهٔ مخصوص به خود را دارد و توانایی بازیابی اطلاعات در هر موتور، کاملاً وابسته به قدرت «خزندهٔ» آن است. منظور از قدرت خزنده، سرعت عمل و دامنهٔ فعالیت آن در دنبالکردن پیوندهای موجود میباشد. گستردگی و عمق دسترسی اطلاعات در هر موتور جستجو بیش از هر چیز به ویژگیهای خزندهٔ آن بستگی دارد و نمایهٔ [۸] موتور جستجو، حاصل کار خزنده است. البته علاوه بر خزندهها در هر موتور جستجو، بخشی برای معرفی سایتهای جدید نیز وجود دارد که کاربران میتوانند با ارسال نشانی [۹] سایت مورد نظر خود، آن را به موتور جستجو تحویل [۱۰] دهند.
۲) نمایه: صفحات بازیابیشده در وب از طریق عملکرد خزنده، در یک پایگاه اطلاعاتی تحت عنوان «نمایهٔ موتور جستجو» (و درواقع یک فایل بزرگ) ذخیره میشوند. بزرگی و روزآمدی اطلاعات موجود در نمایهٔ هر موتور جستجو وابسته به عملکرد خزندهٔ آن است. ساختار نمایه، اندازه و حجم آن در موتورهای جستجوی مختلف متفاوت است. به همین دلیل جستجو با کلیدواژههای یکسان، نتایج نسبتاً متفاوتی در موتورهای گوناگون درپی خواهد داشت.
۳) نرمافزار جستجو در نمایه: [۱۱] سومین جزء یک موتور جستجو، نرمافزار بازیابی است که به جستجو و بازیابی اطلاعات موجود در فایل نمایه براساس کلیدواژههای دریافتی از طرف کاربران میپردازد و نتایج بازیابی را نمایش میدهد. به بیان دیگر، هنگامی که کاربران کلیدواژههای مورد نظر خود را در بخش جستجوی موتور کاوش وارد میکنند، آنچه اتفاق میافتد جستجوی نمایهٔ موتور بر اساس کلیدواژههای مذکور است نه جستجوی فضای اینترنت. آنچه که کاربران مشاهده میکنند بیرونیترین لایهٔ موتورهای جستجو است. وقتی آنها به کمک کلیدواژههای انتخابی خود به جستجو در اینترنت میپردازند، درواقع آنچه را جستجو میکنند پایگاه اطلاعاتی (نمایهٔ) موتور جستجو است که پیوند آنها را با سایر سایتهای اینترنتی ـ سایتها و صفحات وب که قبلاً توسط خزنده شناسایی شدهاندـ برقرار میکنند.
بسته به اینکه خزندههای موتور جستجو با چه تناوب [۱۲] و چه عمقی [۱۳] عمل کنند نتیجهٔ جستجو توسط کاربر متفاوت خواهد بود، چرا که بهدلیل تفاوت تناوب و عمق عملکرد خزندهٔ موتورهای کاوش گوناگون، حجم و اطلاعات ذخیرهشده در نمایهٔ آنها با هم متفاوت میباشد و درنتیجه حاصل جستجو در هر یک از آنها متفاوت خواهد بودـ هرچند همواره درصدی از همپوشانی بین نتایج بازیابی وجود دارد.
● قسمتهای مختلف اینترنت پنهان
همانطور که گفته شد موتورهای جستجو براساس عملکرد نرمافزارهای خزندهٔ خود و همچنین سایتهایی که به آنها معرفی میشوند فایل یا پایگاه اطلاعاتی خود را میسازند و از این طریق امکان جستجو در اینترنت را برای کاربران فراهم میسازند. پایگاه اطلاعاتی موتورهای جستجو مرتباً روزآمد میگردند و سایتهای جدید به آنها اضافه میشوند و مرتباً بر حجم آنها افزوده میگردد. بسته به فاصلهٔ روزآمدسازی این پایگاهها، اندازهٔ آنها در موتورهای مختلف متفاوت است. بهدلیل گستردگی و پویایی محیط وب عملاً هیچ موتور جستجویی قادر به پوشاندن تمام وب نیست و همواره بخشهای مختلف یا به بیان بهتر منابع اطلاعاتی متعددی در اینترنت وجود دارند که در این پایگاهها گنجانده نمیشوند. پس از بیان این مقدمهٔ کوتاه اکنون میتوان بخشهای مختلف اینترنت پنهان را بهشرح زیر خلاصه کرد:
۱) وب تاریک یا وب مات
این بخش از اینترنت پنهان، بزرگترین قسمت این فضای گسترده را تشکیل میدهد. انتخاب عنوان «وب تاریک» برای این قسمت به خاطر این است که گویی منابع اطلاعاتی موجود در آن در زیر سایهای قرار گرفتهاند و از دسترسی کاربران خارج شدهاند. به بیان دیگر، اطلاعات موجود در وب تاریک میتواند مورد استفادهٔ عموم قرار گیرد و هیچکس تعمدی در مخفیکردن آن نداشته، اما بهدلیل تأثیر عواملی که در ادامه ذکر میگردد، عملاً اطلاعاتی که میتوانسته توسط موتورهای جستجو بازیابی شود از حوزه و قلمرو موتورهای جستجو دور مانده است. اجزای تشکیلدهندهٔ وب تاریک عبارتاند از:
۱ـ۱) وب مرده یا نشانیهای قطعشده: [۱۴] محیط وب فضایی کاملاً پویا، متغیر یا به بیان بهتر ناپایدار است. هر روز صفحات و منابع مختلفی به این مجموعهٔ عظیم افزوده میشوند و منابع دیگری از آن حذف میگردند. از سویی دیگر، صفحاتی در وب وجود دارند که هیچ پیوندی با منابع دیگر برقرار نکردهاند و به همین دلیل خزندههای موتورهای جستجو قادر به یافتن آنها نیستند. در صورتی که این صفحات به موتورهای جستجو معرفی نگردند امکان شناسایی آنها برای موتور جستجو وجود ندارد. طبق پژوهشی که در سال ۲۰۰۰ انجام شده این مجموعهٔ جدامانده از محیط جستجوپذیر وب حدود ۲۰ درصد کل فضایی است که میتواند توسط موتورهای جستجو نمایه شود.(Broder, et al. ۲۰۰۰) البته از آنجا که بهدلیل گستردگی بیوقفهٔ اطلاعات موجود در شبکهٔ جهانگستر وب هرگونه برآوردیـ حتی نسبی ـ از حد و مرز این محیط خیلی زود کهنه و قدیمی میشود، این رقم میتواند بیشتر یا کمتر از ۲۰ درصد باشد. آنچه که در اینجا بیش از صحت یا نادرستی این رقم اهمیت دارد، واقعیتی است که هماکنون در وب بهوجود آمده و حجم عظیمی از اطلاعات را برای کاربران، دسترسناپذیر ساخته است.
۱ـ۲) تناوب روزآمد سازی نمایهٔ موتورهای جستجو: همانطور که گفته شد نرمافزارهای خزنده مسئولیت شناسایی صفحات جدید و افزودن آنها به نمایهٔ موتورهای جستجو را برعهده دارند. توان این نرمافزارها محدودتر از آن است که بتوانند تمام محیط وب را پوشش دهند و تناوب روزآمدسازی آنها کندتر از سرعت افزودن اطلاعات جدید به محیط وب است. به بیان سادهتر، نرمافزارهای خزنده فرصت کافی برای حرکت هماهنگ با صفحات جدید را ندارند و بنابراین همواره صفحات جدیدی به محیط وب افزوده میشوند که هنوز مورد شناسایی این خزندهها واقع نشدهاند و بههمیندلیل از حوزهٔ جستجوی موتورها دور میمانند. بنابراین، حتی به فرض آنکه یک موتور جستجو قادر به گسترش حوزهٔ کاوش خود به تمام محیط وب باشد (که البته هنوز هیچ موتوری این توانایی یا ادعا را ندارد)، همواره فاصلهای بین اطلاعات واقعی موجود در وب و آنچه که موتور مذکور جستجو میکند وجود خواهد داشت. درواقع موتورهای جستجو هیچگاه نمیتوانند پابهپای سرعت افزایش اطلاعات به محیط وب حرکت کنند و همیشه چندین گام عقبتر هستند. بنابراین اختلاف سرعت بین افزودن اطلاعات به محیط وب و شناسایی اطلاعات جدید توسط خزندهها، همواره بخشی از اطلاعات موجود در وب را در تاریکی وب پنهان قرار میدهد.
۱ـ۳) عمق نمایهسازی: [۱۵] در متون مرتبط با موتورهای جستجو اصطلاح دیگری تحت عنوان «عمق نمایهسازی» یا عمق عمل خزندهها وجود دارد که بیانگر چگونگی و عمق نمایهسازی صفحات وب توسط موتورهای جستجو است. توان مالی و فناوری بسیاری از موتورهای جستجو هنوز محدودتر از آن است که بتوانند تمام صفحات و لایههای موجود در وبسایتها را نمایهسازی کنند، چرا که این کار فرایندی هزینهبر و دشوار است. بنابراین هر یک از موتورهای جستجو بسته به میزان توان خود و سیاستی که برای نمایهسازی اتخاذ کرده، تنها بخشی از وبسایتهای شناساییشده را نمایه میکند. منظور از «بخشی از وبسایتها» درواقع صفحات درونی و لایههای زیرین هر وبسایت است. بنابراین، همواره بخشی از اطلاعات نهفته در پایینترین لایههای وبسایتها از حوزهٔ جستجوی کاربران دور میمانند. پس این مسئله نیز دلیل دیگری است که منجر به ایجاد بخشی از اینترنت پنهان میشود.
۱ـ۴) حداکثر صفحات قابل مرور در نتایج بازیابی: [۱۶] بهدلیل انبوهی فزاینده اطلاعات وب معمولاً اغلب جستجوها با نتایج فراوان در بازیابی همراهاند. موتورهای جستجو اطلاعات بازیابیشده را در صفحات متعدد نمایش میدهند و هر صفحه بین ۱۰، ۲۰ یا ۳۰ مورد را دربرمیگیرد. البته کاربران میتوانند بسته به سلیقه یا نیاز خود این تعداد را در تنظیمات موتورهای جستجو کم یا زیاد کنند.
پژوهشهای گذشته نشان میدهند که اکثر کاربران تنها صفحات اول یا دوم نتایج بازیابی موتورهای جستجو را مرور میکنند و به هردلیل بهندرت به صفحات بعدی مراجعه میکنند (Jansen et al. ۲۰۰۰; Spink et al, ۲۰۰۱). گرچه موتورهای جستجو براساس نظام رتبهبندی [۱۷] خود سعی میکنند اطلاعات مرتبطتر را در ابتدای فهرست بازیابی نمایش دهند اما موضوع ربط [۱۸] یک مفهوم ساده نیست و نمیتوان به راحتی نسبت به مربوطبودن یا نبودن اطلاعات مندرج در یک مدرک قضاوت کرد. بویژه آنکه همواره قضاوت نهایی دربارهٔ ربط برعهدهٔ کاربر است و سیستم نمیتواند براساس معیارهای تعریفشده، اطلاعاتی را صددرصد مرتبط یا نامرتبط بداند. موضوع ربط بحث بسیار مفصل و پیچیدهای است که پرداختن به جزئیات آن خارج از محدودهٔ این مقاله است. آنچه در حوزهٔ بحث این مقاله میگنجد بیان این واقعیت است که حتی در بهترین شرایط همواره بخشی از اطلاعات بازیابیشده که ممکن است مرتبط با نیاز کاربر نیز باشد در لایههای زیرین صفحات بازیابیشده توسط موتورهای جستجو مدفون میماند و جزء وب پنهان محسوب میشود.
۲) وب عمیق
پس از گسترش و فراگیری شبکهٔ جهانگستر وب بهعنوان یکی از گستردهترین و مؤثرترین محملهای اطلاعرسانی، بسیاری از پایگاههای اطلاعات الکترونیکی پیوسته [۱۹] منابع خود را از طریق این شبکه دسترسپذیر ساختند. این منابع اطلاعاتی شامل پایگاههایی بودند که قبل از پیدایش وب نیز وجود داشتند و خدمات اطلاعرسانی ارزندهای ارائهمیکردند. اکنون هزاران مورد از این پایگاههای کوچک و بزرگ، از جمله فهرست پیوستهٔ عمومی [۲۰] بسیاری از کتابخانههای دنیا از طریق شبکهٔ وب دسترسپذیر هستند. هر یک از آنها نظام بازیابی اطلاعات خاص خود را دارند و از طریق صفحات جستجوی مبتنی بر وب، اطلاعات و مدارک موجود در پایگاه خود را به کاربران عرضه میکنند. بعضی از این پایگاهها و فهرستهای پیوسته، خدمات خود را رایگان عرضه میدارند و برخی دیگر در برابر ارائهٔ خدمات، هزینهٔ اشتراک دریافت میکنند. مثلاً اطلاعات موجود در پایگاه اطلاعات علوم تربیتی «اریک» [۲۱] به رایگان دسترسپذیر است، ولی در مقابل، بسیاری از مجلههای الکترونیکی و پایگاههای اطلاعاتی (مثل «دیالوگ» [۲۲]) هزینههای اشتراک قابلتوجهی دریافت میکنند.
فارغ از رایگان بودن یا نبودن خدمات این پایگاهها، همهٔ آنها در یک موضوع مشترکاند و آن، خارجبودن مندرجات آنها از حوزهٔ جستجوی موتورهای جستجو است. هریک از این پایگاهها یک صفحهٔ جستجوی مبتنی بر وب دارند که امکان جستجو در آنها را برای کاربران فراهم میکند. نتیجهٔ جستجوها به صورت صفحات دسترسپذیر از طریق شبکهٔ وب به نمایش درمیآید. اما هریک از این صفحات، نتیجهٔ جستجوی مشخص با کلیدواژههایی هستند که توسط کاربران به نظام بازیابی وارد شدهاند. بنابراین خزندههای موتورهای جستجو توانایی نمایهکردن مندرجات این پایگاهها را ندارند و درواقع همواره در پشت مجموعهای عظیم از اطلاعات متوقف شدهاند و به درون پایگاه راهی ندارند. (Snow, ۲۰۰۰)
به بیان دیگر، در فضای گستردهٔ وب، منابع اطلاعاتی ارزشمندی در عمق این دریای اطلاعات و درون پایگاههای اطلاعاتی وجود دارند که از دسترس کاربران موتورهای جستجو دور میمانند. مثلاً اگر فردی در جستجوی اطلاعاتی دربارهٔ یک موضوع تخصصی در زمینهٔ کشاورزی باشد و جستجوی خود را تنها به موتورهای جستجو محدود کند، درواقع بخشی عظیم از اطلاعات مرتبط را از دست داده است. بیتردید یا به بیان محتاطانهتر، به احتمال زیاد، اطلاعات مرتبط و مفیدی در زمینهٔ مذکور در اینترنت وجود دارد اما نهفته در دل پایگاههای اطلاعاتی متعددی میباشد که دسترسی به مندرجات آنها فقط با مراجعهٔ مستقیم به پایگاههای اطلاعاتی مذکور میسر است نه با جستجو از طریق موتورهای جستجوی عمومی. [۲۳]
کاربری که درصدد بازیابی چنین اطلاعاتی است باید ابتدا از طریق موتورهای جستجو پایگاههای مرتبط با موضوع موردنظر خود را شناساییکند و سپس جداگانه به جستجو در آنها بپردازد. درغیراینصورت، با جستجو از طریق موتورهای جستجو حوزهٔ کاوش خود را به وب سطحی [۲۴] محدود کرده و از دسترسی به وب عمیق بازمانده است.
۳) وب خصوصی [۲۵] و وب ملکی [۲۶]
گرچه این بخش از اینترنت پنهان تفاوت اساسی با بخشهای دیگر دارد و به نوعی خارج از بحث اصلی این مقاله است، اما اشارهٔ اجمالی به آن ضروری بهنظر میرسد. اشاره به وب خصوصی و وب ملکی از این جهت ضروری است که انواع دیگری از پنهانشدگی اطلاعات در محیط اینترنت نیز معرفی شود و تفاوتهای موجود تشریح گردد.
همانطورکه گفته شد، تفاوتی اساسی بین این قسمت از اینترنت پنهان با قسمتهای دیگر وجود دارد. این تفاوت اساسی از آنجا ناشی میشود که مخفیبودن اطلاعات در این بخش، کاملاً تعمدی میباشد و اطلاعات مذکور جزء داراییهای شخصی و خصوصی افراد یا سازمانها محسوب میشود. بیتردید هر شخص حقیقی یا حقوقی این حق را دارد که اطلاعات مربوط به خود را که خارج از مسائل عمومی است، به نحوی محافظت نماید.
مثلاً سازمانهای مختلف صفحات و اطلاعاتی در اینترنت دارند که تنها به مسائل کاری آن سازمان و کارکنان آن مربوط میشود و حفاظت از آن ضرورتی مسلم است. این بخش از اینترنت پنهان از حوزهٔ دسترسی موتورهای جستجو خارج است و طبیعتاً هم باید خارج باشد. منابع اطلاعاتی موجود در وب را که مربوط به مسائل شخصی و خصوصی افراد حقیقی یا حقوقی میباشد و به روشهای مختلفی که در ادامه ذکر میشود از دسترس سایر کاربران خارج است، وب خصوصی یا وب شخصی مینامند.
همچنین بعضی از منابع اطلاعاتی مثل انواع نشریههای الکترونیکی و بانکهای اطلاعاتی مبتنی بر وب را که دسترسی به آنها مستلزم پرداخت حق اشتراک و درواقع خرید اطلاعات است و جزء محصولات شرکتهای مختلف میباشد، را وب ملکی مینامند.
در اینجا فقط به انواع سازوکارهایی که میتواند یک صفحه یا منبع اطلاعاتی را از حوزهٔ وب عمومی خارج کند و جزء وب شخصی یا وب ملکی قرار دهد اشاره میگردد. این بخش معمولاً به یکی از سه روش زیر ایجاد میشود:
۳ـ۱) استفاده از اسم کاربر [۲۷] و گذرواژه [۲۸]: صفحاتی که دسترسی به آنها مستلزم استفاده از اسم کاربر و گذرواژه باشد از حوزهٔ جستجوی موتورهای کاوش خارج هستند.
۳ـ۲) استفاده از فایل Robots.txt : وجود این فایل، خزندههای موتورهای جستجو را از نمایهسازی وب سایت مذکور بازمیدارد.
۳ـ۳) استفاده از کد noindex : افزودن کد noindex به مجموعهٔ کدهای یک صفحهٔ وب، پیامی برای خزندهٔ موتور جستجو بهشمار میرود که آن را از نمایهسازی صفحهٔ مذکور منع میکند و معمولاً موتورهای جستجو این مسئله را رعایت میکنند و از افزودن صفحات محتوی کد noindex به نمایهٔ خود خودداری میکنند. بنابراین، این کد نیز میتواند صفحات معینی را از حوزهٔ جستجوی موتورهای جستجو خارج کند.
در اینجا باز هم تأکید میشود که این بخش خاص از اینترنت پنهان، تفاوت بنیادی با بخشهای دیگر قلمرو تاریک اینترنت دارد، چرا که این قسمت آگاهانه از دسترسی موتورهای جستجو خارج شده؛ در حالیکه بخشهای دیگر اینترنت پنهان میتوانسته جزء قلمرو بازیابی موتورهای جستجو باشد و عوامل ناخواستهای، آنها را خارج از دسترسی کاربران قرار داده است.
۴)اینترنت واقعاً پنهان [۲۹]
آنچه تاکنون دربارهٔ اینترنت ذکر شد اشاره به بخشهایی از اینترنت داشت که یا بهدلیل عوامل غیرفنی ایجاد شده بود یا بنا به خواست و تمایل صاحبان منابع اطلاعات. منظور از عوامل غیرفنی عواملی است که مثلاً در وب مات به آنها اشاره شد (مثل حداکثر صفحات قابل رویت در نتایج بازیابی). اما بخشهای دیگری نیز در قلمرو تاریک وب وجود دارند که در اثر مسائل فنی و تکنیکی، یا به بیان دیگر در اثر ناکارآمدی ابزارهای جستجو، از دسترسی کاربران دور ماندهاند.
همانطور که قبلاً گفته شد موتورهای جستجو اغلب قادر به یافتن اطلاعات متنی «اچتیامال» [۳۰] هستند و توانایی بازیابی فایلهایی از انواع دیگر نظیر swf,، pppیا pdf را یا ندارند یا بهدلیل کمبود منابع مالی و فنی از جستجوی فایلهای غیرمتنی صرفنظر کردهاند. مثلاً درحالحاضر موتور جستجوی معروف «گوگل» [۳۱] قادر به بازیابی فایلهای با پسوند ptt, و pdf میباشد، اما این امکان در بسیاری دیگر از موتورهای جستجو هنوز وجود ندارد و چند سال پیش نیز «گوگل» به این امکان مجهز نبود.
بنابراین منابع اطلاعاتی متنوعی در وب وجود دارند که تنها بهدلیل محدودیت تکنولوژیکی یا مالی موتورهای جستجو، از حوزهٔ کاوش آنها و درنتیجه از دسترسی کاربران دور ماندهاند.
● اهمیت اینترنت پنهان
بخش پنهان اینترنت از دو جهت اهمیت دارد. نخست آنکه از نظر کمّی این بخش چیزی بیش از نیمهٔ پنهان اینترنت است. به بیان دیگر، حجم اطلاعات نهفته در اینترنت پنهان خیلی بیشتر از بخش سطحی [۳۲] یا آشکار [۳۳] است. دوم آنکه از نظر کیفی نیز این قسمت بسیار دارای اهمیت است. اطلاعات موجود در بخشهای مختلف این مجموعه بویژه منابع اطلاعاتی موجود در وبعمیق معمولاً منابع ارزشمند و مفیدی هستند و میتوانند در بسیاری از موارد پاسخگوی نیاز کاربران باشند. بنابراین، نمیتوان بخش پنهان اینترنت را نادیده گرفت، چرا که کاربران میتوانند با روشهای مختلف سطح ناپیدایی در وب را در جستجوهای خود کاهش دهند و از این طریق، بهرهوری کاوش خود را ارتقا بخشند.
یکی از زمینههای فعالیت کتابداران و متخصصان اطلاعرسانی، آگاهنمودن کاربران از وجود اینترنت پنهان است تا به این ترتیب، آنان فرایند جستجوی خود در محیط اینترنت را فقط به نتایج بازیابی موتورهای جستجو محدود نسازند و نتایج بهتری کسب کنند.
● اطلاعیابی در اینترنت پنهان
راهکارهای مختلفی برای ارتقای سطح دسترسپذیری اطلاعات در اینترنت پنهان وجود دارد. مهمترین گام در این زمینه، آگاهیرسانی در مورد وجود قلمرو تاریک وب است. متأسفانه بسیاری از کاربران از وجود این بخش از اینترنت بیاطلاع هستند. «شرمن» و «پرایس» در بیان بخشی از مشکلات کاربران در هنگام جستجو در وب مینویسند: «بسیاری از کاربران بر این باورند که تمام اطلاعات موجود در وب در حوزهٔ دسترسی موتورهای جستجو قرار دارد و همهٔ این موتورها نیز مجموعهٔ یکسانی از وب را کاوش میکنند. درضمن معمولاً از این نکتهٔ مهم غافلاند که شیوهٔ عمل موتورهای جستجو با هم متفاوت است و نیز آنچه که این موتورها جستجو میکنند با آنچه که در زمان جستجو در وب وجود دارد متفاوت است» (Price & Sherman, ۲۰۰۱ (b)).
اگر کاربران به این مسائل آگاهی داشته باشند، میتوانند جستجوهای دقیقتر و مطمئنتری انجام دهند. تاکنون تدابیر متعددی برای بهبود سطح بهرهوری جستجو در اینترنت پیشبینی شده. استفاده از این تدابیر میتواند بهعنوان مکمل جستجو از طریق موتورهای کاوش، میزان بازیابی اطلاعات مرتبط مورد نیاز را به نحو قابلتوجهی ارتقا بخشد. از جملهٔ این امکانات میتوان به دروازههای اطلاعاتی موضوعی [۳۴] اشاره کرد.
تاکنون در بسیاری از رشتههای علمی، دروازههای اطلاعاتی متنوعی طراحی و ساخته شدهاند. از آنجا که انتخاب منابع موجود در این سایتها توسط متخصصان موضوعی یا کتابداران انجام میشود، معمولاً منابع برگزیده از کیفیت و اعتبار خوبی برخوردار هستند.
روش دیگر، استفاده از اَبرموتورهای کاوش [۳۵] است. این ابرموتورها خود موتور جستجوی واقعی نیستند بلکه به کاربران این امکان را میدهند که کلیدواژههای خود را همزمان توسط چند موتور جستجو مورد کاوش قرار دهند و نتایج جستجوی تمام آنها را یکجا در اختیار داشته باشند.
امکان دیگری که اخیراً موردتوجه متخصصان بازیابی اطلاعات در وب قرار گرفته، استفاده از عوامل هوشمند [۳۶] است. این عوامل هوشمند که توانایی جستجو، مقایسه و انتخاب منابع اطلاعاتی بر اساس نیاز مطرحشده توسط کاربر را دارند، بهعنوان کارگزار کاربران در این فضای گسترده به جستو میپردازند و نتایج جستجو را بر این اساس فیلتر میکنند و به آنها تحویل میدهند.
بهطورکلی پیشبینی میشود با پیشرفت ابزارهای بازیابی اطلاعات در وب و بهبود سواد اطلاعاتی کاربران، بهتدریج از سطح ناپیدایی [۳۷] اطلاعات در محیط وب کاسته شود.
● نقش آموزش کتابداران در کاهش سطح پنهانی اطلاعات
همانطورکه گفته شد بخش عمدهای از اطلاعات مخفیمانده در وب پنهان را میتوان به راحتی برای کاربران این شبکه دسترسپذیر نمود. مهمترین راهکار برای نفوذ به قلمرو تاریک وب، آگاهی از وجود آن و آگاهی از روشهای اطلاعیابی در آن است. بیتردید اگر کاربران اینترنت تصویر روشنی از نقاط قوت و ضعف موتورهای جستجو و تواناییها و محدودیتهای آنها داشته باشند، بهتر میتوانند از این ابزارهای کاوش استفاده کنند.
پنهانی اطلاعات در اینترنت یک موضوع با حد و مرزهای مشخص و معلوم نیست. درواقع نمیتوان این شبکه را به دو بخش نهان و آشکار یا مرئی و نامرئی تقسیم نمود و محدوده و مرز مشخصی بین این دو قسمت قائل شد. ممکن است یک منبع اطلاعاتی برای یک فرد یا در یک تجربهٔ جستجوی مشخص، جزء قلمرو وب پنهان قرار گیرد و در همان زمان برای کاربر دیگری کاملاً دسترسپذیر باشد.
بنابراین تأکید بر این نکته ضروری است که نمیتوان شبکهٔ وب را به دو بخش پنهان و آشکار یا روشن و تاریک یا سطحی و عمیق تفکیک کرد. آنچه اهمیت دارد آگاهنمودن کاربران به این واقعیت است که جستجو در اینترنت فرایندی فراتر از بهکارگیری از موتورهای جستجو میباشد. حد و مرز و پیچیدگی منابع اطلاعاتی موجود در این شبکه، فعلاً بسی فراتر از حوزهٔ دسترسی موتورهای مذکور است. بازیابی بهینهٔ اطلاعات از اینترنت نیازمند ابزارهای متعدد و شناخت کافی از این شبکه است. محدودکردن جستجو به حوزهٔ کاوش موتورهای جستجو منجر به عدمدسترسی به اطلاعات نهفته در اینترنت پنهان خواهد شد.
بنابراین، آگاهی از وجود اینترنت پنهان نخستین و مهمترین گام در جهت نفوذ به آن است و این آگاهی را کتابداران میتوانند به کاربران منتقل کنند.
● نتیجه
وب پنهان یکی از واقعیتهای موجود این شبکهٔ جهانگستر است. پنهانی اطلاعات در محیط وب به هر یک از دلایلی که ذکر شد ایجاد شود، سطح دسترسپذیری اطلاعات را برای کاربران کاهش میدهد. از آنجا که از نظر کمّی و کیفی بخش قابلتوجهی از منابع اطلاعاتی مبتنی بر وب جزء قلمرو تاریک آن قرار دارد آگاهی از وجود آن و یافتن راهکارهایی برای بازیابی اطلاعات از درون آن کاملاً ضروری است.
خوشبختانه قسمت عمدهای از این منابع را میتوان برای کاربران دسترسپذیر و جستجوپذیر کرد. با توجه به تعاریفی که در این مقاله ارائه شد سهم عوامل فنی و تکنیکی در پنهانی اطلاعات در محیط اینترنت بهمراتب کمتر از عوامل غیرفنی است. به بیان دیگر، نفوذ به درون منابع پنهان در وب بیش از آنکه به نظامهای بازیابی پیچیدهتر وابسته باشد به جنبهٔ کاربرمدار [۳۸] در بازیابی اطلاعات وابسته است. بنابراین حتی با همین ابزارهای کاوش موجود نیز میتوان سطح پنهانی اطلاعات را به نحو قابل توجهی کاهش داد. البته از سوی دیگر بر توانایی موتورهای جستجو نیز افزوده میشود و از نمونههای بارز آن میتوان به موفقیتهای چشمگیر موتور «گوگل» اشاره کرد که پیوسته دامنهٔ جستجوی خود را گسترش میدهد و مرتباً امکانات جستجوی جدیدی به آن افزوده میگردد.
بنابراین، بهدلیل پژوهشها و پیشرفتهای اخیر در حوزهٔ بازیابی اطلاعات چه در بُعد فنی و چه از نظر رویکرد کاربرمدار، آیندهٔ روشنتری در زمینهٔ بازیابی اطلاعات در محیط وب پیشبینی میشود.
با این حال و با توجه به شرایط موجود منابع اطلاعاتی مبتنی بر وب، لازم است به طرق مختلف کاربران اینترنت را از وجود اینترنت پنهان و اهمیت آن آگاه ساخت و به این ترتیب سطح دسترسپذیری اطلاعات را برای آنان افزایش داد. نقش کتابداران و متخصصان اطلاعرسانی در این زمینه کاملاً مهم و حیاتی میباشد. در حال حاضر صدها دروازهٔ اطلاعاتی و راهنمای اینترنتی که توسط کتابداران طراحی و ساخته شدهاند نقش مهمی در بهبود بازیابی اطلاعات کاربران ایفا میکنند. امید میرود که کتابداران ایرانی نیز در این زمینه حوزهٔ فعالیتهای خود را گسترش بخشند و در آیندهٔ نزدیک شاهد موفقیتهای بیشتری در این زمینه باشیم.
مسعود بهمن آبادی
یزدان منصوریان [۱]
منابع
Broder, A., Kumar, R. Maghoul, F. Raghavan, P. Rajagopalan, S. Stata, R. Tomkins, A. Wiener, J. (۲۰۰۰). "Graph structure in the Web," in Proceedings of WWW۹ Conference, ۲۰۰۰. [Online], http://www۹.org/w۹cdrom/۱۶۰/۱۶۰.html , [۱۰ Sep ۲۰۰۳].
Chu, H., & Rosenthal, M. (۱۹۹۶). "Search engines for the World Wide Web: A comparative study and evaluation methodology." Proceedings of the ۵۹th Annual Meeting of the American Society for Information Science, ۳۳, ۱۲۷-۱۳۵.
Cothey, V. (۲۰۰۲). "A longitudinal study of World Wide Web users’ information-searching behaviour." Journal of the American Society for Information Science and Technology, ۵۳ (۲), ۶۷-۷۸.
Ford, N., Miller, D., & Moss, N. (۲۰۰۲). "Web search strategies and retrieval effectiveness: An empirical study". Journal of Documentation, ۵۸(۱), ۳۰-۴۸.
Ford, N., Miller, D., & Moss, N. (۲۰۰۳). "Web search strategies and approaches to studying". Journal of the American Society for Information Science and Technology, ۵۴ (۶), ۴۷۳-۴۸۹.
Gordon, M., & Pathak, P. (۱۹۹۹). "Finding information on the World Wide Web: the retrieval effectiveness of search engines". Information Processing and Management, ۳۵ (۲), ۱۴۱–۱۸۰.
Hargittai, E. (۲۰۰۲). "Beyond logs and surveys: In-depth measures of people۰۳۹;s Web use skills". Journal of the American Society for Information Science and Technology, ۵۳(۱۴), ۱۲۳۹-۱۲۴۴.
Jansen, B. J., & Spink, A. (۲۰۰۰). "The Excite research project: A study of searching characteristics by Web users". Bulletin of the American Society for Information Science, ۲۷(۱), ۱۵-۱۷.
Jansen, B.J., Spink, A. & Saracevic, T. (۲۰۰۰). "Real life, real users and real needs: A study and analysis of users’ queries on the Web". Information Processing and Management, ۳۶ (۲), ۲۰۷-۲۲۷.
Kim, K. (۲۰۰۱). "Information-seeking on the Web: Effects of user and task variables". Library & Information Science Research, ۲۳ (۳), ۲۳۳-۲۵۵.
Palmquist, R.A. & Kim, K. (۲۰۰۰). "Cognitive style and online database search experience as predictors of Web search performance". Journal of the American Society for Information Science, ۵۱ (۶), ۵۵۸-۵۶۶.
Pedley, P. (۲۰۰۱). The Invisible Web: searching the hidden parts of the Internet. Aslib.
Pedley, P. (۲۰۰۲). "Why you can’t afford to ignore the Invisible Web". Business information review, ۱۹ (۱), ۲۳-۳۱.
Price, G. & Sherman, C.(۲۰۰۱a)" Exploring the Invisible Web". Online, ۲۵ (۴), ۳۲-۳۵.
Price, G. & Sherman, C.(۲۰۰۱b). The Invisible Web: Uncovering Information Sources Search Engines Can۰۳۹;t See. CyberAge Book.
Smith, C. B. (۲۰۰۱). "Getting to Know the Invisible Web". Library Journal, ۱۲۶ (۱۱), ۱۶-۱۹.
Spink, A., Wolfram, D., Jansen, B. J., & Saracevic, T. (۲۰۰۱). "Searching the Web: the public and their queries". Journal of the American Society for Information Science and Technology, ۵۲ (۳), ۲۲۶-۲۳۴.
Snow, B. (۲۰۰۰). "The Internet۰۳۹;s Hidden Content and How to Find It". Online, ۲۴ (۳), ۶۱-۶۶.
Wang, P. , Hawk, W.B. & Tenopir, C. (۲۰۰۰). "Users۰۳۹; interaction with World Wide Web resources: an exploratory study using a holistic approach". Information Processing and Management, ۳۶ (۲), ۲۲۹-۲۵۱.
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست