شنبه, ۲۶ خرداد, ۱۴۰۳ / 15 June, 2024
مجله ویستا

گشت وگذاری در دنیای مجازی


گشت وگذاری در دنیای مجازی

آنچه باعث گسترش اینترنت شده است, یافتن اطلاعات را در اینترنت با مشکل روبه رو کرده است اطلاعات اینترنت از سوی افراد و گروه ها در سرتاسر جهان و بدون هیچ محدودیت و سازماندهی ایجاد شده است

در جامعه اطلاعاتی امروز که تمدن بشر به سوی استقلال از مواد خام و تکیه بر دانش به عنوان کالای اصلی پیش می‌رود انباشتن و حفظ اطلاعات کم مصرف در ذهن ، دیگر توانایی به شمار نمی‌رود ، بلکه مهارت در کسب اطلاعات مفید و مناسب ، می‌تواند عاملی برای کارایی فرد یا سازمان باشد. در این جامعه که رایانه‌ها در ذخیره، پردازش و انتقال اطلاعات نقش اساسی ایفا می‌کنند ، اینترنت موقعیت خود را به عنوان بستر ذخیره و دستیابی به این انباشته عظیم اطلاعاتی تثبیت کرده‌است.

اینترنت که سال ۱۹۶۹ با اتصال ۴ رایانه متولد شد ، ژوئن سال ۲۰۰۳ میلادی ، بیش از ۲۳۳ میلیون رایانه میزبان و بیش از ۵۱ میلیون وب‌سایت داشته است که این مقادیر نسبت به سال قبل‌تر از آن، به ترتیب ۳۵ درصد و ۲۶ درصد رشد داشته است.

این گستردگی و میزان رشد، مشکل چگونگی دسترسی به این اطلاعات انبوه را به دنبال دارد ؛ چه برای ارائه کنندگان اطلاعات که می‌خواهند مطالب خود را در دسترس کاربران قرار دهند و چه برای کاربرانی که می‌خواهند اطلاعات مفید و مورد نیاز خود را پیدا کنند.

● اینترنت فهرست ندارد

آنچه باعث گسترش اینترنت شده‌است، یافتن اطلاعات را در اینترنت با مشکل روبه رو کرده است. اطلاعات اینترنت از سوی افراد و گروه‌ها در سرتاسر جهان و بدون هیچ محدودیت و سازماندهی ایجاد شده است. بیش از ۸ میلیارد سند در اینترنت وجود دارد که در هیچ کجا به طور کامل فهرست بندی نشده‌اند. برای یافتن موضوع یا کتابی خاص در یک کتابخانه ، می‌توانید با مراجع به فهرست موضوعی یا عنوانی کتابها ، کتاب مورد نظر خود را پیدا کنید ، اما نمی‌توانید با مراجعه به یک سایت خاص و تحت طبقه‌بندی خاصی، مطمئن باشید که تمام مطالب موجود در اینترنت را در آن موضوع پیدا کرده‌اید.

اگر خواننده روزنامه (X) باشید و بخواهید سایت این روزنامه را مشاهده کنید، می‌توانید در صفحه آخر این روزنامه نشانی وب‌سایت آن را پیدا کنید. ممکن است ، نشانی سایت یک شرکت را از آگهی تبلیغاتی آن شرکت پیدا کنید، یا برای یافتن مطالب مرتبط با یک موضوع در یک کتاب یا مقاله ممکن است ، بتوانید از طریق منابع اینترنتی معرفی‌شده در انتهای آن کتاب یا مقاله نشانی سایت‌های مرتبط با آن موضوع را پیدا کنید ، اما در خیلی از موارد یافتن اطلاعات مورد نظر در اینترنت به این سادگی نیست.

● برای یافتن اطلاعات در اینترنت چه باید کرد؟

برای یافتن مطالب مورد نظر خود در اینترنت، باید حدس بزنید جه کلمات و اصطلاحاتی به طور خاص در صفحاتی که مطالب مورد نظر شما را دارند، موجود است. سپس می‌توانید با مراجعه به یکی از سایتهای جستجوی اینترنتی، کلمه مورد نظر خودر را جستجو کنید و نشانی صفحاتی را که این کلمات در آنها به کار رفته است ، مشاهده کنید؛ اما هرگز نمی‌توانید به طور مستقیم کلیه اطلاعات اینترنت را در یک لحظه جستجو کنید.

جستجو در یک سایت جستجوی اینترنتی به معنای جستجوی مستقیم در اینترنت نیست. هنگامی که کلید جستجوی یک سایت جستجو را می‌زنید، در واقع بانک اطلاعاتی موتور جستجوی آن سایت را جستجو می‌کنید. میلیاردها صفحه روی رایانه های میزبان در اینترنت در کل جهان پراکنده‌اند. هیچ نرم‌افزاری نمی‌تواند در یک زمان کوتاه تمام این اسناد را جستجو کند. آنچه شما می‌توانید انجام دهید، این است که به بانک اطلاعاتی یکی از سایتهای جستجو دسترسی پیدا کنید و جستجوی خود را در آن بانک اطلاعاتی انجام دهید. این سایت‌ها به وسیله‌ موتورهای جستجو در طول زمان، اسناد اینترنتی را جستجو و محتویات آنها را فهرست‌بندی می کنند و همراه با سایر اطلاعات مرتبط با انها در بانکهای اطلاعاتی‌شان ذخیره می‌کنند.

● موتورهای جستجو چگونه کار می‌کنند؟

اولین کاری که یک موتور جستجو انجام می‌دهد ، خواندن اطلاعات موجود روی اینترنت است. برای این کار ، موتورهای جستجو از نرم‌افزاری به نام ربات خزند (Crawler) یا عنکبوت (Spider) استفاده می‌کنند. علت این نام‌گذاری آن است که این نرم‌افزار با خزیدن و حرکت از طریق تارهای ارتباطی صفحات اینترنتی و خواندن محتویات این صفحات، فهرستی از کلمات موجود در وب‌سایت های اینترنتی تهیه می‌کند. این نرم‌افزار، برای این کار نیاز به یک نقطه شروع دارد.

این نقطه شروع معمولا فهرستی از میزبان‌ها و صفحات پربیننده‌ است. نرم‌افزار خزنده با استفاده از لینکهایی که در این سایتها با سایر صفحات وجود دارد، صفحات دیگر اینترنت را پیدا می کند و به همین ترتیب سایر سایتها و صفحات اینترنتی را ردیابی می‌کند و کلمات موجود در آنها را به موتور جستجو می‌فرستد.

موتور جستجوی گوگل - که اکنون رتبه اول را بین موتورهای جستجو دارد - سیستم خود را با فعال کردن سه نرم‌افزار خزنده ایجاد کرد. هریک از این نرم‌افزارها می‌توانست در هرثانیه ۳۰۰ ارتباط بین صفحات را ردیابی کند. بنابراین موتور جستجوی گوگل می‌توانست هر ثانیه در شرایط ایده‌ال بیش از ۱۰۰ صفحه را جستجو و حدود ۶۰۰ کیلو بایت داده تولید کند. برای این‌که سیستم جستجو سریع‌تر عمل کند، گوگل ابتدا برای خود یک سرور مستقل با DNS مستقل تهیه کرد، تا خود وظیفه آدرس‌دهی به نرم‌افزار خزنده خود را به عهده داشته باشد و لازم نباشد از یک سرویس‌دهنده اینترنتی دیگر استفاده کند.

وقتی نرم‌افزار خزنده گوگل به یک صفحه می‌رسد، دو سری داده به سرور می‌فرستد؛ یکی کلمات موجود در آن صفحه و دیگری جایی که آن کلمات یافت شده‌اند. این که یک کلمه در عنوان ، عنوان‌های فرعی یا متن یک صفحه یا در بخش نامرئی صفحات یعنی در تگ‌های متا (Meta Tags) قرار گرفته باشد، می‌تواند از اهمیت متفاوتی برخوردار باشد.

موتورهای جستجوی گوگل، طوری برنامه‌ریزی شده‌اند که از تمامی کلمات مهمی که در یک صفحه قرار دارند، فهرست‌برداری کند. این‌که یک موتور جستجو چه اطلاعاتی از یک صفحه برای سرور بفرستد، یکی از عوامل تفاوت در سرعت عمل و کارایی موتورهای جستجو است. به عنوان مثال موتور جستجوی Lycos، تمامی لغات موجود در عنوان هر صفحه را به همراه ۱۰۰ لغتی که بیشتر در آن صفحه استفاده شده و تمامی لغات موجود در ۲۰ سطر اول هر صفحه را نگهداری می‌کند؛ اما Altavista تمامی کلمات و حروف اضافه را نیز حفظ می‌کند. بخشی از اطلاعاتی که موتورهای جستجو پیدا می‌کنند، در ظاهر یک صفحه وب قابل رویت نیست.

علاوه بر کلماتی که در یک صفحه وب می‌بینید، کلامت نامرئی دیگری در صفحات وب وجود دارد که در تگ‌های متا (Meta) در ساختار HTML صفحات قرار دارند. تگ‌های متا به نویسندگان صفحات وب اجازه می‌دهد کلمات و مفاهیم کلیدی را برای هر صفحه تعیین کنند یا در مواردی که کلمات کلیدی استفاده شده در یک صفحه معانی وسیع و متفاوتی داشته باشند، با استفاده از تعریف کلمات کلیدی در تگ‌های متا و قرار دادن کلمات هم‌معنی با معنی مورد نظر آن کلمه، می‌توان به موتور جستجو فهماند که این کلمه در این معنی به‌کار رفته است.

تگ‌های متا ممکن است مورد سوء استفاده قرار گیرند. برخی تهیه‌کنندگان صفحات وب، برای جذب بیننده بیشتر، از کلماتی که بیشتر مورد جستجو قرار می‌گیرند در تگ‌ متای صفحات خود استفاده می‌کنند. موتورهای جستجوی هوشمند با مقایسه‌ کلمات به کار رفته در صفحه و کلمات کلیدی تعریف‌شده در تگ متای آن صفحه، کلمات کلیدی ای را که با محتویات صفحه همخوانی ندارد، نادیده می‌گیرند.

به طور کلی، فرض بر این است که تهیه‌کننده یک صفحه وب، مایل است صفحه‌اش مورد جستجو قرار گیرد، اما مواردی هم هست که صفحه قرار داده شده نباید مورد جستجوی نرم‌افزار خزنده قرار بگیرد. این موارد نیز با استفاده از تگ‌های متا و طبق «قرارداد جلوگیری از ورود رباتها» در ابتدای هر صفحه تعیین می‌شود.

چگونگی ارزش‌گذاری ، فهرست‌برداری و ذخیره‌ اطلاعات کارایی و سرعت یک موتور جستجو را تعیین می‌کند.

در ساده‌ترین حالت، موتور جستجو فقط کلمه و نشانی صفحه دارای کلمه مورد نظر را ذخیره می‌کند، اما این اطلاعات به تنهایی چندان کارایی ندارد. اهمیت کلمات موجود در یک صفحه و ارتباط آنها به آن موضوع یکسان نیست. موتورها جستجو برای ارزیابی ارتباط کلمه یافت شده با موضوع یک صفحه، شاخص‌های مختلفی را جمع‌آوری و بررسی می‌کنند.

شاخص‌هایی مانند میزان تکرار کلمه مورد نظر، مکان کلمه و تکرار آن در صفحات مرتبط با آن صفحه در موتورهای جستجوی مختلف، به انواع مختلف ارزیابی و در نمایش فهرست نهایی برای کاربر تاثیر می‌گذارند. یکی از عوامل مهم تفاوت نتیجه جستجوها در موتورهای جستجوی مختلف همین اولویت‌بندی است، که عامل مهمی در کارایی و مفید بودن نتیجه یک جستجو برای کاربر است.

موتورهای جستجو برای این کار یک امتیاز به کلمات یافت‌شده در یک صفحه می‌دهند و این امتیاز را نیز همراه کلمه یافت‌شده ذخیره می‌کنند.

یکی از دلایلی که موتور جستجوی گوگل را محبوب‌ترین موتور جستجو کرده‌است، همین معادله ارزش‌گذاری کلمات و رتبه‌بندی صفحات یافت شده در فهرست نهایی است. گوگل علاوه بر این که به کلماتی که به تعداد بیشتری در یک صفحه تکرار شده باشند امتیاز بیشتری می‌دهد، فاکتورهای دیگری را نیز درنظر می‌گیرد. یکی از این فاکتورها که نقش عمده‌ای در کارایی این سیستم ایفا می‌کند، امتیاز دهی براساس تعداد صفحات لینک ‌شده به یک صفحه است. موتور جستجوی گوگل هر لینک از یک صفحه دیگر به صفحه‌ یافت شده را یک امتیاز حساب می‌کند. علاوه بر آن اهمیت صفحه‌ای که به صفحه یافت‌شده لینک داده‌است نیز در مقدار این امتیاز موثر است. بنابراین چنانچه یک صفحه لینک‌های زیادی از صفحات مرتبط دریافت‌کند، امتیاز بالایی در آن موضوع خواهد گرفت.

گوگل علاوه بر این فونت به‌کار رفته برای یک کلمه، عنوان‌بندی و مکان دقیق هر کلمه را نیز مورد نظر قرار می‌دهد همچنین محتویات صفحاتی که همراه با یک صفحه در یک مکان قرار دارند نیز مورد بررسی قرار می‌دهد، تا مطمئن شود نتیجه بیشترین ارتباط را با موضوع مورد جستجوی کاربر دارد. گوگل امتیاز کسب‌شده از سوی هر کلمه را نیز همراه کلمه یافت شده در بانک اطلاعاتی خود ذخیره می‌کند. چگونگی فهرست‌بندی و ذخیره سازی اطلاعات جمع‌آوری شده، در سرعت دسترسی به این اطلاعات مؤثر است.

موتورهای جستجو کلمات را صرفا به ترتیب حروف الفبا فهرست‌بندی نمی‌کنند. به عنوان مثال، کلمات بیشتری در انگلیسی با حرف M شروع می‌شوند و کلمات کمتری با حرف X شروع می‌شوند. چنانچه فهرست‌بندی کلمات صرفا بر اساس حرف و الفبا انجام شود، یافتن کلماتی که با حرف M شروع می‌شوند، به طور میانگین زمان بیشتری خواهند برد تا کلماتی که با حرف X شروع می‌شوند. برای رفع این مشکل فرمولی برای فهرست بندی روی کلمات اعمال می‌شود، تا در بانک اطلاعاتی به طور یکنواخت پخش شوند.

بدین‌ترتیب و با استفاده از شبکه ای از رایانه‌ها، موتور جستجویی مانند گوگل با بیش از ۲۵۰ میلیون کاربر در روز در کسری از ثانیه نتیجه جستجو را به کاربر نمایش می‌دهد.


شما در حال مطالعه صفحه 1 از یک مقاله 2 صفحه ای هستید. لطفا صفحات دیگر این مقاله را نیز مطالعه فرمایید.