سه شنبه, ۱۶ بهمن, ۱۴۰۳ / 4 February, 2025

مجله ویستا

چشم اندازهایی بر وب سنجی

از اواسط دهه ۱۹۹۰ حوزه پژوهشی جدیدی به نام «وب‌سنجی» بر پایه روش‌های اطلاع‌سنجی جدید به وجود آمد که کار آن، پژوهش درباره ماهیت و خصوصیات وب است. این مقاله سعی دارد حوزه‌های منتخبی از پژوهش وب سنجی را که روند و فضای مناسبی برای توسعه دارند و همچنین برخی حوزه‌هایی را که در حال حاضر کمتر دارای آینده‌ای روشن هستند معرفی کند. پژوهش‌های جدید درباره پوشش و عملکرد موتورهای کاوش، آنها را به عنوان قالب و چارچوبی برای تحلیل گزینشی کیفیت و محتوا، شناخته است. مشکلات مربوط به عوامل تأثیرگذار وب مورد بحث قرار گرفته است و در پایان مقاله راهنمایی‌های جدید وب‌سنجی برای اجرای کشف دانش و ردیابی موضوع روی وب-که تا حدودی مبتنی بر روش کتابسنجی استفاده شده در پایگاههای اطلاعاتی استنادی و کتابشناختی است- به صورت کلی مطرح شده است. در این چارچوب راهبردهای نظریه نمودار یکپارچه، شامل: تحلیل مسیر، پیوندهای متقاطع (عرضی)، پیوندهای ضعیف و پدیده جهان کوچک مورد توجه قرار گرفته است.

● مقدمه

از اواسط دهه ۱۹۹۰ تلاش‌های روزافزونی برای بررسی ماهیت و خصوصیات وب جهان گستر که در این مقاله «وب» نامیده می‌شود، با به کارگیری روش اطلاع‌سنجی جدید برای فضای محتویات آن، ساختار پیوندها۱ و موتورهای کاوش، صورت پذیرفت. مطالعه روی وب در سال ۱۹۹۷ را آلمایند و اینگورسن۲ وب‌سنجی نامیده و یا در مجله‌ای الکترونیکی با عنوان سایبرمتریک۳ در سال ۱۹۹۷ سایبرمتریک (مجازی سنجی) نامگذاری شد. این مقاله سعی دارد حوزه‌های منتخبی از پژوهش وب‌سنجی را که فضای مناسبی برای توسعه دارند، معرفی کند. این نوشته مقاله کاملی نیست، اما نسبتاً تخصصی است.

وب‌سنجی شباهت‌های متعددی با مطالعات علم‌سنجی، اطلاع‌سنجی و کاربرد روش‌های کتابسنجی متداول دارد. برای مثال، محاسبات ساده و تحلیل محتوای صفحات وب، شبیه به تحلیل انتشارات سنتی هستند؛ محاسبه و تجزیه و تحلیل پیوندهای بیرون رونده از صفحات وب که در اینجا پیوندهای بیرونی۴ و پیوندهایی که به خود صفحات وب داده می‌شوند، پیوندهای درونی۵ نامیده می‌شوند به ترتیب به عنوان مرجع (مأخذ)۶ و تحلیل استنادی۷ در نظر گرفته می‌شوند. بنابراین، در مقالات علمی، پیوندهای بیرونی و درونی به ترتیب شبیه مراجع(مآخذ) و استنادها هستند. هرچند وب به علت ماهیت پویا و توزیعی، غالباً صفحاتش را که به صورت همزمان به یکدیگر پیوند داده شده‌اند- حالتی که در کتاب به شکل سنتی امکان ندارد- در فضایی که بر پایه استناد گذارده شده نمایش می دهد. پوشش موتورهای کاوش در سراسر وب می‌تواند به همان شیوه‌ای که پوشش حوزه۸ و پایگاه‌های اطلاعاتی استنادی در کل اسناد و مدارک و امکان همپوشانی‌های بین موتورهای شناسایی شده، مورد پژوهش قرار گیرد. از آن زمانی که وب از مشارکت هر کسی که دوست داشت در آن شرکت کند برخوردار شد، در نتیجه فقدان بازبینی‌های دقیق، کیفیت اطلاعات یا ارزش دانش دچار ابهام گردید؛ اما تحلیل پیوندها ممکن است گروهی از سایت‌های تجدیدنظر و بازبینی شده را نشان دهد. الگوهای رفتارِ کاوش در وب۹ می‌تواند، مانند مطالعات اطلاع یابی سنتی، مورد پژوهش قرار گیرد.

ردیابی موضوع در محیط وب تأمین شده و اقداماتی برای کشف دانش، شبیه به داده‌های رایج (مشترک۱۰) یا متن کاوی (استخراج متن۱۱) در پایگاه‌های اطلاعاتی متنی (کتابشناختی) یا اداری (اجرایی) انجام گرفته است. از زمانی که وب فضای اطلاعاتی کاملاً متفاوتی از سایر پایگاه‌های اطلاعاتیِ علمی یا حرفه‌ای متداول، شده است، بعضی وقت‌ها شباهت‌های مذکور ممکن است به صورت کم عمق و سطحی ظاهر گردد. برای مثال، ما با اطمینان نمی دانیم که چرا مردم در وب به سایر صفحات پیوند می دهند.

هیچ قراردادی برای استناد در محیط وب همانند آثار علمی چاپی وجود ندارد. علاوه بر این، زمان نقش متفاوتی بر روی وب ایفا می‌نماید. از سوی دیگر، به دلیل این که وب مجموعه‌ای است بسیار پیچیده از کلیه انواع اطلاعاتی که به وسیله انسان های متفاوت تولید می‌شود و همچنین توسط کاربران مختلف مورد جستجو قرار می‌گیرد، موضوع جالبی برای پژوهش است، و در واقع، اطلاع‌سنجی روش‌هایی را برای شروع پژوهش در وب ارائه می‌کند. هرچند یک نفر باید با درخواست پیوسته از پایگاه‌های اطلاعاتی استنادی کنترل شده توسط مؤسسه اطلاعات علمی۱۲ آگاه شود، برای مثال، از طریق زبان دستور۱۳ پایگاه اطلاعاتی دایالوگ. گردآوری داده‌ها در محیط وب، به ویژگی‌ها و خصوصیات بازیابی موتورهای کاوش مختلف و روبات‌های وب، بستگی دارد. پیش از ظهور دستور set posting on در پایگاه اطلاعاتی دایالوگ۱۴ در طی دهه ۱۹۹۰، محاسبه استنادها به صورت پیوسته امکان پذیر نبود. یک نفر باید تمام مدارک استناد شده را جهت تحلیل به صورت محلی، به منظور شمارش تعداد واقعی استنادها در فضای اطلاعاتی تعریف شده به وسیله موسسه اطلاعات علمی، بارگذاری (فروفرستی) می کرد. امروزه این حالتی است که در اکثر موتورهای وب وجود دارد که روسو در سال‌های ۱۹۹۷ و ۱۹۹۹ آن را اثبات کرد. این موتورها کل وب را نمایه‌سازی نمی‌کنند، همپوشانی آنها قابل توجه نیست (لارنس و گیلز، ۱۹۹۹) و ویژگی‌های بازیابی آنها برای تحلیل‌های وب‌سنجی گسترده پیوسته۱۵ بسیار ساده است. بنابراین، نمونه‌گیری بسیار مهم و حساس است، ولی اجرای آن مشکل است و پالایش آن ضروری است، به همین جهت مهندسی مجدد و پاکسازی اطلاعات در تحلیل‌های وب‌سنجی عنصری مهم است.

این مقاله به برخی از پژوهش‌های اخیر که عملکرد و پوشش موتورهای وب را به عنوان چارچوبی برای تحلیل‌های گزینشی کیفیت و محتوا مورد توجه قرار داده اند، اشاره می‌نماید و سپس ما به دنبال تحلیل سایت‌ها (پیوندها) ۱۶ مانند تحلیل «پیوند-صفحه»۱۷ در اصطلاحات روسو (۱۹۹۷) و مطالعات عامل تأثیرگذار وب هستیم. تلاش‌هایی به منظور فراهم کردن مسیرهای جدید خروجی (برون رفت) وب‌سنجی از طریق اجرای کشف دانش و ردیابی موضوع، به عنوان مثال به وسیله ساختار پیوندهای متقاطع و پیوندهای ضعیف، در نتیجه‌گیری مقاله مورد بحث قرار گرفته اند.

● پژوهش‌های کیفی و پوششی موتورهای وب

لورنس و گیلز (۱۹۹۸) مقاله‌ای بنیادی نوشتند که در آن پوشش موتورهای کاوش تجاری در محیط وب را با معرفی محتوای ‍وب قابل نمایه‌سازی»۱۸، مدنظر قرار دادند. مفهوم وب قابل نمایه‌سازی بر بخشی از وب که می‌تواند با موتورهای کاوش نمایه شود به استثنای اسناد و مدارک پایگاه‌های اطلاعاتی، مانند دایالوگ، دلالت دارد. آزمون گسترده‌ای که در دسامبر ۱۹۹۷ بین ۶ موتور کاوش برتر تجاری اصلی یعنی: آلتاویستا، هات بات، نورثرن لایت، اینفوسیک، لیکوس و اکسایت انجام گرفت، سطح پایینی از قابلیت نمایه‌سازی وب در حدود ۳۲۰ میلیون صفحه را نشان داد. این پژوهش همچنین نشان داد که پوشش هر یک از موتورها به صورت قابل ملاحظه‌ای، با نمایه‌سازی یک سوم «وب قابل نمایه‌سازی» محدود شده‌است.

احتمالاً دلایل زیادی برای این نتیجه‌گیری وجود دارد. به عنوان مثال، عمق و جامعیت نمایه‌سازی در خدمت دهنده۱۹‌های محلی بازدید شده به وسیله موتورهای کاوش به چگونگی سازماندهی و ساختار یک سایت، که ممکن است خروجی بازیابی را تحت تأثیر قرار دهد بستگی دارد، همان طور که ممکن است روش نمایه‌سازی، واژه‌های پرسش (سؤال) را تحت تأثیر قرار دهد. برای مثال، از طریق کوتاه‌سازی تحمیلی۲۰ مدارک وبی طولانی، تلاش‌های دیگری نیز برای ارزشیابی موتورهای وب انجام شده است، مثلاً مشاهده کیفیت فهرست‌های رتبه بندی شده مدارک وب که به وسیله موتورهای اصلی بازیابی شده‌اند (کورتوا و بری، ۱۹۹۹).

در کنار سایر یافته‌ها، این مقاله در مورد دانش کم و بیش در دسترس عموم و درباره ویژگی‌های مختلف نمایه‌سازی و بازیابی که به وسیله هر یک از موتورها استفاده شده است، بحث می‌کند. روش ارزیابی موتورهای وب به وسیله کلارک و ویلت۲۱ (۱۹۹۷) که آلتاویستا، لیکوس و اکسایت را با هم مقایسه نمودند، مطرح شده است. علاوه براین، آن مقاله، ارزیابی انتقادی از پژوهش‌های پیشین را نشان داده و روشی واقع‌بینانه و معقول را که شامل اندازه‌گیری جامعیت نسبی است، فراهم می‌کند. همچنین آن مقاله نتیجه گرفت که آلتاویستا به صورت قابل ملاحظه‌ای بهتر از لیکوس و اکسایت عمل کرده است. اُپنهایم۲۲ و دیگران (۲۰۰۰) پژوهشی مشروح و روزآمد درباره ارزیابی موتورهای کاوش وب، شامل بحثی در باب روش‌های آزمون، فراهم نمودند. در حالی که بسیاری از مطالعات ارزیابی و پوششی به ربط و تعداد صفحات وب در یک زمان معین توجه می‌کنند، سایر تحلیل‌های انتقادی، بازیابی پیوند- صفحه را در بر می گیرند (سیندر و رزن‌باوم، ۱۹۹۹) و یا پژوهش‌های ساختاری یا پوششی وب مبتنی بر سری‌های زمانی۲۳ را پوشش می دهند. اسنایدر و روزنبوم نیز مانند اینگورسن(۱۹۹۸) ناهماهنگی‌ها و تفاوت‌های زیادی را به ویژه در رابطه با بازیابی پیوند-صفحه موتور آلتاویستا مشاهده کردند. بی نظمی‌های آن موتور را همچنین بار- ایلان (۱۹۹۹) در یک مطالعه طولی۲۴ و نیز روسو (۱۹۹۹) کسی که دو موتور آلتاویستا و نورثرن لایت را طی ۲۱ هفته به صورت روزانه در طی سال ۱۹۹۹ مورد مقایسه قرار داده بود، گزارش کرده‌اند.

مطالعه بعدی از سه واژه مفردِ عام یکسان به عنوان پرسش (واژه‌های جستجو) در طولِ مدت ارزیابی استفاده کرد. در حالی که نورثرن لایت، همان طور که پیش‌بینی شده بود، یک افزایش ثابت و منظم از موفقیت‌های همزمان با گسترش وب را نشان می داد، آلتاویستا در شکل(فرم) بسیار ثابت و جدیدی مجدداً آغاز به کار کرد و گوناگونی و تغییرات زیادی را در طول زمان تا یک تاریخ به خصوص (۲۵ اکتبر۱۹۹۹) نشان می داد. در آن تاریخ تعداد صفحات وب بازیابی شده به طور چشمگیری همراه با این تأثیر شبه نو اختر۲۵ مبتنی بر پرسش افزایش یافت (روسو، ۱۹۹۹، ص۵). بعدها تا حدودی احتمالاً به علت حذف پیوند-صفحه‌های غیرفعال و خاموش، این تعداد کاهش یافت.

روسو هنوز استفاده از یک صافی میانه را برای کاهش تأثیر گوناگونی نتایج در آن موتور خاص پیشنهاد می‌کند. نتیجه دیگر آن مطالعه این است که نتایج عوامل تأثیرگذار وب که اینگورسن در سال ۱۹۹۸ منتشر کرد احتمالاً بسیار مشکوک و غیرقابل اطمینان هستند، چون که نتایج مجموعه داده‌های او، هم برای صفحات وب و هم برای صفحات پیوند درونی از نسخه بی ثبات و قدیمی آلتاویستا ناشی شده است. دلیل این که چرا کانون تمرکز روی آلتاویستا قرار دارد، این است که موتور کاوش آلتاویستا به طور وسیعی وب را پوشش می دهد و بدین نحو شرایط جستجوی مناسبی را برای مطالعات اطلاع‌سنجی وب فراهم می‌کند. سری‌های(توالی) زمانی به نظر می رسد، به عنوان وسیله‌ای که نمایشگر عملکرد موتور وب است بسیار مفید باشد.

● کیفیت و ویژگی‌های صفحه وب

مطابق نظر کرونین و مک کیم، وب در حال تغییر شکل روش‌هایی است که از طریق آنها محققان با یکدیگر ارتباط برقرار کنند. انواع جدیدی از انتشارات علمی و آثار دست اول (از قبیل تحقیقات در حال اجرا، آثار آماده چاپ و پیش نویس های قدیمی) پدیدار شده‌اند. امروزه آثار در حال اجرا، اعلامیه‌های دیواری، طرح های مقدماتی پیشین و مقاله‌های داوری شده تقریباًً بلافاصله قابل اشتراک هستند. پدیدآورندگان می‌توانند میان پخش محدود و پخش گسترده، انتخاب کنند و بررسی دقیق از حالت مخفی به سمت نشان دادن طیفی از قابلیت‌ها شکل گرفته است (کرونین و مک‌کیم، ۱۹۹۶، ص۱۷۰). این عقیده و تصور هم اکنون واقعیت است. بنابراین، تحلیل‌های وب‌سنجی ماهیت، ساختارها و ویژگی‌های محتوایی سایت‌ها و صفحات وب و همچنین ساختار پیوندها به منظور درک بزرگراه‌های مجازی و ارتباطات درونی آنها مهم هستند.

لارسون (۱۹۹۶) یکی از اولین متخصصان اطلاع رسانی بود که یک تحلیل مقدماتی درباره ساختار فکری و عقلانی فضای مجازی۲۶ اجرا نمود. چندی بعد، آلمایند و اینگورسن (۱۹۹۷) روش‌های متنوعی شبیه کتابسنجی را برای بخش‌های شمالی وب۲۷ به منظور مشاهده انواع اتصالات۲۸(پیوندهای) صفحه و تعریف نوع شناسی۲۹ صفحات وب که عملاً در سطح کشورهای شمالی پیدا شده‌اند، به کار بردند. روش پژوهش، شامل نمونه‌گیری طبقه‌ای از صفحات وب و بارگذاری به منظور تحلیل محلی بود. در میان یافته‌های جالب توجه، این تحلیل‌ها نشان داده‌اند که هر صفحه وب قادر به پیوند بیرونی، تقریباًً به طور متوسط ۹ پیوند بیرونی فراهم می کند. تناسبی که امروزه در رشد تصاعدی فضای وب حفظ می‌شود. این مقاله، همچنین تلاش کرده است مقایسه‌ای میان بخش صفحات وب علمی ارزیابی شده و پراکندگی یافته شده در نمایه‌های استنادی میان کشورهای شمالی را انجام دهد. مسلماً، دامنه دید روی وب از نمایش در پایگاه‌های اطلاعاتی استنادی کاملاً متفاوت است. برای مثال نروژ، در زمان انجام این تحلیل در سطح وب نسبت به دنیای چاپ بسیار مشهورتر بود. اهمیت ویژه صفحه‌های خانگی شخصی به وسیله بتس و لو۳۰ (۱۹۹۷) و نیز توسط واین و کتز۳۱ (۱۹۹۷) نشان داده شده است که عمدتاً روی صحنه فضای مجازی ایالات متحده آمریکا متمرکز شده است که بعدها برای مثال توسط دیلون و گوشروسکی۳۲ (۲۰۰۰) پیگیری و دنبال شده است.

به طور آشکار این دستاورد و پیشرفت به هرکسی اجازه می دهد تا مسائل خود را عملاً و بدون نظارت مقامات صلاحیت دار بیان نماید و همچنین از طریق ایجاد پیوند به صفحاتی که یک شخص می خواهد متصل شود، به خاطر وجود پیوند به آن صفحات، اعتبار کسب کند و نیز موجب فراهم کردن امکان دسترسی به داده‌ها، اطلاعات، ارزش‌ها، و دانش در شکل‌ها و مقادیر متعددی شود و آزادی اطلاعات را حتی در مناطق و کشورهایی که زیرساخت ضعیفی دارند، ایجاد کند. روی دیگر سکه این است که وب، بیش از پیش به محیطی نامطمئن و قابل شک برای استفاده کنندگانش تبدیل شده است؛ خط قرمز باریک موجود میان پیچیدگی، حقیقت تاریک و مبهم، اطلاعات غلط، عقاید، نظرات، تصورات یا تأملات و پایایی، کیفیت، روایی، ربط یا حقیقت، به طور روزافزونی کمتر شده است و این عین واقعیت است. باستان شناسی وب۳۳، در آینده دست در دست روش‌ها و تحلیل‌های وب‌سنجی پیش خواهد رفت.

در حال حاضر ارزیابی و مشاهده کیفیت، بسیار مورد نیاز است؛ به ویژه حوزه‌های پزشکی و بهداشت، زمینه‌های مهمی به منظور پژوهش برای چنین موضوع هایی هستند. لی کوی۳۴ اخیراً استفاده از روش‌های تحلیل استنادی روی وب را برای مشخص کردن سایت‌های پیوند درونی شده پُربسامد و همپوشانی در زمینه اطلاعات پزشکی (۱۹۹۹) ابداع نموده است. آلن و دیگران نیز به اعتبار و ربط صفحات وب مرتبط به هم توجه کرده‌اند. در مقاله کوی، یک نفر به سایر مطالعات اخیر موضوعات هنر و بهداشت روی وب، ارجاع داده است به این دلیل که تحلیل استنادی وب به عنوان یکی از شاخص های اساسی کیفیت به کار برده شده است (اشن‌باخ، ۱۹۹۸).

توزیع برادفورد از هزاران پیوند خاطر نشان شده از سوی ۲۵ دانشکده از بهترین دانشکده‌های پزشکی آمریکا به عنوان پیوندهای قوی، توسط کوی، به منظور نشان دادن سایت‌های هسته۳۵ مربوط به موضوع های خاص بهداشت به کار برده شده است. مقاله آلن و دیگران، یک پژوهش کارشناسانه درباره پایایی وب‌سایت‌های علمی است. همانند موردی که برای مطالعه طولی روسو (۱۹۹۹) که در بالا ذکر شد، این پژوهش پیمایشی مبتنی است بر بازیابی سایت‌ها مطابق با سه سؤال نمونه درباره: ۱. ارزیابی ۲. نظام تعریف شده به شکل ژنتیکی ۳. گونه‌های در معرض خطر.

برای هر پرسش۳۶،۵۰۰ وب‌سایت، نخست به طور متوالی و پی در پی و مستقل توسط دو داور متخصص بررسی شدند. تقریباً ۶۰ سایت حاوی اطلاعات مربوط به موضوع بود. این روش شبیه روشی است که در آزمایش‌های جهانی اخیر ارزیابی «بازیابی اطلاعات در کنفرانس بازیابی متن»۳۷ استفاده شده است. این ۶۰ سایت موضوعی برای هر پژوهش پس از بررسی با عناوین ذیل امتیاز بندی شدند:

- نادرست۳۸: اگر آنها واقعاً حاوی اطلاعات اشتباه بودند.

- گمراه کننده۳۹: اگر آنها علم را غلط تعبییر نموده بودند یا به طور وقیحانه‌ای حقایقی را که یک موقعیت مخالف را تأیید می کرد، حذف کرده بودند.

- بی مأخذ۴۰: اگر آنها اطلاعات را بدون هیچ گونه مأخذ بررسی شده دقیق ارائه کرده بودند.

امتیاز آخر (یعنی بی مأخذ) کاملاً عینی و مشخص است. در مجموع، مقدار امتیازهای مورد توافق داوران به منظور امتیازبندی مقو له‌های نادرست و گمراه کننده به این شرح بودند: ۸/۸۷ درصد برای سایت‌های ارزیابی، ۸/۸۲ درصد برای سایت‌های نظام تعریف شده به شکل ژنتیکی و ۶/۷۳ درصد برای وب‌سایت‌های گونه‌های در معرض خطر بازیابی و ارزشیابی شدند. سایت‌های بی مأخذ برای هر سؤال، بیش از ۴۸ درصد محاسبه شدند.

این نتایج علت شک و تردید در مورد قابلیت اعتمادِ اطلاعات را تصدیق می‌کنند. ورودیها و کتابخانه‌های کاملاً رقومی به راستی ممکن است -مانند پایگاه‌های اطلاعاتی علمی متنی سنتی- بازبینی اطلاعات دقیقاً بررسی شده معتبر را پیشنهاد نمایند و مانند زمینه‌ای برای تحلیل‌های وب‌سنجی عمل کنند.

● مطالعات عوامل تأثیرگذار وب

روسو (۱۹۹۷) در مقاله وب‌سنجی معروفش، درباره «پیوند به سایت‌ها»۴۱، یعنی پیوندهای درونی، الگوهای توزیع وب سایت‌ها و پیوندهای در حال آمدن۴۲ را مورد تحلیل قرار داد. روسو هم مانند اینگورسن (۱۹۹۸) از نسخه قدیمی آلتاویستا استفاده کرده‌است، مطالعه‌اش را با ۳۴۳ سایت بارگذاری شده (نقاط داده‌ای۴۳) که از طریق یک کاوش درباره «اطلاع‌سنجی یا کتابسنجی یا علم‌سنجی» بازیابی شده بودند، انجام داد. بنابراین، این تحلیل از ویژگی‌های موتور وب مستقل تر و قوی‌تر است. مطالعه نشان می دهد که توزیع حوزه‌های سطح بالا برای این سایت‌ها از توزیع لوتکا پیروی می‌نماید. به طور مشابه، روسو نشان داد که توزیع استنادی آن ۳۴۳ سایت نیز از توزیع لوتکا۴۴ پیروی می‌کنند و نسبت خود-پیوندها۴۵ را ۳۰ درصد برآورد کرده است.

تفاوت میان پیوندها و پیوند- صفحه‌ها به وسیله اینگورسن (۱۹۹۸) در اقدام او برای محاسبه عوامل تأثیرگذار وب برای حوزه‌های ملی۴۶ و سایت‌های شخصی نشان داده شده است. پیش از اینگورسن، رودریگوز گایرین (۱۹۹۷) مفهوم «تأثیر اطلاعات روی اینترنت» را در مجله اسپانیایی دکومانتاسیون، معرفی کرده است. عقیده و نظر اساسی این بود که عوامل تأثیرگذار وب ممکن است درباره آگاهی یا شناخت از سایت‌های ملی (به طور میانگین) یا سایت‌های شخصی اطلاع دهند. این مطالعه به سه نتیجه جالب دست یافت:

۱) موتور کاوش آلتاویستا نمی‌تواند تعداد واقعی پیوندهای درونی به سایت‌های خاص را محاسبه نماید، بلکه فقط تعداد صفحاتی را که حداقل یک پیوند درونی (یا پیوند به سایت) در بر دارند، محاسبه می کند. در مجموع، «خود-پیوندها»۴۷ عوامل‌تأثیرگذار وب ‌را ‌تحت تأثیر قرار نخواهند داد. بنابراین، پیوندهای درونی‌خارجی۴۸ برای مشاهده دارای اهمیت خاصی هستند. میانگین نمره و امتیاز «خود- پیوند» در مطالعه اینگورسن تقریباً ۵/۰ و حوزه‌هایی با پسوند «com» ۵۹/۰ بوده است. به طور میانگین عوامل تأثیرگذار «پیوند- صفحه» خارجی ۳۹/۰ بود.

۲) عوامل تأثیرگذار وب برای وب‌سایت‌های شخصی، غیرواقعی‌تر از آن حوزه‌ها بود.

۳) در این محاسبات، واریانس ابزار ارزشیابی موتور وب بود.

همچنین مسئله اخیر، واریانس، استفاده از روش‌های کاملاً پیچیده را برای محاسبه کردن عوامل تأثیرگذار و معرفی تنظیم پرسش مشروح پیشنهاد می کند. همان طور که قبلاً روسو (۱۹۹۹) نشان داد موتور کاوش آلتاویستا در زمان تحلیلِ عوامل تأثیرگذار وب در مقایسه با نسخه بعدی اکتبر ۱۹۹۹ واقعاً بی ثبات بود. بنابراین، محاسبات عوامل تأثیرگذار وب ممکن است به عنوان شاخص عملکرد موتور کاوش عمل نماید. در مجموع، دلیل استفاده کردن از موتور آلتاویستا، پوشش و توانایی‌های دستور بازیابی آن، برای جستجوی «صفحات حوزه» در روش‌های کنترل شده و نیز پیوند- صفحه‌ها بود.

در رابطه با نتیجه دوم مطالعه اینگورسن درباره بی ثباتی و نوسان زیاد عوامل تأثیرگذارِ وب‌سایت‌های شخصی، اسمیت (۱۹۹۹) و همچنین ثلوال۴۹ (۲۰۰۰) در مورد این پدیده، بیشتر پژوهش کردند. متأسفانه هنوز (۱۹۹۹) نسخه بی ثبات آلتاویستا به کار می رود. با این وجود، دقیقاً به علت نوسانات مشاهده شده، آنها هر دو در مورد خصوصیات و ویژگی‌های بازیابی و پوششی موتورها مشکوک شده‌اند. با توجه به این که نتایج پایدار بوده‌اند و غیره، شاید خیلی ضروری نباشد که روش شناسی فوراً مورد سؤال قرار گیرد.

اسمیت (۱۹۹۹) برخی روش‌های گردآوری داده‌های قوی و دوره‌ای را بیان می کند و همچنین نشان می دهد که چگونه نتایج به دلیل بازیابی صفحات نامربوط تحریف می‌شوند. برای مثال اندونزی (کد حوزه آن id) عوامل تأثیرگذار وب را به علت بازیابی عنصر جاینمای جهانی منبع۵۰ id در تعداد زیادی از سایت‌های غیراندونزیایی خیلی بالا نشان می دهد. وی همچنین نشان دادکه رشته‌های جاینمای جهانی منبع طولا نی‌تر به منظور نتیجه قابل اعتمادتر جستجو شده‌اند. بافت این رشته‌ها باید منحصربه فرد بودن آنها را تأیید کند. با وجود این، مطالعات منتشر نشده بعدی درباره پوشش واقعی موتورها -از جمله آلتاویستا- با توجه به صفحات و پیوندهای شناخته شده دانشکده کتابداری کوپنهاگ دانمارک روی خدمت دهنده محلی ( http://ix.db.dk) نشان می دهد که آنها به تمام صفحات و پیوندها نفوذ نمی‌کنند. این نتیجه منفی را ثلوال (۲۰۰۰)-که موتورهای کاوش‌هات بات، آلتاویستا و اینفوسیک را در تحلیل‌هایش به کار برده است- تأیید می‌کند. در چنین شیوه‌ای که مخرج و صورت کسرِ عوامل تأثیرگذار وب به همان روش‌ها تحت تأثیر قرار داده شده است، این پوشش تصادفی نیست. به طور خلاصه در وضع حاضر، روش‌های بازیابی و پوشش موتور کاوش «مفهوم اخیر عوامل تأثیرگذار وب عملاً در ابزار نسبتاً ساده و ابتدائی ظاهر شده‌اند» (تل‌وال، ۲۰۰۰، ص۱۸۸). بدین ترتیب پیامدها و نتایج بسیار مشکل آفرین هستند و همان طور که روسو (۱۹۹۹)، اسمیت (۱۹۹۹) و ثلوال (۲۰۰۰) بیان کرده‌اند، یک نفر باید روبات‌های اختصاصی وب را برای بارگذاری کردن نمونه‌ها به منظور تحلیل‌های محلی به کار برد.

سپاسگزاری

از پروفسور پیتر اینگورسن و دکتر لُنارت بجورن بُرن که طی نامه مورخه ۲۰ مه ۲۰۰۳ اجازه ترجمه مقاله حاضر را دادند و ما را راهنمائی فرمودند، بسیار سپاسگزاری می‌شود.

پی نوشت‌ها

۱.Link structure

۲.Almind and Ingwersen

۳.Cybermetrics

۴.Outlinks

۵.Inlinks

۶.Reference

۷.Citation analysis

۸.Domain

۹.Web search behavior

۱۰.Common data

۱۱.Text mining

۱۲.ISI: Institute of Scientific Information

۱۳.Command language

۱۴.Dialog

۱۵.Online

۱۶.Sitation analysis

۱۷.Link-page

۱۸.Indexable web

۱۹.Servers

۲۰.Imposed truncation

۲۱.Clarke and Willett

۲۲.Oppenheim

۲۳.Time series

۲۴.Longitudinal study

۲۵.Nova-like

۲۶.Cyberspace

۲۷.Nordic portion of the web

۲۸.Connections

۲۹.Typology

۳۰.Bates and Lu

۳۱.Wynn and Katz

۳۲.Dillon and Gushrowski

۳۳.Web archaeology

۳۴.Lei Cui

۳۵.Central sites

۳۶.Query

۳۷.TREC IR: Text Retrieval Conference Information Retrieval

۳۸.Inaccurate

۳۹.Misleading

۴۰.Un-referenced

۴۱.Sitations

۴۲.Incoming links

۴۳.Data points

۴۴.Lotka distribution

۴۵.Self-sitations

۴۶.National domains

۴۷.Self-linking

۴۸.External inlinking

۴۹.Thelwall

۵۰.URL element

۵۱.Knowledge discovery in databases (KDD)

۵۲.Nontrivial extraction of implicit

۵۳.Textural data mining

۵۴.Etzioni

۵۵.Multi-agent

۵۶.Metadata

۵۷.Web mining

۵۸.De Jong and Rip

۵۹.Strong ties

۶۰.Web communities

۶۱.Topic distillation

۶۲.Time Berners-Lee

۶۳.Conseil Europeen Pour la Recherche Nucleaire (CERN)

۶۴.Vertices

۶۵.Edges

۶۶.Hyperlinks

۶۷.Bow tie

۶۸.Web crawl

۶۹.Bowtie knot

۷۰.Random graphs

۷۱.Watts and Strogats

۷۲.Nematod worm

۷۳.Kochen

۷۴.Scientific domains

۷۵.Co-term

۷۶.Heterogeneous web clusters

۷۷.Creativity simulation

۷۸.Trail

۷۹.Vannervar Bush

۸۰.Cross-linking

۸۱.Boundary crossings

۸۲.Research fronts

۸۳.Cross-disciplinary

۸۴.Invisible colleges

۸۵.Crossing scientific boundaries

۸۶.Random walk

۸۷.Path analysis

۸۸.Co-occurrence

۸۹.IP-numbers

۹۰.Undiscovered public knowledge

۹۱.Pathways

۹۲.Co-citation

۹۳.Qin and Norton

۹۴.Co-link analysis of outlinks co-occurring

۹۵.Transitive relations

۹۶.Raynaud’s disease

۹۷.Blood platelets

۹۸.literature-based knowledge discovery

۹۹.Systematic serendipity

۱۰۰. Valdes-Perez

۱۰۱.Issues management

۱۰۲.Wormell

۱۰۳.Acid rain

۱۰۴.Bar-Ilan and Peritz

۱۰۵.Field codes

۱۰۶.Harvesting

۱۰۷.Visualisation/Navigation features of browsers

منابع

E.S. Allen, J.M. Burke, M.E. Welch, L.H. Rieseberg (۱۹۹۹). How reliable is science information on the Web? Science, ۴۰۲: ۷۲۲.

T. Almind, P. Ingwersen (۱۹۹۷). Informetric analyses on the World Wide Web: Methodological approaches to “Webometrics”, Journal of Documentation, ۵۳: ۴۰۴-۴۲۶.

J. Bar-Ilan (۱۹۹۸). The mathematician, Paul Erdos (۱۹۱۳-۱۹۹۶) in the eyes of the Internet, Scientometrics, ۴۳: ۲۵۷-۲۶۷.

J. Bar-Ilan (۱۹۹۹). Search engine results over time: A case study on search engine stability, Cybermetrics, ۲/۳, paper ۱. ISSN: ۱۱۳۷-۵۰۱۹

( http://www.cindoc.csic.es/cybermetrics/articles/v۲i۱p۱.html ; visited ۰۸.۱۱.۲۰۰۰).

J. Bar-Ilan (۲۰۰۰). The Web as an information resource on informetrics? A content analysis, Journal of the American Society for Information Science, ۵۱: ۴۳۲-۴۴۳.

J. Bar-Ilan, B.C. Peritz (۱۹۹۹). The life span of a specific topic on the Web. The case of “informetrics”: A quantitative analysis, Scientometrics, ۴۶: ۳۷۱-۳۸۲.

M. Bates, S. Lu (۱۹۹۷). An exploratory profile of personal home pages: Content, design, metaphors, Online & CDROM Review, ۲۱: ۳۳۱-۳۴۰

D. Bawden(۱۹۸۶). Information systems and the stimulation of creativity, Journal of Information Science, ۱۲: ۲۰۳-۲۱۶.

T. Berners-Lee (۱۹۹۷). Realising the full potential of the Web. World Wide Web Consortium. ( http://www.w۳.org/۱۹۹۸/۰۲/Potential.html ; visited ۰۸.۱۱.۲۰۰۰).

K. Bharat, M. Henzinger (۱۹۹۸). Improved algorithms for topic distillation in a hyperlinked environment. In: Croft, W. B. et al.(Eds.). Proceedings of the ۲۱st annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM Press, pp. ۱۰۴-۱۱۱.

L. Björneborn (۲۰۰۰). Verdensvævet som ‘small-world’-netværk og mulighedsrum : omridset af en forståelsesmodel for transversale links på World Wide Web. [‘Small-World’ Web and Possibility Space: outlining a conceptual framework for transversal links on the WWW]. Master’s Thesis. Royal School of Library and Information Science, Copenhagen.

S. Brin, L. Page (۱۹۹۸). The anatomy of a large-scale hypertextual Web search engine, WWW۷ Conference. ( http://www-db.stanford.edu/~backrub/google.html ; visited ۰۸.۱۱.۲۰۰۰).

A. Broder et al. (۲۰۰۰). Graph structure in the Web, WWW۹ Conference.

( http://www.almaden.ibm.com/cs/k۵۳/www۹.final ; visited ۰۸.۱۱.۲۰۰۰)

V. Bush (۱۹۴۵). As we may think, The Atlantic Monthly, ۱۷۶ (July) ۶۴۱-۶۴۹.

S.J. Clarke, P. Willett (۱۹۹۷). Estimating the recall performance of Web search engines, Aslib Proceedings, ۴۹: ۱۸۴-۱۸۹.

M.P. Courtois, M.W. Berry (۱۹۹۹). Results ranking in Web search engines, Online, (May/June) ۳۹-۴۶.

B. Cronin, G. McKim (۱۹۹۶). Science and scholarship on the World Wide Web: A North American perspective, Journal of Documentation, ۵۲: ۱۶۳-۱۷۲.

L. Cui (۱۹۹۹). Rating health Web sites using the principles of citation analysis: A bibliometric approach. Journal of Medical Internet Research, ۱(۱) e۴ (ISSN: ۱۴۳۸-۸۸۷۱) ( http://www.jmir.org/۱۹۹۹/۱/e۴/index.htm ; visited ۰۸.۱۱.۲۰۰۰).

R. Davies (۱۹۸۹). The creation of new knowledge by information retrieval and classification, Journal of Documentation, ۴۵: ۲۷۳-۳۰۱.

H. de Jong, A. Rip (۱۹۹۷). The computer revolution in science: steps towards the realization of computer-supported discovery environments, Artificial Intelligence, ۹۱: ۲۲۵-۲۵۶.

A. Dillon, B.A. Gushrowski (۲۰۰۰). Genres and the Web: Is the personal home page the first uniquely digital genre? Journal of the American Society for Information Science, ۵۱: ۲۰۲-۲۰۵.

O. Etzioni (۱۹۹۶). The World-Wide Web: quagmire or gold mine?, Communications of the ACM, ۳۹: ۶۵-۶۸.

G. Eysenbach (۱۹۹۸). Towards quality management of medical information on the Internet: Evaluation, labelling, and filtering of information, British Medical Journal, ۳۱۷: ۱۴۹۶-۱۵۰۲.

U. Fayyad, G. Piatetsky-Shapiro, P. Smyth (۱۹۹۶). The KDD process for extracting useful knowledge from volumes of data, Communications of the ACM, ۳۹ (Nov.) ۲۷-۳۴.

N. Ford (۱۹۹۹). Information retrieval and creativity : towards support for the original thinker, Journal of Documentation, ۵۵: ۵۲۸-۵۴۲.

W.J. Frawley, G. Piatetsky-Shapiro, C.J. Matheus (۱۹۹۱). Knowledge discovery in databases: an overview, In: G. Piatetsky-Shapiro,W.J. Frawley (Eds.). Knowledge discovery in databases. Menlo Park, Cal.: AAAI Press.

E. Garfield (۱۹۶۶). The who and why of ISI, Essays of an Information Scientist, ۱ (۱۹۶۲-۷۳) ۳۳-۳۷. Originally printed in Karger Gazette, March ۵, ۱۹۶۶.

E. Garfield (۱۹۹۴). Linking literatures: An intriguing use of the citation index, Current Contents, ۲۱ (May ۲۳) ۳-۵.

D. Gibson, J. Kleinberg, P. Raghavan (۱۹۹۸). Inferring web communities from link topology, Proceedings of the ۹th ACM Conference on Hypertext and Hypermedia. ( http://www.cs.cornell.edu/home/kleinber/ht۹۸.pdf ; visited ۰۸.۱۱.۲۰۰۰).

M.S. Granovetter (۱۹۷۳). The strength of weak ties, American Journal of Sociology, ۷۸: ۱۳۶۰-۱۳۸۰.

P. Ingwersen (۱۹۹۸). The calculation of Web Impact Factors, Journal of Documentation, ۵۴: ۲۳۶-۲۴۳.

J.T. Klein (۱۹۹۶). Crossing boundaries: knowledge, disciplinarities, and interdisciplinarities, Charlottesville, Virg.: University Press of Virginia.

J.M. Kleinberg (۱۹۹۸). Authoritative sources in a hyperlinked environment, Proceedings of the ۹th annual ACM-SIAM Symposium on Discrete Algorithms, pp. ۶۶۸-۶۷۷.

M. Kochen (Ed.)(۱۹۸۹). The small world. Norwood, N.J.: Ablex Publishing Corporation.

F.W. Lancaster, J.-L. Lee (۱۹۸۵). Bibliometric techniques applied to issues management: A case study, Journal of the American Society for Information Science, ۳۶: ۳۸۹-۳۹۷.

R. Larson (۱۹۹۶). Bibliometrics of the World Wide Web: An exploratory analysis of the intellectual structure of cyberspace. In: S. Hardin (Ed.) Proceedings of the ۵۹th Annual Meeting of the American Society for Information Science, ۳۳: ۷۱-۷۸.

S. Lawrence, C.L. Giles (۱۹۹۸). Searching the World Wide Web. Science, ۲۸۰: ۹۸-۱۰۰.

P. Losiewicz, D.W. Oard, R.N. Kostoff (۲۰۰۰). Textual data mining to support science and technology management, Journal of Intelligent Information Systems, ۱۵: ۹۹-۱۱۹.

S. Milgram (۱۹۶۷). The small-world problem, Psychology Today, ۱: ۶۰-۶۷.

C. Oppenheim, A. Morris, C. Mcknight (۲۰۰۰). The evaluation of WWW search engines. Journal of Documentation, ۵۶: ۱۹۰-۲۱۱.

S.J. Pierce (۱۹۹۹). Boundary crossing in research literatures as a means of interdisciplinary information transfer, Journal of the American Society for Information Science, ۵۰: ۲۷۱-۲۷۹.

J. Qin, M.J. Norton (Eds.)(۱۹۹۹). Introduction (In issue: Knowledge Discovery in Bibliographic Databases). Library Trends, ۴۸ (Summer) ۱-۸.

J.M. Rodriguez i Gairin (۱۹۹۷). Volorando el impacto de la informacion en Internet: Altavista, el “Citation Index” de la Red. Revista Espanola de Documentacion Scientifica ۲۰ (۲): ۱۷۵-۱۸۱.

R. Rousseau (۱۹۹۷). Sitations: An exploratory study. Cybermetrics, ۱, paper ۱. ISSN: ۱۱۳۷-۵۰۱۹. ( http://www.cindoc.csic.es/cybermetrics/articles/v۱i۱p۱.html ; visited ۰۸.۱۱.۲۰۰۰).

R. Rousseau (۱۹۹۹). Daily time series of common single word searches in AltaVista and NorthernLight. Cybermetrics, ۲/۳ paper ۲. ISSN: ۱۱۳۷-۵۰۱۹. ( http://www.cindoc.csic.es/cybermetrics/articles/v۲i۱p۲.html ; visited ۰۸.۱۱.۲۰۰۰).

H. Small (۱۹۹۹). A passage through science: Crossing disciplinary boundaries, Library Trends, ۴۸ (Summer) ۷۲-۱۰۸.

A.G. Smith (۱۹۹۹). A tale of two web spaces: Comparing sites using web impact factors. Journal of Documentation, ۵۵: ۵۷۷-۵۹۲.

H. Snyder, H. Rosenbaum (۱۹۹۹). Can search engines be used as tools for web-link analysis? A critical view, Journal of Documentation, ۵۵: ۳۷۵-۳۸۴.

D.R. Swanson (۱۹۸۶). Undiscovered public knowledge, Library Quarterly, ۵۶: ۱۰۳-۱۱۸.

D.R. Swanson, N.R. Smalheiser (۱۹۹۷). An interactive system for finding complementary literatures: A stimulus to scientific discovery, Artificial Intelligence, ۹۱: ۱۸۳-۲۰۳.

D.R. Swanson, N.R. Smalheiser (۱۹۹۹). Implicit text linkages between Medline records: using Arrowsmith as an aid to scientific discovery, Library Trends, ۴۸ (Summer) ۴۸-۵۹.

M. Thelwall (۲۰۰۰). Web impact factors and search engine coverage, Journal of Documentation, ۵۶: ۱۸۵-۱۸۹.

R.E. Valdés-Perez (۱۹۹۹). Principles of human-computer collaboration for knowledge discovery in science’, Artificial Intelligence, ۱۰۷: ۳۳۵-۳۴۶.

B. Vickery (۱۹۹۷). Knowledge discovery from databases: an introductory review, Journal of Documentation, ۵۳: ۱۰۷-۱۲۲.

D.J. Watts (۱۹۹۹). Small worlds: the dynamics of networks between order and randomness, Princeton University Press, Princeton, N.J.

D.J. Watts, S.H. Strogatz (۱۹۹۸). Collective dynamics of ‘small-world’ networks, Nature, ۳۹۳ (June ۴) ۴۴۰-۴۴۲.

I. Wormell (۲۰۰۰). Critical aspects of the Danish welfare state - as revealed by issue tracking, Scientometrics, ۴۸: ۲۳۷-۲۵۰.

E. Wynn, J.E. Katz (۱۹۹۷). Hyperbole over cyberspace: Self-presentation and social boundaries in Internet home pages and discourse, Information Society, ۱۳: ۲۹۷-۳۲

Bjorneborn, Lennart & Ingwersen, Peter (۲۰۰۱). Perspectives of webometrics, Scientometrics, ۵۰(۱), p. ۶۵-۸۲.