دوشنبه, ۱۷ اردیبهشت, ۱۴۰۳ / 6 May, 2024
مجله ویستا

ارزیابی محتوای وب ایران از منظر دولت الکترونیک


ارزیابی محتوای وب ایران از منظر دولت الکترونیک
یكی از مفاهیمی كه در دهه اخیر به گونه ای بسیار گسترده در جوامع پیشرفته مورد بررسی قرار گرفته و حتی در بعضی مواقع با موفقیت به اجرا درآمده، مفهوم دولت الكترونیك است. هدف اصلی از پیدایش دولت الكترونیك، بسترسازی مناسب جهت دسترسی هر چه بهتر و بیشتر شهروندان به اطلاعات و خدمات دولتی، اصلاح كیفیت خدمات و ارائه فرصت های بیشتر برای مشاركت در فرایندها و نمادهای مردم سالار است.
از این‌رو تلاش برای نظارت بر وضعیت خدمات در دولت الكترونیك، از اهمیت بالایی برخوردار می‌باشد. در این مقاله، سیستم خودكاری برای ارزیابی دولت الكترونیك ایران، معرفی می‌شود. ارزیابی‌های این سیستم بر روی حدود یازده‌هزار سایت رجیستر شده در دامنه IRو در برگیرنده تمام سازمان‌های دولتی، وزارتخانه‌ها، شركت‌ها و دانشگاه‌ها و بالغ بر حدود دو میلیون صفحه، انجام شده‌است. هدف از این سیستم، استخراج شاخص‌های مختلف علمی برای ارزیابی دولت الكترونیك از قبیل توزیع محتوای سایت‌ها (علمی، خبری، دولتی، تجاری و وبلاگ)، حجم محتوای فارسی، سرویس‌های ارائه‌شده، درصد كدینگ‌های مختلف فارسی و غیره می‌باشد. از این آمار می‌توان جهت هدفمند نمودن برنامه‌های آتی در خصوص دولت الكترونیك، استفاده كرد.
۱) مقدمه
دولت الكترونیك[۱] یكی از پدیده های مهم حاصل از بكارگیری فناوری اطلاعات و ارتباطات[۲] است كه پیاده سازی آن، تحولی بس عمیق در نحوه زندگی، اداره و رهبری كشورها داشته و تركیبی از فناوری اطلاعات و شبكه اطلاع رسانی وب است كه هدف آن، ارائه مستقیم خدمات به شهروندان[۳]، كاركنان دولت[۴]، بخشهای تجاری[۵] و سایر بخش های دولت است. به عبارت دیگر "گونه‌ای از سازماندهی مدیریت دولتی به منظور افزایش كارایی، شفاف‌سازی، دسترس‌پذیری و پاسخگویی به شهروندان از طریق استفاده فراگیر و استراتژیك فناوری‌های اطلاعات و ارتباطات در مدیریت داخلی دولت و همچنین در برقراری ارتباط با شهروندان و كاربران خدمات عمومی" دولت الكترونیك نامیده می‌شود[۱]. با تحقق دولت الكترونیكی شهروندان می‌توانند وارد یك سایت اینترنتی شده، به آسانی خدمات و اطلاعات دولتی موردنیاز خود را یافته و از آن سایت برخط (online) برای انجام داد و ستد استفاده كنند. لذا در هزینه و زمان یك كشور صرفه‌جویی شده و باعث تولید چرخه اقتصادی به صورت كارا و مناسب خواهد شد.
طبق مدل گارتنر [۲] دولت الكترونیك از چهار فاز ظهور[۶]، تعامل[۷]، تراكنش[۸] و تبدیل[۹]، تشكیل شده‌است. شكل شماره یك، جزئیات و عناصر هر فاز را نشان می‌دهد.
هر فاز این مدل به چهار سطح فنآوری، فرآیند، مردم و راهبرد/خط‌مشی تقسیم شده است. در فاز ظهور سازمان های دولتی اطلاعات خود را در قالب وب سایت برای دسترسی مردم ارائه می‌كنند. سرویس هایی مانند موتور جستجوی محتوای وب‌سایت ها، پست الكترونیكی و مدیریت محتوا در فاز تعامل ارائه می‌شوند. در فاز تراكنش سرویس هایی مانند تجارت الكترونیكی شامل خرید و فروش به مردم ارائه می‌شود. در فاز نهایی یعنی تبدیل تمام سرویس های دولت تحت یك پرتال مركزی به مردم ارائه خواهد‌شد.
در حال حاضر، با توجه به اهمیت بالای دولت الكترونیك، یکی از چالش های مهمی‌كه ما با آن مواجه هستیم اطلاع از وضعیت كنونی سرویس های دولت الكترونیك می‌باشد. به عبارت دیگر، سازمان های كشور در هر كدام از چهار فاز ظهور ،تعامل،تراكنش و تبدیل، چند درصد پیشرفت داشته و چه سرویس‌هایی را ارائه می‌دهند. علاوه بر آن، به روشی برای ارزیابی فعالیت‌های انجام شده در این زمینه، نیاز مبرم می‌باشد. با ارزیابی كنونی دولت الكترونیك در ایران، بهتر می‌توان پروژه‌های آتی و مورد نیاز را تعریف و در نهایت ارزیابی كرد.
در برنامه پنج ساله چهارم توسعه شاخص ها و راهبردهایی برای تحقق دولت الكترونیك ارائه شده است. برای مثال جدول شماره یك، بعضی از این شاخص ها را در سال های مختلف نشان می‌دهد[۳].
بنابراین با توجه به اهمیت ارزیابی دولت الكترونیك پروژه‌ای تحت عنوان "ارزیابی وب ایران از منظر دولت الكترونیك "در سال ۸۵ شروع شد كه نتیجه فاز اول آن در این مقاله آورده شده است. در این مقاله سعی می‌شود تا حد ممكن، محتوای وب فارسی كشور را به صورت خودكار، تحلیل و ارزیابی كرد (ابزار نظارت خودكار) تا در همه برهه‌های زمانی، بتوان عمل ارزیابی را با كمترین هزینه انجام داد. لازم به ذكر است كه در این مقاله حدود ۱۱ هزار سایت با پسوند .IR كه شامل تقریبا دو میلیون صفحه است پردازش و آنالیز شده‌اند. البته تعداد وب‌سایت های فارسی بیش از این مقدار است ولی به دلیل این كه اكثر سازمان های دولتی دارای پسوند .IR هستند این مقدار برای ما كافی ‌می باشد. در نهایت هدف اصلی استخراج شاخص های زیر از دو دیدگاه "دولت الكترونیك" و "وب ایران" می‌باشد:
۱) آنالیز وب از دیدگاه دولت الكترونیك
۱-۱) چند درصد از سازمان‌ها دارای وب‌سایتی هستند كه درباره خودشان و خدماتشان اطلاع‌رسانی كنند(Presence)؟
ـ تعداد صفحات HTML هر سازمان
ـ درصد لینكهای معتبر
۱-۲) چند درصد سازمان‌ها به‌كاربران اینترنت اجازه می‌دهند كه به پایگاه‌های داده آنها دسترس داشته و داده‌ها را مورد استفاده قرار دهند (Interaction)؟
ـ موتور جستجوی محتوا
ـ تعداد فرم های الكترونیكی
ـ زمان دسترسی و محدوده زمانی
۲) سؤالات كلی درباره وب ایران
۲-۱) توزیع صفحات وب در ایران چگونه است (علمی، تجاری، روزنامه، خبر، وبلاگ و ...)؟
۲-۲) محتوای صفحات سایت ها از نظر محتوا چگونه ارزیابی
می شوند؟
ـ درصد كدینگ های مختلف استفاده شده چقدر است؟
ـ چند درصد از صفحات عنوان مناسب دارند؟
۲-۳) فایل های غیر متنی مانند PDF، PPT ،Doc و Image چند درصد از صفحات را تشكیل می‌دهند؟
۲-۴) نرخ به‌روزآوری، تغییر، ایجاد (عمر صفحه) چقدر می‌باشد؟
۲-۵) سرعت دسترسی به سایت چقدر است؟
۲-۶) تعداد دسترسی به سایت چقدر می باشد؟
۲-۷) تعداد كل صفحات فارسی، میانگین تعداد صفحات هر سایت و حجم آنها چقدر است؟
۲-۸. تعداد لغاتی كه در تمام صفحات محاسبه شده چقدر
می باشد؟
۲-۹) چند درصد صفحات شامل هردو محتوای فارسی و انگلیسی است؟
لازم به ذكر است در این فاز به دلایلی مانند پیچیدگی كار استخراج شاخص های مربوط به فازهای تراكنش و تبدیل به كارهای آینده موكول شده است. نتایج این مقاله را می توان در تعریف و پیاده سازی پروژه هایی مانند موتور جستجوی ملی، پرتال دولتی و ملی و ... استفاده كرد. به علاوه این پروژه در تدوین راهكارهای آینده جهت تحقق سریع دولت الكترونیك در كشور مفید فایده خواهد بود.
۲) كارهای مرتبط در داخل و خارج
تاكنون در داخل مكانیزم ارزیابی وب بدین صورت انجام نشده است. اما بعضی از كشورها كاری شبیه به این پروژه را انجام داده‌اند. برای مثال در تایلند پروژه‌ای تحت عنوان " ابزار نظارت خودكار بر پروژه دولت الكترونیك تایلند" [۴] انجام شده‌است. هدف این كار استخراج تمام شاخص های دولت الكترونیك از وب تایلند می‌باشد. به علاوه كارهای مشابه برای استخراج مشخصه های وب در كشورهای اسپانیا [۵] ، كره‌جنوبی [۶]، استرالیا[۷] ، پرتقال [۸] و اروپا [۹] انجام شده است. در فعالیت‌های فوق بیشتر وب كشورها از دیدگاه ساختاری و شكل گراف وب مورد بررسی قرار گرفته است و بعلاوه پارامترهایی مانند توزیع اندازه صفحات و سایتها، نرخ بروزآوری آنها، رتبه آنها در موتورهای جستجو و عمر صفحات مورد بررسی قرار گرفته ولی از منظر محتوا و سرویس های ارائه شده كاری انجام نگرفته است. در این مقاله علاوه بر استخراج پارامترهای فوق، از دید دولت الكترونیك نیز به وب ایران توجه‌گردیده است.
۳) سامانه خودكار ارزیابی وب ایران
در این قسمت، ابتدا معماری سیستم ارزیاب خودكار، تشریح می‌شود. هدف كلی این سامانه، مرور و بررسی تمام وب‌سایت‌ها اعم از دولتی و غیر دولتیِ رجیستر شده در دامنه.IR می‌باشد. شكل شماره دو شمای كلی این سامانه و تعامل اجزای آن را با یكدیگر، نشان می‌دهد.
همانگونه كه در شكل شماره دو، دیده می‌شود، ابتدا یك خزنده وب،‌ بر اساس یك لیست اولیه سایت‌های رجیستر شده در دامنه .IR كه از قبل تهیه شده ‌است، با توجه به پارامترهای تنظیم از قبیل عمق خزش، حداكثر صفحات سایت و غیره، خزش را با توجه به گراف حاصل از لینك‌ها، انجام می‌دهد و صفحات این سایت‌ها را در یك مخزن موقت، شاخص‌بندی و ذخیره می‌كند. در مرحله بعد، واحد تحلیل‌گر گراف وب، این مخزن را مورد بررسی قرار می‌دهد و آمارهای مختلفی را مورد ویژگی‌های گراف متناظر از قبیل قطر گراف، متوسط فاصله بین هر دو گره و غیره،‌ استخراج می‌كند (این قسمت در این مقاله، حذف شده‌است).
از سوی دیگر، واحد تحلیل‌گر محتوا با استفاده از پارسر HTML،‌ صفحات این مخزن را بررسی نموده و محتوا و داده‌های توصیفی آنها را استخراج می‌كند. داده‌های توصیفی استخراج‌شده به واحد گزارش‌گیر ارسال می‌شود تا آمارهای مختلفی نظیر درصد استفاده از كدینگ‌های مختلف، توزیع صفحات و سایت‌ها در طبقه‌بندی‌های مختلف، سرویس‌های ارائه شده نظیر جستجو،‌ امنیت و غیره، از آن حاصل شود. متن صفحات نیز در اختیار واحد تحلیل‌گر واژگان، قرار داده‌ می‌شود تا کلمات فارسی را از آن استخراج کند و در یک Lexicon ذخیره نماید و در همین حین، آمار کلمات و تکرار آنها برای هر یک از صفحات را در یک فایل متنی ذخیره می‌کند.
در ادامه این بخش به‌ترتیب، جزئیات ساختار اجزای مختلف از قبیل سامانه جمع‌آوری اطاعات، سامانه پردازش‌گر محتوا[۱۰] و سامانه پردازش‌گر زبانی[۱۱]، مورد بررسی قرار می‌گیرد.۳-۱) سامانه جمع‌آوری اطلاعات
جهت جمع آوری اطلاعات از خزنده وایر [۱۰, ۱۱] كه تحت لیسانس GPL و به صورت متن‌باز می‌باشد، استفاده شده‌است. علت استفاده از این خزنده دارا بودن خصوصیات زیر می‌باشد:
۱) کارآیی بالا با هزینه پایین :
این خزنده قادر است به صورت موازی به ۴۰۰ سرور به صورت همزمان متصل شود.
۲) پایداری[۱۲] :
در همه زمانها حالت کلی سیستم (حالت کلاس ها، پروسس ها ، صف هاو..). روی دیسک نگهداری می‌شود. لذا در صورت اشكال جمع‌آوری بقیه وب از آنجایی كه اشكال پیش آمده ادامه خواهد یافت.
۳) روش ارتباط[۱۳]:
خزنده استانداردهای Robot exclusion [۱۲] ،Robot.txt و تگ های متای روبوت ها را رعایت می‌كند.
۴) قابل مدیریت و برنامه ریزی[۱۴] :
این خزنده امکان تنظیم پارامترهایی مانند تعداد ارتباطاتی که همزمان می تواند داشته باشد، تعداد Threadهایی که با هم اجرا شوند، مکانیزم آوردن صفحات، نوع زمانبندی صف[۱۵] را دارا می‌باشد.
در ابتدا خزنده به عنوان نقطه شروع با ۱۰ آدرس سایت و اعمال محدودیت جمع‌آوری سایت های .IR شروع به كار می‌كند. پس از دو هفته اجرا حدود ۱۱ هزار سایت جدید با پسوند .IR كه شامل ۸ میلیون صفحه است كشف شده است. لازم به ذكر است كه فقط صفحاتHTML/XML/XHTML/TXT (شامل صفحات ایستا و پویا) در این فاز جمع آوری شده‌اند. صفحات جمع‌آوری شده در یك مخزن بزرگ كه به راحتی قابل دسترسی است جمع آوری شده و پس از استخراج شاخص های مربوطه و به واحد پردازش محتوا داده برای استخراج بقیه شاخص ها داده می‌شود.
با استفاده از آنالیز IP ‌های ۱۱ هزارسایت كشف شده فقط ۲۷% از این سایتها در داخل كشور قرار دارند و ۷۳% از آنها در سرورهای خارج از كشور هستند. لذا نیاز مبرم به یك مركز داده اینترنتی در داخل كشور بیش از پیش احساس می‌گردد.
۳-۲) سامانه تحلیل‌گر محتوا
در این قسمت، محتوای صفحات بازیابی‌شده، پردازش می‌شود و محتوا و داده‌های توصیفی[۱۶] آنها استخراج می‌شود.
روال كار بدین صورت است كه صفحات بازیابی‌شده توسط خزنده وب كه در یك پایگاه داده محلی، ذخیره می‌شوند، به‌ترتیب به یك پارسر [۱۷]ML، داده‌ می‌شوند و متن صفحات و داده‌های توصیفی آنها توسط یك پارسر جاوایی، استخراج می‌شود. متن صفحات پس از تبدیل به كدینگ UTF-۸ در یك فایل متنی، ذخیره می‌شود. داده‌های توصیفی كه شامل اطلاعات مختلف صفحات است بصورت Tag-based در یك فایل XML ذخیره می‌شود.
۳-۳) سامانه تحلیل‌گر واژگان
روال کار این قسمت، به این صورت است که متن صفحات وب را به عنوان ورودی دریافت و کلمات فارسی را از آن استخراج و در یک lexicon ذخیره كرده و در همین حین آمار کلمات و تکرار آنها برای هر یک از صفحات را در یک فایل متنی ذخیره می کند.
یکی از مسائلی که در جستجوی کلمات فارسی در وب مطرح می‌باشد، وجود شکل های متفاوت برای حروف "ی" و "ک" می باشد که سبب شده یک کلمه با اشکال مختلف ظاهر شود. از کارهایی که این برنامه انجام می دهد، تهیه آمار تعداد کلماتی که از حروف "ی" و "ک" فارسی و یا عربی استفاده کرده اند، می‌باشد. به عنوان مثال اگر کلمه "آبی" که حرف "ی" با کد u۰۶cc جستجو شود احتمالاً ۷۳/۳۷ درصد صفحات که شامل این کلمه هستند را بازیابی می کند و بقیه صفحات را از دست می دهد. لذا موتورهای جستجوی كنونی، موجب می‌شوند تا برخی مواقع، بیش از ۵۰% صفحات موجود، بازیابی نشوند. از این‌رو پیاده‌سازی یك موتور جستجو یا یك فراجویشگر[۱۸] فارسی برای جستجوی محتوای فارسی، از اهمیت بالایی برخوردار است.
۴) نتایج بدست‌آمده
ورودی سامانه تحلیل‌گر محتوا، بدین‌صورت انتخاب شد كه به‌ازای هر سایت، حداكثر بیست‌هزار صفحه مورد بررسی قرار گرفت. علت این امر این است كه سایت‌های با تعداد صفحات بالاتر، معمولاً‌ فقط سایت‌های خبری نظیر IRNA، ISNA، IRIB و غیره هستند. در این خصوص، آمار حاكی از آن است كه از حدود ۸ میلیون صفحه موجود در دامنه .IR حدود ۶ میلیون آن، مربوط به سایت‌های خبری است. لذا محتوای مناسب بجز خبر، تنها حدود ۲ میلیون صفحه است كه در مقابل بیشتر كشورها كه بیش از ۱۰۰ میلیون صفحه دارند، رقم بسیار كمی می‌باشد (به‌ عنوان مثال، دولت الكترونیكی كره جنوبی، شامل بیش از ۱۰۸ میلیون صفحه است).
بواسطه حجم محاسباتی بالای به‌منظور انجام ارزیابی‌های مختلف، یك جامعه آماری شامل حدود ۶۰۰ هزار صفحه، در نظر گرفته شد و بررسی‌های مختلف، روی این مجموعه، انجام شد.
برای تعیین انواع سایت‌ها، پنج طبقه‌ كلان: دولتی، خبری، علمی، تجاری و وبلاگ در نظر گرفته‌شد. شكل‌های شماره سه و چهار، به‌ترتیب توزیع طبقه‌بندی را بر اساس سایت‌ها و صفحات، نشان می‌دهد. همانطور كه مشاهده می‌شود، بیشترین محتوا، مربوط به سایت‌های خبری است؛ در حالی كه سایت‌های دولتی تنها حدود ۹% یعنی حدود ۱۸۰ هزار صفحه را شامل می‌شود كه نسبت به سایر كشورها رقم بسیار كمی است.
بیشترین كدینگ استفاده شده، UTF-۸ است و لذا موتورهای جستجوی فعلی بر مبنای یونیكد جستجو می‌كنند ولی با توجه به اینكه كه كدینگ‌های Windows-۱۲۵۲ و Windows-۱۲۵۶ نیز درصد قابل توجه‌ای را تشكیل می‌دهند، لازمست موتورهای جستجو این كدینگ‌ها را نیز نمایه‌سازی و جستجو كنند.
آمار مربوط به تعداد صفحات شامل RSS، WebService، Security، Search و نیز وجود فرم‌های الكترونیكی در جدول شماره چهار آمده است.
این ارقام، حاكی از آنست كه زمینه‌های یكپارچه‌سازی در دولت الكترونیك، بسیار ضعیف است و نیازمند توجه جدی دارد.
۵) نتیجه گیری و كارهای آینده
در این مقاله محتوای وب ایران با توجه به شاخص های دولت الكترونیك با استفاده از یك سامانه ارزیابی خودكار مورد ارزیابی قرار گرفته است. در این آزمایش ۱۱ هزار سایت با پسوند .IR كه شامل دو میلیون صفحه می‌باشد و بیشتر سازمانهای دولتی و غیر دولتی را پوشش می‌دهد، ارزیابی شده‌است. هدف اصلی استخراج شاخص های متناظر با دولت‌الكترونیك علاوه بر شاخصهای دیگرمی‌باشد. شاخص های استخراج شده شامل توزیع محتوای وب‌سایت‌ها ، حجم محتوای فارسی ، نوع محتوا ، سرویس های ارائه شده (جستجو، RSS و غیره) نرخ بروزآوری محتوا ، توزیع مكانی سایتها در داخل و خارج كشور وغیره می‌باشد. با انجام این پروژه بهتر می‌توان راهبردهای آینده مربوط به ICT را تعیین و تبیین كرد. از نتایج بارز این آمار عبارتند از: كم بودن حجم محتوای فارسی وب در مقایسه با سایر كشورها (نسبت ۱۰%) ، نیاز به یك مركز داده اینترنتی در كشور (۷۳%
سایت ها در خارج از كشور هستند)، نیاز به موتور‌های جستجوی بومی (محتوا بیشتر از كدینگ های عربی استفاده كرده است) ، كم بودن سرویس های دولت الكترنیك (جستجو، امنیت و غیره). علاوه بر موارد فوق خروجی هایی مانند مجموعه تمام لغات فارسی موجود در وب برای استفاده در خطایاب ها و موتورهای‌جستجو بدست آمده است. از خصوصیات این سامانه خودكار بودن آن می‌باشد كه در زمانهای مختلف می‌توان آنرا اجرا و آمارهای مورد نظر را استخراج كرد. برای كار‌های آینده ارزیابی محتوای فقط سازمان های دولتی و وزارتخانه‌ها در دستور كار قرار دارد. همچنین استخراج شاخص های دیگر دولت الكترونیك مد‌نظر می‌باشد.
امیر حسین كیهانی‌پور
علی‌محمد زارع بیدكی
مریم محمودی
محمد آزادنیا
پانوشتها:
[۱]e-Government
[۲] ICT
[۳] G۲C
[۴] G۲G
[۵] G۲B
[۶] Presence
[۷] Interaction
[۸] Transaction
[۹] Transformation
[۱۰] Content Processor
[۱۱] Lexical Processor
[۱۲] Robustness
[۱۳] Etiquette
[۱۴] Reconfigure-ability
[۱۵] Queuing Management
[۱۶] Metadata
[۱۷] Markup language
[۱۸] Meta-search engine
[۱۹] سن صفحه عبارت است از مدت زمان میان ایجاد یا تغییر محتوای صفحه و زمان فعلی
فهرست منابع:
[۱] http://www.mgtsolution.com/olib/۴۴۴۰۲۳۷۲۳.aspx, Oct. ۲۰۰۶.
[۲] www.gartner.com , Oct. ۲۰۰۶.
[۳] جعفر زارعی، محمد، "مفاهیم پایه فناوری اطلاعات و ارتباطات" ، شركت توسعه ارتباطات آتی‌نگر، دی‌ماه ۱۳۸۴.
[۴] Krootkaew C., Vongpakaymas A., Jeawpoung A., "Services E-readiness Explorer (SEE): Automatic Monitoring Tool for Thailand e-Government Project ", In Proceeding of EurAsia-ICT۲۰۰۲, Shiraz, Iran, Oct. ۲۰۰۲.
[۵] Baeza-Yates R., Castillo C. and López V., "Characteristics of the Web of Spain". Journal of Cybernetics, Vol. ۹, No. ۱, ۲۰۰۵.
[۶] Baeza-Yates, R. and Lalanne, F., "Characteristics of the korean web", Technical report, Korea–Chile IT Cooperation Center ITCC, ۲۰۰۴.
[۷] Rauber, A., Aschenbrenner, A., Witvoet, O., Bruckner, R. M. and Kaiser, M., "Uncovering information hidden in Web archives", D-Lib Magazine, Vol. ۸, No. ۱۲, ۲۰۰۲.
[۸] Gomes, D. and Silva, M. J., "A characterization of the Portuguese Web", In Proceedings of ۳rd ECDL Workshop on Web Archives, Trondheim, Norway, ۲۰۰۳.
[۹] Thelwall, M. and Wilkinson, D., "Graph structure in three national academic webs: power laws with anomalies", Journal of the American Society for Information Science and Technology, Vol. ۵۴, No. ۸, pp. ۷۰۶–۷۱۲, ۲۰۰۳.
[۱۰] http://www.cwr.cl/projects/WIRE/, Oct. ۲۰۰۶.
[۱۱] Baeza-Yates R. and Castillo C., "Balancing volume, quality and freshness in Web crawling", In Proceedings of Soft Computing Systems - Design, Management and Applications Conference, Santiago, Chile, IOS Press Amsterdam, pp. ۵۶۵– ۵۷۲, ۲۰۰۲.
[۱۲] Koster M., "A standard for robot exclusion", Available on http://www.robotstxt.org/wc/exclusion.html , ۱۹۹۶.
[۱۳] Krootkaew C., Vongpakaymas A., Jeawpoung A., "Services E-readiness Explorer (SEE): Automatic Monitoring Tool for Thailand e-Government Project ", In Proceeding of EurAsia-ICT۲۰۰۲, Shiraz, Iran, Oct. ۲۰۰۲.
منبع : نما مجله الکترونیکی پژوهشگاه اطلاعات و مدارک علمی ایران