یکشنبه, ۱۶ دی, ۱۴۰۳ / 5 January, 2025
مجله ویستا
ارزیابی محتوای وب ایران از منظر دولت الکترونیک
یكی از مفاهیمی كه در دهه اخیر به گونه ای بسیار گسترده در جوامع پیشرفته مورد بررسی قرار گرفته و حتی در بعضی مواقع با موفقیت به اجرا درآمده، مفهوم دولت الكترونیك است. هدف اصلی از پیدایش دولت الكترونیك، بسترسازی مناسب جهت دسترسی هر چه بهتر و بیشتر شهروندان به اطلاعات و خدمات دولتی، اصلاح كیفیت خدمات و ارائه فرصت های بیشتر برای مشاركت در فرایندها و نمادهای مردم سالار است.
از اینرو تلاش برای نظارت بر وضعیت خدمات در دولت الكترونیك، از اهمیت بالایی برخوردار میباشد. در این مقاله، سیستم خودكاری برای ارزیابی دولت الكترونیك ایران، معرفی میشود. ارزیابیهای این سیستم بر روی حدود یازدههزار سایت رجیستر شده در دامنه IRو در برگیرنده تمام سازمانهای دولتی، وزارتخانهها، شركتها و دانشگاهها و بالغ بر حدود دو میلیون صفحه، انجام شدهاست. هدف از این سیستم، استخراج شاخصهای مختلف علمی برای ارزیابی دولت الكترونیك از قبیل توزیع محتوای سایتها (علمی، خبری، دولتی، تجاری و وبلاگ)، حجم محتوای فارسی، سرویسهای ارائهشده، درصد كدینگهای مختلف فارسی و غیره میباشد. از این آمار میتوان جهت هدفمند نمودن برنامههای آتی در خصوص دولت الكترونیك، استفاده كرد.
۱) مقدمه
دولت الكترونیك[۱] یكی از پدیده های مهم حاصل از بكارگیری فناوری اطلاعات و ارتباطات[۲] است كه پیاده سازی آن، تحولی بس عمیق در نحوه زندگی، اداره و رهبری كشورها داشته و تركیبی از فناوری اطلاعات و شبكه اطلاع رسانی وب است كه هدف آن، ارائه مستقیم خدمات به شهروندان[۳]، كاركنان دولت[۴]، بخشهای تجاری[۵] و سایر بخش های دولت است. به عبارت دیگر "گونهای از سازماندهی مدیریت دولتی به منظور افزایش كارایی، شفافسازی، دسترسپذیری و پاسخگویی به شهروندان از طریق استفاده فراگیر و استراتژیك فناوریهای اطلاعات و ارتباطات در مدیریت داخلی دولت و همچنین در برقراری ارتباط با شهروندان و كاربران خدمات عمومی" دولت الكترونیك نامیده میشود[۱]. با تحقق دولت الكترونیكی شهروندان میتوانند وارد یك سایت اینترنتی شده، به آسانی خدمات و اطلاعات دولتی موردنیاز خود را یافته و از آن سایت برخط (online) برای انجام داد و ستد استفاده كنند. لذا در هزینه و زمان یك كشور صرفهجویی شده و باعث تولید چرخه اقتصادی به صورت كارا و مناسب خواهد شد.
طبق مدل گارتنر [۲] دولت الكترونیك از چهار فاز ظهور[۶]، تعامل[۷]، تراكنش[۸] و تبدیل[۹]، تشكیل شدهاست. شكل شماره یك، جزئیات و عناصر هر فاز را نشان میدهد.
هر فاز این مدل به چهار سطح فنآوری، فرآیند، مردم و راهبرد/خطمشی تقسیم شده است. در فاز ظهور سازمان های دولتی اطلاعات خود را در قالب وب سایت برای دسترسی مردم ارائه میكنند. سرویس هایی مانند موتور جستجوی محتوای وبسایت ها، پست الكترونیكی و مدیریت محتوا در فاز تعامل ارائه میشوند. در فاز تراكنش سرویس هایی مانند تجارت الكترونیكی شامل خرید و فروش به مردم ارائه میشود. در فاز نهایی یعنی تبدیل تمام سرویس های دولت تحت یك پرتال مركزی به مردم ارائه خواهدشد.
در حال حاضر، با توجه به اهمیت بالای دولت الكترونیك، یکی از چالش های مهمیكه ما با آن مواجه هستیم اطلاع از وضعیت كنونی سرویس های دولت الكترونیك میباشد. به عبارت دیگر، سازمان های كشور در هر كدام از چهار فاز ظهور ،تعامل،تراكنش و تبدیل، چند درصد پیشرفت داشته و چه سرویسهایی را ارائه میدهند. علاوه بر آن، به روشی برای ارزیابی فعالیتهای انجام شده در این زمینه، نیاز مبرم میباشد. با ارزیابی كنونی دولت الكترونیك در ایران، بهتر میتوان پروژههای آتی و مورد نیاز را تعریف و در نهایت ارزیابی كرد.
در برنامه پنج ساله چهارم توسعه شاخص ها و راهبردهایی برای تحقق دولت الكترونیك ارائه شده است. برای مثال جدول شماره یك، بعضی از این شاخص ها را در سال های مختلف نشان میدهد[۳].
بنابراین با توجه به اهمیت ارزیابی دولت الكترونیك پروژهای تحت عنوان "ارزیابی وب ایران از منظر دولت الكترونیك "در سال ۸۵ شروع شد كه نتیجه فاز اول آن در این مقاله آورده شده است. در این مقاله سعی میشود تا حد ممكن، محتوای وب فارسی كشور را به صورت خودكار، تحلیل و ارزیابی كرد (ابزار نظارت خودكار) تا در همه برهههای زمانی، بتوان عمل ارزیابی را با كمترین هزینه انجام داد. لازم به ذكر است كه در این مقاله حدود ۱۱ هزار سایت با پسوند .IR كه شامل تقریبا دو میلیون صفحه است پردازش و آنالیز شدهاند. البته تعداد وبسایت های فارسی بیش از این مقدار است ولی به دلیل این كه اكثر سازمان های دولتی دارای پسوند .IR هستند این مقدار برای ما كافی می باشد. در نهایت هدف اصلی استخراج شاخص های زیر از دو دیدگاه "دولت الكترونیك" و "وب ایران" میباشد:
۱) آنالیز وب از دیدگاه دولت الكترونیك
۱-۱) چند درصد از سازمانها دارای وبسایتی هستند كه درباره خودشان و خدماتشان اطلاعرسانی كنند(Presence)؟
ـ تعداد صفحات HTML هر سازمان
ـ درصد لینكهای معتبر
۱-۲) چند درصد سازمانها بهكاربران اینترنت اجازه میدهند كه به پایگاههای داده آنها دسترس داشته و دادهها را مورد استفاده قرار دهند (Interaction)؟
ـ موتور جستجوی محتوا
ـ تعداد فرم های الكترونیكی
ـ زمان دسترسی و محدوده زمانی
۲) سؤالات كلی درباره وب ایران
۲-۱) توزیع صفحات وب در ایران چگونه است (علمی، تجاری، روزنامه، خبر، وبلاگ و ...)؟
۲-۲) محتوای صفحات سایت ها از نظر محتوا چگونه ارزیابی
می شوند؟
ـ درصد كدینگ های مختلف استفاده شده چقدر است؟
ـ چند درصد از صفحات عنوان مناسب دارند؟
۲-۳) فایل های غیر متنی مانند PDF، PPT ،Doc و Image چند درصد از صفحات را تشكیل میدهند؟
۲-۴) نرخ بهروزآوری، تغییر، ایجاد (عمر صفحه) چقدر میباشد؟
۲-۵) سرعت دسترسی به سایت چقدر است؟
۲-۶) تعداد دسترسی به سایت چقدر می باشد؟
۲-۷) تعداد كل صفحات فارسی، میانگین تعداد صفحات هر سایت و حجم آنها چقدر است؟
۲-۸. تعداد لغاتی كه در تمام صفحات محاسبه شده چقدر
می باشد؟
۲-۹) چند درصد صفحات شامل هردو محتوای فارسی و انگلیسی است؟
لازم به ذكر است در این فاز به دلایلی مانند پیچیدگی كار استخراج شاخص های مربوط به فازهای تراكنش و تبدیل به كارهای آینده موكول شده است. نتایج این مقاله را می توان در تعریف و پیاده سازی پروژه هایی مانند موتور جستجوی ملی، پرتال دولتی و ملی و ... استفاده كرد. به علاوه این پروژه در تدوین راهكارهای آینده جهت تحقق سریع دولت الكترونیك در كشور مفید فایده خواهد بود.
۲) كارهای مرتبط در داخل و خارج
تاكنون در داخل مكانیزم ارزیابی وب بدین صورت انجام نشده است. اما بعضی از كشورها كاری شبیه به این پروژه را انجام دادهاند. برای مثال در تایلند پروژهای تحت عنوان " ابزار نظارت خودكار بر پروژه دولت الكترونیك تایلند" [۴] انجام شدهاست. هدف این كار استخراج تمام شاخص های دولت الكترونیك از وب تایلند میباشد. به علاوه كارهای مشابه برای استخراج مشخصه های وب در كشورهای اسپانیا [۵] ، كرهجنوبی [۶]، استرالیا[۷] ، پرتقال [۸] و اروپا [۹] انجام شده است. در فعالیتهای فوق بیشتر وب كشورها از دیدگاه ساختاری و شكل گراف وب مورد بررسی قرار گرفته است و بعلاوه پارامترهایی مانند توزیع اندازه صفحات و سایتها، نرخ بروزآوری آنها، رتبه آنها در موتورهای جستجو و عمر صفحات مورد بررسی قرار گرفته ولی از منظر محتوا و سرویس های ارائه شده كاری انجام نگرفته است. در این مقاله علاوه بر استخراج پارامترهای فوق، از دید دولت الكترونیك نیز به وب ایران توجهگردیده است.
۳) سامانه خودكار ارزیابی وب ایران
در این قسمت، ابتدا معماری سیستم ارزیاب خودكار، تشریح میشود. هدف كلی این سامانه، مرور و بررسی تمام وبسایتها اعم از دولتی و غیر دولتیِ رجیستر شده در دامنه.IR میباشد. شكل شماره دو شمای كلی این سامانه و تعامل اجزای آن را با یكدیگر، نشان میدهد.
همانگونه كه در شكل شماره دو، دیده میشود، ابتدا یك خزنده وب، بر اساس یك لیست اولیه سایتهای رجیستر شده در دامنه .IR كه از قبل تهیه شده است، با توجه به پارامترهای تنظیم از قبیل عمق خزش، حداكثر صفحات سایت و غیره، خزش را با توجه به گراف حاصل از لینكها، انجام میدهد و صفحات این سایتها را در یك مخزن موقت، شاخصبندی و ذخیره میكند. در مرحله بعد، واحد تحلیلگر گراف وب، این مخزن را مورد بررسی قرار میدهد و آمارهای مختلفی را مورد ویژگیهای گراف متناظر از قبیل قطر گراف، متوسط فاصله بین هر دو گره و غیره، استخراج میكند (این قسمت در این مقاله، حذف شدهاست).
از سوی دیگر، واحد تحلیلگر محتوا با استفاده از پارسر HTML، صفحات این مخزن را بررسی نموده و محتوا و دادههای توصیفی آنها را استخراج میكند. دادههای توصیفی استخراجشده به واحد گزارشگیر ارسال میشود تا آمارهای مختلفی نظیر درصد استفاده از كدینگهای مختلف، توزیع صفحات و سایتها در طبقهبندیهای مختلف، سرویسهای ارائه شده نظیر جستجو، امنیت و غیره، از آن حاصل شود. متن صفحات نیز در اختیار واحد تحلیلگر واژگان، قرار داده میشود تا کلمات فارسی را از آن استخراج کند و در یک Lexicon ذخیره نماید و در همین حین، آمار کلمات و تکرار آنها برای هر یک از صفحات را در یک فایل متنی ذخیره میکند.
در ادامه این بخش بهترتیب، جزئیات ساختار اجزای مختلف از قبیل سامانه جمعآوری اطاعات، سامانه پردازشگر محتوا[۱۰] و سامانه پردازشگر زبانی[۱۱]، مورد بررسی قرار میگیرد.۳-۱) سامانه جمعآوری اطلاعات
جهت جمع آوری اطلاعات از خزنده وایر [۱۰, ۱۱] كه تحت لیسانس GPL و به صورت متنباز میباشد، استفاده شدهاست. علت استفاده از این خزنده دارا بودن خصوصیات زیر میباشد:
۱) کارآیی بالا با هزینه پایین :
این خزنده قادر است به صورت موازی به ۴۰۰ سرور به صورت همزمان متصل شود.
۲) پایداری[۱۲] :
در همه زمانها حالت کلی سیستم (حالت کلاس ها، پروسس ها ، صف هاو..). روی دیسک نگهداری میشود. لذا در صورت اشكال جمعآوری بقیه وب از آنجایی كه اشكال پیش آمده ادامه خواهد یافت.
۳) روش ارتباط[۱۳]:
خزنده استانداردهای Robot exclusion [۱۲] ،Robot.txt و تگ های متای روبوت ها را رعایت میكند.
۴) قابل مدیریت و برنامه ریزی[۱۴] :
این خزنده امکان تنظیم پارامترهایی مانند تعداد ارتباطاتی که همزمان می تواند داشته باشد، تعداد Threadهایی که با هم اجرا شوند، مکانیزم آوردن صفحات، نوع زمانبندی صف[۱۵] را دارا میباشد.
در ابتدا خزنده به عنوان نقطه شروع با ۱۰ آدرس سایت و اعمال محدودیت جمعآوری سایت های .IR شروع به كار میكند. پس از دو هفته اجرا حدود ۱۱ هزار سایت جدید با پسوند .IR كه شامل ۸ میلیون صفحه است كشف شده است. لازم به ذكر است كه فقط صفحاتHTML/XML/XHTML/TXT (شامل صفحات ایستا و پویا) در این فاز جمع آوری شدهاند. صفحات جمعآوری شده در یك مخزن بزرگ كه به راحتی قابل دسترسی است جمع آوری شده و پس از استخراج شاخص های مربوطه و به واحد پردازش محتوا داده برای استخراج بقیه شاخص ها داده میشود.
با استفاده از آنالیز IP های ۱۱ هزارسایت كشف شده فقط ۲۷% از این سایتها در داخل كشور قرار دارند و ۷۳% از آنها در سرورهای خارج از كشور هستند. لذا نیاز مبرم به یك مركز داده اینترنتی در داخل كشور بیش از پیش احساس میگردد.
۳-۲) سامانه تحلیلگر محتوا
در این قسمت، محتوای صفحات بازیابیشده، پردازش میشود و محتوا و دادههای توصیفی[۱۶] آنها استخراج میشود.
روال كار بدین صورت است كه صفحات بازیابیشده توسط خزنده وب كه در یك پایگاه داده محلی، ذخیره میشوند، بهترتیب به یك پارسر [۱۷]ML، داده میشوند و متن صفحات و دادههای توصیفی آنها توسط یك پارسر جاوایی، استخراج میشود. متن صفحات پس از تبدیل به كدینگ UTF-۸ در یك فایل متنی، ذخیره میشود. دادههای توصیفی كه شامل اطلاعات مختلف صفحات است بصورت Tag-based در یك فایل XML ذخیره میشود.
۳-۳) سامانه تحلیلگر واژگان
روال کار این قسمت، به این صورت است که متن صفحات وب را به عنوان ورودی دریافت و کلمات فارسی را از آن استخراج و در یک lexicon ذخیره كرده و در همین حین آمار کلمات و تکرار آنها برای هر یک از صفحات را در یک فایل متنی ذخیره می کند.
یکی از مسائلی که در جستجوی کلمات فارسی در وب مطرح میباشد، وجود شکل های متفاوت برای حروف "ی" و "ک" می باشد که سبب شده یک کلمه با اشکال مختلف ظاهر شود. از کارهایی که این برنامه انجام می دهد، تهیه آمار تعداد کلماتی که از حروف "ی" و "ک" فارسی و یا عربی استفاده کرده اند، میباشد. به عنوان مثال اگر کلمه "آبی" که حرف "ی" با کد u۰۶cc جستجو شود احتمالاً ۷۳/۳۷ درصد صفحات که شامل این کلمه هستند را بازیابی می کند و بقیه صفحات را از دست می دهد. لذا موتورهای جستجوی كنونی، موجب میشوند تا برخی مواقع، بیش از ۵۰% صفحات موجود، بازیابی نشوند. از اینرو پیادهسازی یك موتور جستجو یا یك فراجویشگر[۱۸] فارسی برای جستجوی محتوای فارسی، از اهمیت بالایی برخوردار است.
۴) نتایج بدستآمده
ورودی سامانه تحلیلگر محتوا، بدینصورت انتخاب شد كه بهازای هر سایت، حداكثر بیستهزار صفحه مورد بررسی قرار گرفت. علت این امر این است كه سایتهای با تعداد صفحات بالاتر، معمولاً فقط سایتهای خبری نظیر IRNA، ISNA، IRIB و غیره هستند. در این خصوص، آمار حاكی از آن است كه از حدود ۸ میلیون صفحه موجود در دامنه .IR حدود ۶ میلیون آن، مربوط به سایتهای خبری است. لذا محتوای مناسب بجز خبر، تنها حدود ۲ میلیون صفحه است كه در مقابل بیشتر كشورها كه بیش از ۱۰۰ میلیون صفحه دارند، رقم بسیار كمی میباشد (به عنوان مثال، دولت الكترونیكی كره جنوبی، شامل بیش از ۱۰۸ میلیون صفحه است).
بواسطه حجم محاسباتی بالای بهمنظور انجام ارزیابیهای مختلف، یك جامعه آماری شامل حدود ۶۰۰ هزار صفحه، در نظر گرفته شد و بررسیهای مختلف، روی این مجموعه، انجام شد.
برای تعیین انواع سایتها، پنج طبقه كلان: دولتی، خبری، علمی، تجاری و وبلاگ در نظر گرفتهشد. شكلهای شماره سه و چهار، بهترتیب توزیع طبقهبندی را بر اساس سایتها و صفحات، نشان میدهد. همانطور كه مشاهده میشود، بیشترین محتوا، مربوط به سایتهای خبری است؛ در حالی كه سایتهای دولتی تنها حدود ۹% یعنی حدود ۱۸۰ هزار صفحه را شامل میشود كه نسبت به سایر كشورها رقم بسیار كمی است.
بیشترین كدینگ استفاده شده، UTF-۸ است و لذا موتورهای جستجوی فعلی بر مبنای یونیكد جستجو میكنند ولی با توجه به اینكه كه كدینگهای Windows-۱۲۵۲ و Windows-۱۲۵۶ نیز درصد قابل توجهای را تشكیل میدهند، لازمست موتورهای جستجو این كدینگها را نیز نمایهسازی و جستجو كنند.
آمار مربوط به تعداد صفحات شامل RSS، WebService، Security، Search و نیز وجود فرمهای الكترونیكی در جدول شماره چهار آمده است.
این ارقام، حاكی از آنست كه زمینههای یكپارچهسازی در دولت الكترونیك، بسیار ضعیف است و نیازمند توجه جدی دارد.
۵) نتیجه گیری و كارهای آینده
در این مقاله محتوای وب ایران با توجه به شاخص های دولت الكترونیك با استفاده از یك سامانه ارزیابی خودكار مورد ارزیابی قرار گرفته است. در این آزمایش ۱۱ هزار سایت با پسوند .IR كه شامل دو میلیون صفحه میباشد و بیشتر سازمانهای دولتی و غیر دولتی را پوشش میدهد، ارزیابی شدهاست. هدف اصلی استخراج شاخص های متناظر با دولتالكترونیك علاوه بر شاخصهای دیگرمیباشد. شاخص های استخراج شده شامل توزیع محتوای وبسایتها ، حجم محتوای فارسی ، نوع محتوا ، سرویس های ارائه شده (جستجو، RSS و غیره) نرخ بروزآوری محتوا ، توزیع مكانی سایتها در داخل و خارج كشور وغیره میباشد. با انجام این پروژه بهتر میتوان راهبردهای آینده مربوط به ICT را تعیین و تبیین كرد. از نتایج بارز این آمار عبارتند از: كم بودن حجم محتوای فارسی وب در مقایسه با سایر كشورها (نسبت ۱۰%) ، نیاز به یك مركز داده اینترنتی در كشور (۷۳%
سایت ها در خارج از كشور هستند)، نیاز به موتورهای جستجوی بومی (محتوا بیشتر از كدینگ های عربی استفاده كرده است) ، كم بودن سرویس های دولت الكترنیك (جستجو، امنیت و غیره). علاوه بر موارد فوق خروجی هایی مانند مجموعه تمام لغات فارسی موجود در وب برای استفاده در خطایاب ها و موتورهایجستجو بدست آمده است. از خصوصیات این سامانه خودكار بودن آن میباشد كه در زمانهای مختلف میتوان آنرا اجرا و آمارهای مورد نظر را استخراج كرد. برای كارهای آینده ارزیابی محتوای فقط سازمان های دولتی و وزارتخانهها در دستور كار قرار دارد. همچنین استخراج شاخص های دیگر دولت الكترونیك مدنظر میباشد.
امیر حسین كیهانیپور
علیمحمد زارع بیدكی
مریم محمودی
محمد آزادنیا
پانوشتها:
[۱]e-Government
[۲] ICT
[۳] G۲C
[۴] G۲G
[۵] G۲B
[۶] Presence
[۷] Interaction
[۸] Transaction
[۹] Transformation
[۱۰] Content Processor
[۱۱] Lexical Processor
[۱۲] Robustness
[۱۳] Etiquette
[۱۴] Reconfigure-ability
[۱۵] Queuing Management
[۱۶] Metadata
[۱۷] Markup language
[۱۸] Meta-search engine
[۱۹] سن صفحه عبارت است از مدت زمان میان ایجاد یا تغییر محتوای صفحه و زمان فعلی
فهرست منابع:
[۱] http://www.mgtsolution.com/olib/۴۴۴۰۲۳۷۲۳.aspx, Oct. ۲۰۰۶.
[۲] www.gartner.com , Oct. ۲۰۰۶.
[۳] جعفر زارعی، محمد، "مفاهیم پایه فناوری اطلاعات و ارتباطات" ، شركت توسعه ارتباطات آتینگر، دیماه ۱۳۸۴.
[۴] Krootkaew C., Vongpakaymas A., Jeawpoung A., "Services E-readiness Explorer (SEE): Automatic Monitoring Tool for Thailand e-Government Project ", In Proceeding of EurAsia-ICT۲۰۰۲, Shiraz, Iran, Oct. ۲۰۰۲.
[۵] Baeza-Yates R., Castillo C. and López V., "Characteristics of the Web of Spain". Journal of Cybernetics, Vol. ۹, No. ۱, ۲۰۰۵.
[۶] Baeza-Yates, R. and Lalanne, F., "Characteristics of the korean web", Technical report, Korea–Chile IT Cooperation Center ITCC, ۲۰۰۴.
[۷] Rauber, A., Aschenbrenner, A., Witvoet, O., Bruckner, R. M. and Kaiser, M., "Uncovering information hidden in Web archives", D-Lib Magazine, Vol. ۸, No. ۱۲, ۲۰۰۲.
[۸] Gomes, D. and Silva, M. J., "A characterization of the Portuguese Web", In Proceedings of ۳rd ECDL Workshop on Web Archives, Trondheim, Norway, ۲۰۰۳.
[۹] Thelwall, M. and Wilkinson, D., "Graph structure in three national academic webs: power laws with anomalies", Journal of the American Society for Information Science and Technology, Vol. ۵۴, No. ۸, pp. ۷۰۶–۷۱۲, ۲۰۰۳.
[۱۰] http://www.cwr.cl/projects/WIRE/, Oct. ۲۰۰۶.
[۱۱] Baeza-Yates R. and Castillo C., "Balancing volume, quality and freshness in Web crawling", In Proceedings of Soft Computing Systems - Design, Management and Applications Conference, Santiago, Chile, IOS Press Amsterdam, pp. ۵۶۵– ۵۷۲, ۲۰۰۲.
[۱۲] Koster M., "A standard for robot exclusion", Available on http://www.robotstxt.org/wc/exclusion.html , ۱۹۹۶.
[۱۳] Krootkaew C., Vongpakaymas A., Jeawpoung A., "Services E-readiness Explorer (SEE): Automatic Monitoring Tool for Thailand e-Government Project ", In Proceeding of EurAsia-ICT۲۰۰۲, Shiraz, Iran, Oct. ۲۰۰۲.
علیمحمد زارع بیدكی
مریم محمودی
محمد آزادنیا
پانوشتها:
[۱]e-Government
[۲] ICT
[۳] G۲C
[۴] G۲G
[۵] G۲B
[۶] Presence
[۷] Interaction
[۸] Transaction
[۹] Transformation
[۱۰] Content Processor
[۱۱] Lexical Processor
[۱۲] Robustness
[۱۳] Etiquette
[۱۴] Reconfigure-ability
[۱۵] Queuing Management
[۱۶] Metadata
[۱۷] Markup language
[۱۸] Meta-search engine
[۱۹] سن صفحه عبارت است از مدت زمان میان ایجاد یا تغییر محتوای صفحه و زمان فعلی
فهرست منابع:
[۱] http://www.mgtsolution.com/olib/۴۴۴۰۲۳۷۲۳.aspx, Oct. ۲۰۰۶.
[۲] www.gartner.com , Oct. ۲۰۰۶.
[۳] جعفر زارعی، محمد، "مفاهیم پایه فناوری اطلاعات و ارتباطات" ، شركت توسعه ارتباطات آتینگر، دیماه ۱۳۸۴.
[۴] Krootkaew C., Vongpakaymas A., Jeawpoung A., "Services E-readiness Explorer (SEE): Automatic Monitoring Tool for Thailand e-Government Project ", In Proceeding of EurAsia-ICT۲۰۰۲, Shiraz, Iran, Oct. ۲۰۰۲.
[۵] Baeza-Yates R., Castillo C. and López V., "Characteristics of the Web of Spain". Journal of Cybernetics, Vol. ۹, No. ۱, ۲۰۰۵.
[۶] Baeza-Yates, R. and Lalanne, F., "Characteristics of the korean web", Technical report, Korea–Chile IT Cooperation Center ITCC, ۲۰۰۴.
[۷] Rauber, A., Aschenbrenner, A., Witvoet, O., Bruckner, R. M. and Kaiser, M., "Uncovering information hidden in Web archives", D-Lib Magazine, Vol. ۸, No. ۱۲, ۲۰۰۲.
[۸] Gomes, D. and Silva, M. J., "A characterization of the Portuguese Web", In Proceedings of ۳rd ECDL Workshop on Web Archives, Trondheim, Norway, ۲۰۰۳.
[۹] Thelwall, M. and Wilkinson, D., "Graph structure in three national academic webs: power laws with anomalies", Journal of the American Society for Information Science and Technology, Vol. ۵۴, No. ۸, pp. ۷۰۶–۷۱۲, ۲۰۰۳.
[۱۰] http://www.cwr.cl/projects/WIRE/, Oct. ۲۰۰۶.
[۱۱] Baeza-Yates R. and Castillo C., "Balancing volume, quality and freshness in Web crawling", In Proceedings of Soft Computing Systems - Design, Management and Applications Conference, Santiago, Chile, IOS Press Amsterdam, pp. ۵۶۵– ۵۷۲, ۲۰۰۲.
[۱۲] Koster M., "A standard for robot exclusion", Available on http://www.robotstxt.org/wc/exclusion.html , ۱۹۹۶.
[۱۳] Krootkaew C., Vongpakaymas A., Jeawpoung A., "Services E-readiness Explorer (SEE): Automatic Monitoring Tool for Thailand e-Government Project ", In Proceeding of EurAsia-ICT۲۰۰۲, Shiraz, Iran, Oct. ۲۰۰۲.
منبع : نما مجله الکترونیکی پژوهشگاه اطلاعات و مدارک علمی ایران
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست