پنجشنبه, ۲۰ دی, ۱۴۰۳ / 9 January, 2025

مجله ویستا

استفاده از ضریب وزنی در سرعنوانهای موضوعی در راستای بهبود بازیابی اطّلاعات

در فهرست نویسی موضوعی، فهرست نویس برای بیان محتوای موضوعی کتاب در دست فهرست نویسی، اغلب از سرعنوان(های) موضوعی استفاده می‌کند. نحوة قرار گرفتن یک سرعنوان یکسان، در فهرستبرگه‌های متفاوت، ممکن است متفاوت باشد. یک سرعنوان ممکن است تنها سرعنوان تخصیص یافته به یک فهرستبرگه، یا با یک یا چند سرعنوان دیگر همراه باشد. در حالت دوم، بسته به رتبه سرعنوان در میان سرعنوانهای دیگر، آن سرعنوان به طور نظری، دارای وزن متفاوتی خواهد بود. امّا در تمامی این موارد، این سرعنوانها به گونهای مساوی در نظر گرفته می‌شوند؛ نکتهای که میتواند بر بازیابی اطّلاعات تأثیری منفی بگذارد. نوشتة حاضر تلاش میکند برای حلّ این مشکل در فهرستنویسی سنّتی، نرم افزارهای کتابخانهای، و مارک ایران، راه حلهایی پیشنهاد نماید.

● مقدّمه

«وزن‌دهی»[۲] که با عبارتهای دیگری مانند «ارزشگذاری وزنی اصطلاح» نیز در متون مربوط به بازیابی اطّلاعات و از جمله متون کتابداری دیده میشود، عبارت است از «ارزشگذاری اصطلاحات به کار رفته در عبارت جستجو، که طی آن بالاترین ارزش و وزن به اصطلاحاتی داده میشود که مربوط‌ترین یا مفیدترین اصطلاح برای درخواست جستجو باشند» (کینن[۳]، ۱۳۷۸، ۸۴). «پولیت»[۴] نیز در کتاب «نظامهای ذخیره و بازیابی اطلاعات: خاستگاه، توسعه و کاربردها» در مبحث «وزندهی اصطلاح»، چنین مینویسد: «اهمیت مفروض یک اصطلاح را میتوان با فراوانی رویداد آن در پایگاه اطلاعاتی به هم پیوند زد: هر چه فراوانی اصطلاح بیشتر باشد، بین مدارک مربوط و سایر مدارک کمتر تفاوت میگذارد». (پولیت، ۱۳۸۰، ۱۱۱). در این کتاب، حدود چهار صفحه به مفهوم وزندهی اصطلاح اختصاص داده شده است. «هارتلی»[۵] و دیگران نیز در کتاب «اصول و روشهای جستجوی پیوسته»، در هنگام بحث پیرامون «بازیابی رتبهای» به وزن دهی واژهها اشاره میکنند و هدف این وزنها را «پدید آوردن امکان تطبیق خودکار پرسشها با رکوردهای مدارک از طریق محاسبة ارزش تطبیق ریاضی میدانند» (هارتلی و دیگران، ۱۳۸۰، ۲۸۶). «حسن‌زاده» در مقالهای با عنوان «تأثیر مدلهای بازیابی اطلاعات بر میزان ربط»، دربار? ضریب وزنی نیز مطالبی را نوشته است (حسن زاده، ۱۳۸۳). «بیزا ـ ییتس و ریبرو ـ نتو»[۶] در صفحات ۱۸۴ تا ۱۹۲ و ۲۱۵ تا ۲۱۷ از کتاب خود با عنوان «قلمروهای نو در بازیابی اطلاعات»، در مورد وزن دهی و وزن دهی احتمالی سخن می‌گویند (بیزا ـ ییتس و ریبرو ـ نتو، ۱۳۸۴). همچنین، «گراسمن و فریدر»[۷] در فصل دوم کتاب خود با عنوان «بازیابی اطلاعات: الگوریتمها و روشهای اکتشافی» که به راهبردهای بازیابی اختصاص دارد، در مبحث «مدل فضای برداری»، محاسبه ضریب وزنی یک اصطلاح در یک مدرک را «ترکیبی از فراوانی اصطلاح (df) و فراوانی مدرک معکوس (idf)» تعریف میکنند (گراسمن و فریدر، ۱۳۸۴، ۲۱).

امّا نکتهای که باید مورد اشاره و تأکید قرار گیرد، اینکه وزندهی در نظامهای بازیابی که از روش نمایه‌سازی پس‌همارا[۸] استفاده میکنند، به کار گرفته می‌شود. نظامهای بازیابی مبتنی بر نمایه سازی پیش ـ همارا[۹] نمیتوانند از وزندهی استفاده کنند. تا آن جا که نگارنده میداند، تاکنون دربار? استفاده از ضریب وزنی یا وزن دهی در نظامهای بازیابی مبتنی بر نمایه‌سازی پیشهمارا، مانند برگه دان سنّتی کتابخانه و نظامهای بازیابی که بر ساختار برگه‌دان متّکی هستند، حدّاقل در زبان فارسی مطلبی منتشر نشده است. آنچه در ادامه می‌آید، استفاده از ضریت وزنی را در این گونه نظامهای بازیابی اطّلاعات مورد بررسی قرار میدهد.

● استفاده از ضریب وزنی در نظامهای بازیابی مبتنی بر نمایه‌سازی پیش‌ـ‌همارا

در فهرستنویسی موضوعی، فهرستنویس برای بیان محتوای موضوعی کتاب در دست فهرستنویسی، اغلب از سرعنوان(های) موضوعی استفاده می‌کند. این سرعنوان (ها) در مراحل بعدی، در بالای نسخهای از همان فهرستبرگه تایپ می‌شوند و برگة مادر را به برگة موضوع تبدیل می کنند. در برابر هر سرعنوان موضوعی که به کتاب داده می‌شود یک برگة موضوع تولید می شود و در برگه دان موضوع در ردیف الفبایی خود قرار می‌گیرد. در تمامی مراحل فهرستنویسی موضوعی، فهرستنویس تلاش می‌کند اصول متداول فهرستنویسی موضوعی، و از جمله «ویژگی» را رعایت کند. «ویژگی، یعنی به جای موضوع اعم و کلی تر باید سعی شود سرعنوان موضوعی اخص و مستقیم‌تر به کار برده شود؛ یعنی، موضوع مورد نظر در قالب واژه یا اصطلاح خاص مورد استفاده کاربران ارائه شود. مفهوم مستقیم یعنی سرعنوانها به طور مستقیم و بدون واسطة واژه‌های هم‌خانواده در فهرست بیایند تا کاربر سریع تر و آسان تر به موضوع مورد نظر خود دست یابد». (فتّاحی و طاهری، ۱۳۸۴، ۶۴).

نحوه قرار گرفتن یک سرعنوان یکسان در فهرستبرگه‌های متفاوت، ممکن است متفاوت باشد. برای نمونه، سرعنوان «آمار» ممکن است در فهرستبرگهای به منزلة تنها موضوع، به کتابی داده شود که دربار? آمار به طور کلّی است. همین سرعنوان ممکن است در فهرستبرگهای دیگر، در کنار یک یا چند سرعنوان دیگر و در جایگاهی متفاوت قرار گیرد، مثلاً در کنار سرعنوانی دیگر مانند «احتمالات». در این حالت دوّم، بسته به تعداد سرعنوانهای داده شده به کتاب و نیز، جایگاه سرعنوان «آمار» در میان این سرعنوانها، تقسیمهای متفاوتی پیش می آید. معمولاً فرض بر این است که اگر «آمار» سرعنوان اوّل است موضوع اصلی کتاب در دست فهرستنویسی، «آمار» است یا حدّاقل بخش عمد? آن به «آمار» اختصاص دارد. امّا وزن موضوعی این سرعنوان با وزن سرعنوان حالت اوّل متفاوت است زیرا اگر فرض را بر این بگذاریم که وزن سرعنوان «آمار» در حالت اول، عدد یک است در حالت دوم، بسته به تعداد سرعنوانهای داده شده، اگر سرعنوان «آمار»، سرعنوان اول باشد، وزن آن معادل کسری از یک، و اگر سرعنوان دوم یا سوم باشد، وزنی کمتر خواهد داشت. امّا در تمامی این حالتها، سرعنوان «آمار»، در بالای برگة موضوعی خاص خود قرار می‌گیرد و هنگامی که فهرستبرگه های مربوط به حالتهای بالا در برگه‌دان موضوعی برگه‌آرایی می‌شوند، در عمل دارای وزنهایی یکسان به شمار می‌آیند؛ در حالی که عملاً این گونه نیست زیرا در حالت اوّل، یعنی زمانی که تنها یک سرعنوان «آمار» به کتاب داده شده است، کلّ کتاب به آمار اختصاص دارد؛ در حالی که در حالتهای دوم، تنها بخشی از کتاب به آمار مربوط است. در این جا، شاید این نکته مطرح شود که کاربر می تواند با بررسی سایر سرعنوانهای موضوعی داده شده در بخش فهرست تحلیلی هر فهرستبرگه، رتبه هر سرعنوان و تعداد سرعنوانهای دیگر در آن فهرستبرگه را تشخیص دهد؛ امّا در پاسخ می توان گفت که حتّی اگر فهرستبرگه های معمولاً در هم فشرد? موجود در برگه‌دانهای کتابخانه‌ها چنین فرصتی را برای کاربر ایجاد کند، بعید است او چنین بررسی‌ای را انجام دهد، ضمن آنکه در کنار هم قرار گرفتن سرعنوانهای موضوعی و سایر شناسه افزوده‌ها، تشخیص تعداد سرعنوانها و رتبه هر سرعنوان را برای کاربر معمولاً ناآشنا به رموز فهرستنویسی، دشوار می سازد.

حالت سومی نیز معمولاً رخ می دهد و آن این است که سرعنوان «آمار»، به تنهایی موضوع قرار نمی گیرد و تقسیم فرعی بر سرعنوانی اصلی است؛ مانند «آموزش و پرورش ـ آمار». در این حالت نیز، اگر تنها یک سرعنوان به کتاب داده شود، تقسیم فرعی «آمار» وزنی کمتر از سرعنوان اصلی یعنی «آموزش و پرورش» دارد، امّا اگر سرعنوانی مانند «آموزش و پرورش ـ ایران ـ آمار» به کتابی داده شود، وزن تقسیم فرعی «آمار» در این حالت، احتمالاً از حالت اوّل نیز کمتر خواهد بود. این حالت در بازیابی خودکار اطّلاعات در نرم افزارهای کتابخانهای، و در حالت جستجوی «موضوع کلیدواژهای» پیش می آید که در آن، رایانه در هنگام جستجوی مدارک مربوط به «آمار»، ممکن است حتی تقسیمهای فرعی «آمار» را نیز بازیابی کند. در چنین حالتی نیز، مدارک مربوط به «آمار» با وزنهایی متفاوت ـ و نه لزوماً به ترتیب موضوعی وزنی ـ در کنار هم بازیابی خواهند شد.

شایان ذکر است، در تمامی این حالتها، سرعنوانهایی که با رعایت اصل «ویژگی» ارائه شده اند در عمل، بازیابی را به گونهای «ویژه» انجام نمی‌دهند؛ زیرا مثلاً سرعنوان «آمار»ی که سومین سرعنوان از سه سرعنوان یک کتاب است، نمی‌تواند هموزن سرعنوان «آمار»ی باشد که تنها سرعنوان یک کتاب است. امّا در عمل، به شرحی که در بالا آمد چنین پنداشته می شود و سرعنوان «آمار»ی که سومین سرعنوان از سه سرعنوان یک کتاب است، به همان انداز? تک سرعنوان «آمار»، «ویژه» در نظر گرفته می‌شود.

آنچه در این نوشته خواهد آمد، تلاش برای ارائه راهکارهایی برای حلّ این مشکل و بهبود بازیابی موضوعی اطّلاعات در برگه‌دانهای کتابخانه، نرم افزارهای کتابخانهای و مارک ایران است. برای ارائه راه حل برای سه حالت برگه‌دانهای کتابخانه، نرم افزارهای کتابخانهای و مارک ایران، باید به این نکته توجّه داشت که وزن هر سرعنوان، تابعی از سه متغیر زیر است:

۱) تعداد سرعنوانهای داده شده به یک کتاب

۲) مرتبه آن سرعنوان در بین سرعنوانهای داده شده

۳) حجم یا تعداد صفحات کتاب.

متغیر حجم یا تعداد صفحات کتاب، از این نظر می تواند مهم باشد که وزن یک سرعنوان «آمار»، در کتابی با تعداد صفحاتی با حدود ۳۰۰ صفحه، که یکی از سرعنوانهای آن «آمار» است و به طور نظری، حدود ۱۰۰ صفحه از آن به آمار اختصاص می‌یابد، بیشتر از وزن سرعنوان «آمار» در کتابی مثلاً ۸۰ صفحهای است که تنها سرعنوان موضوعی آن «آمار» است. البتّه، از آنجا که معمولاً حجم کتابها در حدود معینی قرار دارد، متغیر حجم یا تعداد صفحات کتاب، چندان نمی تواند در این مورد تأثیر گذار باشد.

نکتة دیگری که باید مورد توجّه قرار گیرد، این است که در تمامی موارد مورد بحث، فرض بر این است که فهرستنویس در مواردی که چند سرعنوان به کتابی می‌دهد، سرعنوان اوّل را به منزلة مرتبط‌ترین یا سرعنوان عمده، و سرعنوان (های) بعدی را به منزلة سرعنوانهایی که اهمیت آنها از سرعنوان اوّل به سرعنوانهای بعدی کاهش می‌یابد، در نظر می‌گیرد. در این مورد باید اذعان داشت، نمایه ساز انسانی همواره در معرض اشتباهات انسانی شامل پیشینة ذهنی و یا سایر موارد قرار دارد، امّا در این جا می توان استدلال کرد چه از ضریب وزنی استفاده بشود چه نشود، این اشتباهات در فهرستنویسی موضوعی اجتناب‌ناپذیر است.

● راه‌حلّ پیشنهادی برای فهرست برگه‌ها

راه حلّ پیشنهادی برای فهرستبرگه‌ها عبارت است از افزودن دو عدد در پایان هر سرعنوان موضوعی، به گونهای که عدد اوّل که در کمانک گذاشته می‌شود. رتبه سرعنوان و عدد دوم که بدون کمانک است، تعداد سرعنوانهای داده شده به کتاب را نشان دهد. می‌توان به طور قراردادی، برای تک سرعنوان از هیچ عددی استفاده نکرد. بدین ترتیب:

▪ «آموزش و پرورش»، یک سرعنوان است.

▪ «آموزش و پرورش (۱)۲»، اوّلین سرعنوان از دو سرعنوان است.

▪ «آموزش و پرورش (۱)۳»، اولین سرعنوان از سه سرعنوان است.

▪ «آموزش و پرورش (۲)۳»، دومین سرعنوان از سه سرعنوان است.

▪ «آموزش و پروش (۲)۵»، دومین سرعنوان از پنج سرعنوان است.

اگر این اعداد در هنگام برگه آرایی در نظر گرفته شود، کاربر در هنگام جستجوی مطالبی دربار? آموزش و پرورش، نخست سرعنوانهایی را می‌یابد که تکی و در نتیجه، دارای بیشترین وزن موضوعی هستند. در مراحل بعدی، سرعنوانهایی را پیدا می کند که اولین هستند، اما تنها سرعنوان نیستند. اینها اگر چه از نظر موضوعی وزن سرعنوانهای گروه اوّل را ندارند، امّا نسبت به سرعنوانی مانند «آموزش و پرورش(۲)۵» که دومین سرعنوان از پنج سرعنوان است، وزن بیشتری دارند. با انجام چنین کاری، کاربر مطالب مربوط را از مرتبط‌ترین تا کم ارتباط‌ترین پیدا می کند. در ادامه، چند نمونه از یک نسخه از کتابشناسی ملّی ایران (کتابشناسی ملی ایران، ۱۳۷۵، ۱، ۲۹۷) ارائه خواهد شد. اگر چه همة نمونه ها از فهرستبرگه های کتابشناسی ملّی ایران گرفته شده، امّا به دلیل صرفه‌جویی در فضای نوشته، تنها عناوین و سرعنوانهای موضوعی هر فهرستبرگه ارائه خواهد شد:

▪ آمار و کاربرد آن در مدیریت

ـ آمار

ـ مدیریت ـ روشهای آماری.

▪ آمار کاربردی در اقتصاد و بازرگانی

ـ آمار

ـ آمار بازرگانی

ـ اقتصاد ـ روشهای آماری.

▪ آمار و احتمال مقدماتی

ـ احتمالات

ـ آمار.

▪ آمار کاربردی

ـ علوم اجتماعی ـ روشهای آماری

ـ مدیریت ـ روشهای آماری

ـ اقتصاد ـ روشهای آماری

ـ آمار.

با بررسی چهار سرعنوان «آمار» در بالا، مشخص می‌شود وزنهای موضوعی یکسانی ندارند، زیرا رتبه هر سرعنوان و تعداد سرعنوانهای دیگر موجود در هر فهرستبرگه، متفاوت است. امّا در فهرستنویسی سنّتی، تمام این سرعنوانها، هنگامی که در بالاترین سطر فهرستبرگه تایپ و فهرستبرگه‌های مربوط در جای الفبایی خود برگه‌آرایی می‌شوند، عملاً وزنی یکسان خواهند داشت. در حالی که اگر به روش بالا برای هر یک ضریب وزنی درخور تعیین شود و این ضریبها در برگه‌آرایی نیز منظور شوند، بازیابی از مرتبط‌ترین تا کم ارتباط‌ترین انجام و بدین ترتیب اصل ویژگی نیز رعایت می شود. بدین ترتیب، سرعنوانهای «آمار» به ترتیب زیر ضریب دار می شوند:

▪ کتاب اول: آمار(۱)۲

▪ کتاب دوم: آمار(۱)۳

▪ کتاب سوم: آمار(۴)۴

ترتیب برگه‌آرایی نیز طبیعتاً همان ترتیب بالاست؛ یعنی برای سرعنوانهای همانند، نخست شماره های مساوی درون کمانک در کنار هم و به ترتیب شماره های بعدی از کم به زیاد مرتّب می شوند و آن گاه، شماره های درون کمانک که مقدار بیشتری دارند، می‌آیند. بدیهی است، در نمونة بالا، تنها سرعنوانهای «آمار» با ضریب وزنی نشان داده شده‌اند و سرعنوانهای دیگر نیز باید برای بازیابی‌های مربوط، ضریبهای وزنی مناسب داشته باشند.

● راه‌حلّ پیشنهادی برای نرم افزارهای کتابخانهای

در نرم افزارهای کتابخانهای معمولاً دو نوع جستجوی موضوعی امکان پذیر است: «موضوع سرعنوانی» و «موضوع کلیدواژهای». این عبارتها در نرم‌افزارهای متفاوت ممکن است به شکلهای متفاوتی به کار بروند. در جستجو از طریق موضوع سرعنوانی، فرض بر این است که کاربر عین سرعنوان موضوعی را در محلّ جستجو و گزینة «موضوع سرعنوانی» را در «فیلد جستجو» وارد می‌کند. در این حالت، شماره گذاری سرعنوانها به روش بالا می‌تواند راه حلّ مناسبی برای تعیین وزن سرعنوانها باشد. در این حالت، تنها وجود الگوریتمی ساده، رایانه را قادر می‌سازد تا سرعنوانهای سنگین وزن تر را در آغاز و سبک وزن تر را در مراحل بعدی بازیابی کند. بدیهی است، به دلیل ناآشنایی اغلب کاربران با ساختار سرعنوانهای موضوعی، آنان ترجیح می دهند بیشتر از جستجوی «موضوع کلیدواژهای» استفاده کنند.

در فرایند جستجوی «موضوع کلیدواژهای»، فرض بر این است که رایانه، کلیدواژه‌های مندرج در سرعنوانهای موضوعی را بازیابی می کند. در این حالت، اگر کاربر کلیدواژ? «آمار» را در محل جستجو، و گزینة «موضوع کلیدواژهای» را در «فیلد جستجو» وارد نماید، رایانه باید کلید واژ? «آمار» را، افزون بر سرعنوانهایی که دارای واژ? «آمار» به منزلة سرعنوان اصلی هستند، در سرعنوانی مانند «آموزش و پرورش ـ ایران ـ آمار» نیز پیدا کند. در چنین حالتی، این که واژ? «آمار» در کجای سرعنوان قرار دارد نیز اهمیت پیدا می‌کند. نکته قابل بررسی این است که وقتی از مفهوم اهمیت موضوعی در بخشهای مختلف یک سرعنوان سخن به میان می‌آید، نمی‌توان با قاطعیت اظهار نظر کرد که در سرعنوانی مانند «آموزش و پرورش ـ ایران ـ آمار» کدام یک از دو مفهوم ایران و آمار اهمیت بیشتری دارند، زیرا چنین ترکیبی به نظر می‌رسد بیشتر تابع دستورات کتاب سرعنوانهای موضوعی باشد تا منطقی دیگر. در نتیجه، مهم این است که آیا واژگان «ایران» و «آمار» به منزلة بخش اوّل یا مهم سرعنوان آمده اند یا نه. بدین ترتیب، آنچه در این حالت مهم است، اتّخاذ تمهیدی است تا به وسیلة آن رایانه بتواند بخش اوّل را از بخشهای بعدی در یک سرعنوان تمیز دهد. بدیهی است، این نکته نیز همچنان باقی است که این بخش اوّل در سرعنوانی با چه رتبهای و در میان چند سرعنوان قرار دارد.

نکتة دیگری که در جستجوی «موضوع کلیدواژهای» باید مورد بررسی قرار گیرد، دو حالتی است که جستجو در آنها انجام می شود: جستجو بدون استفاده از عملگرهای بولی و جستجو با استفاده از این عملگرها. این دو حالت در ادامه بررسی می‌شوند.

در حالت اول، هنگامی که کاربر جستجوی «موضوع کلیدواژهای» را با یک تک واژه یا عبارت انجام می دهد، اگر تک واژه در سرعنوانی با یک یا چند تقسیم فرعی وجود داشته باشد، رایانه تنها کافی است پس از شناسایی اینکه سرعنوانی که کلید واژ? مورد جستجو در آن قرار دارد، دارای چه رتبهای و در میان چند سرعنوان دیگر است تشخیص دهد که آیا کلید واژ? مورد نظر کاربر در بخش اوّل آمده است یا نه. مثال زیر این نکته را روشن‌تر می‌کند. فرض کنیم کاربری در هنگام جستجوی «موضوع کلیدواژهای»، واژ? «آمار» را در محل جستجو وارد کرده است. آن چه روشن است اینکه کاربر، قصد دارد کتابی دربار? آمار بیابد امّا این احتمال وجود دارد که رایانه، سرعنوانی مانند «آموزش و پرورش ـ ایران ـ آمار» را، به دلیل وجود واژ? «آمار» در آن بازیابی کند که منظور نظر کاربر نیست. امّا اگر سرعنوان بالا به روش زیر شماره‌گذاری شود: «آموزش و پرورش (۱) ـ ایران ـ آمار» به گونه‌ای که شمار? یک نشان دهد بخش اوّل، «آموزش و پرورش» است و الگوریتم بازیابی به گونهای نوشته شده باشد که در این حالت، تنها کلیدواژه هایی را پیدا کند که با شمار? یک مشخّص شده‌اند، این بازیابی نادرست یا ریزش کاذب رخ نخواهد داد.

در حالت دوم، الگوریتم بازیابی باید به گونهای نوشته شود که رایانه بتواند سه کلید واژ? مورد نظر کاربر را در سه حالت مختلف بررسی کند. دلیل این که از سه کلیدواژه نام برده شد این است که به نظر می رسد نرم افزارهای کتابخانهای حداکثر تا سه محل برای سه کلیدواژه فراهم می‌کنند. اکنون فرض کنیم کاربری کتابی در مورد «آمار آموزش و پرورش ایران» می خواهد. او احتمالاً بنا به عادت زبان طبیعی خود، در محل اول، کلیدواژ? «آمار»، در محل دوم، کلیدواژ? «آموزش و پرورش»، و در محل سوم، کلیدواژ? «ایران» را تایپ خواهد کرد. در صورتی که سرعنوان «آموزش و پرورش(۱) ـ ایران ـ آمار» در پیشینه‌های مربوط وجود داشته باشد، رایانه هر سه کلیدواژه را از این نظر که کدام یک در بخش اوّل سرعنوانهای با تقسیمات فرعی قرار می گیرد آزمایش خواهد کرد و پس از گزینش سرعنوانهایی که بخش اوّل آنها «آموزش و پرورش» است، در تقسیمات فرعی این سرعنوانها به جستجوی دو کلیدواژ? دیگر خواهد رفت. بدین ترتیب، اگر در هر سرعنوان، افزون بر مشخّص شدن بخش اوّل، معین شده باشد که سرعنوان، دارای رتبه چندم و در میان چند سرعنوان است، بازیابی مدارک مرتبط به صورتی بهینه انجام خواهد گرفت. شایان ذکر است، در این جا منظور از بخش اوّل هر سرعنوان، تنها بخش اوّل در سرعنوان با تقسیمهای فرعی نیست بلکه در سرعنوانهای با نقطه نیز می باشد.

نمونه‌های زیر از یک نسخه کتابشناسی ملّی ایران (کتابشناسی ملی ایران، ۱۳۷۵، ۱، ۴۵۶ـ۴۵۷) احتمالاً به درک بهتر موضوع کمک می‌کند:

● رویش و پرواز: چهار پاره

▪ شعر فارسی ـ قرن ۱۴ ـ مجموعه‌ها.

... کشتی طوفان کربلا ...

▪ شعر مذهبی ـ قرن ۱۴ ـ مجموعه‌ها.

▪ شعر فارسی ـ قرن ۱۴ ـ مجموعه‌ها.

مدایح و مراثی آل محمد (ص): مجموعه زیبا و جانسوز شعرای بنام و معاصر ایران ... به ضمیمهای از سروده‌های اسلامی

▪ چهارده معصوم ـ شعر.

▪ شعر مذهبی ـ قرن ۱۴ ـ مجموعه‌ها.

▪ شعر فارسی ـ قرن ۱۴ ـ مجموعه‌ها.

● عاشقانه‌ها: گزینه سرودهای شاعران امروز ایران

▪ شعر عاشقانه فارسی ـ قرن ۱۴.

▪ شعر آزاد ـ مجموعه‌ها.

▪ شاعران ایرانی ـ قرن ۱۴.

▪ شعر فارسی ـ قرن ۱۴ ـ مجموعه‌ها.

در چهار کتاب بالا که تنها عناوین و سرعنوانهای موضوعی فهرستبرگه‌های آنها در این جا ارائه شده است، سرعنوان «شعر فارسی ـ قرن ۱۴ ـ مجموعه‌ها». در چهار رتبه متفاوت در چهار فهرستبرگه دیده می شود. بدیهی است، چنانچه این سرعنوانها به روش بالا دارای ضریب وزنی شوند، در بازیابی، سرعنوان کتاب چهارم با ضریب وزنی (۴)۴ در آخر و سرعنوان کتاب اوّل بدون ضریب وزنی (به معنای یک از یک) در آغاز قرار می‌گیرد. امّا در این جا لازم می‌آید این سرعنوانها ضریب دیگری نیز داشته باشند، زیرا قرار است مورد جستجوی «موضوع کلیدواژهای» نیز قرار گیرند. بدین ترتیب و با توجّه به استدلال بالا که تنها بخش اوّل هر سرعنوان در این مرحله اهمیت دارد، بخشهای اوّل هر سرعنوان (در این جا، «شعر فارسی») باید ضریبی داشته باشند تا بر مبنای آن به منزلة کلیدواژ? اصلی استخراج گردند. از آنجا که این ضریب تنها در سرعنوانهای با تقسیم فرعی کارآیی دارد، افزودن شمار? یک در کمانک به سرعنوان اصلی، احتمالاً برای این منظور کفایت می‌کند. بدین ترتیب، سرعنوانهای موضوعی چهار کتاب بالا به صورت زیر در می‌آید:

▪شعر فارسی(۱) ـ قرن ۱۴ ـ مجموعه‌ها.

▪ شعر مذهبی(۱) ـ قرن ۱۴ ـ مجموعه‌ها(۱)۲.

▪ شعر فارسی(۱) ـ قرن ۱۴ ـ مجموعه‌ها(۲)۲.

▪ چهارده معصوم(۱) ـ شعر(۱)۳.

▪ شعر مذهبی(۱) ـ قرن ۱۴ـ مجموعه‌ها(۲)۳.

▪ شعر فارسی(۱) ـ قرن ۱۴ ـ مجموعه‌ها(۳)۳.

▪ شعر عاشقانه فارسی(۱) ـ قرن ۱۴(۱)۴.

▪ شعر آزاد(۱) ـ مجموعه‌ها(۲)۴.

▪ شاعران ایرانی(۱) ـ قرن ۱۴(۳)۴.

▪ شعر فارسی(۱) ـ قرن ۱۴ ـ مجموعه‌ها(۴)۴.

در این شرایط، رایانه در پاسخ به کاربری که خواهان مجموعه‌های شعر فارسی در قرن ۱۴ است مدارک دارای سرعنوانهای موضوعی زیر را به ترتیب زیر بازیابی می‌کند:

۱) شعر فارسی(۱) ـ قرن ۱۴ ـ مجموعه‌ها.

۲) شعر فارسی(۱) ـ قرن ۱۴ ـ مجموعه‌ها(۲)۲.

۳) شعر فارسی(۱) ـ قرن ۱۴ ـ مجموعه‌ها(۳)۳.

۴) شعر فارسی(۱) ـ قرن ۱۴ ـ مجموعه‌ها(۴)۴.

در این حالت، مدارک مربوط با توجّه به کلید واژ? اصلی که با شمار? (۱) مشخّص شده و بر حسب رتبه سرعنوانها بازیابی می شوند.

● راه حلّ پیشنهادی برای مارک ایران

مارک ایران در بازیابی اطّلاعات همانند سایر نرم افزارهای کتابخانهای عمل می‌کند؛ یعنی هم می تواند فهرستبرگه تولید کند و هم به منزلة ابزاری برای بازیابی اطّلاعات مورد استفاده قرار گیرد، با این تفاوت که بر یک استاندارد جهانی مبتنی است.

در مارک ایران در بلوک ـ ـ ۶ که بلوک تجزیه و تحلیل موضوعی نام دارد، هشت فیلد به شرح زیر برای سرعنوانهای موضوعی وجود دارد (مارک ایران، ۱۳۸۱، ۲۰۵):

▪ ۶۰۰ ( نام شخص به منزله موضوع)

▪ ۶۰۱ ( نام تنالگان به منزله موضوع)

▪ ۶۰۲ ( نام خاندان به منزله موضوع)

▪ ۶۰۴ ( پدیدآور و عنوان به منزلة موضوع)

▪ ۶۰۵ ( عنوان به منزله موضوع)

▪ ۶۰۶ ( موضوع (اسم عام یا عبارت اسمی عام)

▪ ۶۰۷ ( نام جغرافیایی به منزله موضوع)

▪ ۶۱۰ ( اصطلاحهای موضوعی کنترل نشده)

همگی این فیلدها تکرار پذیرند و درون آنها نخستین فیلد فرعی یعنی به عنصر شناسهای اختصاص دارد که مثلاً در فیلد ۶۰۶ «حاوی اصطلاح، به همان شکلی است که سرعنوان موضوعی مورد استفاده تعیین کرده است». (مارک ایران، ۱۳۸۱، ۲۳۰). فیلدهای فرعی (تقسیم فرعی شکلی)، (تقسیم فرعی موضوعی)، (تقسیم فرعی جغرافیایی)، و (تقسیم فرعی دورهای) افزون بر سایر فیلدهای فرعی، کمابیش در تمامی این فیلدها وجود دارند.

اکنون برای نشان دادن راه حلّ پیشنهادی در مارک ایران، نمونه های بالا را در فیلدهای مارک ایران می گذاریم:

۱) آمار.

۲) مدیریت ـ روشهای آماری.

▪ ۶۰۶۱#آمار$۲nli@

▪ ۶۰۶۲#مدیریتروشهای آماری@

۱) آمار.

۲) آمار بازرگانی.

۳) اقتصاد ـ روشهای آماری.

▪ ۶۰۶۱#آمار$۲nli@

▪ ۶۰۶۲#آمار بازرگانی$۲nli@

▪ ۶۰۶۲#اقتصادروشهای آماری$۲nli@

۱) احتمالات.

۲) آمار.

▪ ۶۰۶۱#احتمالات$۲nli@

▪ ۶۰۶۲#آمار$۲nli@

۱) علوم اجتماعی ـ روشهای آماری.

۲) مدیریت ـ روشهای آماری.

۳) اقتصاد ـ روشهای آماری.

۴) آمار.

▪ ۶۰۶۱#علوم اجتماعیروشهای آماری$۲nli@

▪ ۶۰۶۲#مدیریتروشهای آماری$۲nli@

▪ ۶۰۶۲#اقتصادروشهای آماری$۲nli@

▪ ۶۰۶۲#آمار$۲nli@

چنانکه مشاهده می‌شود، در تمام موارد بالا فیلد ۶۰۶ بر حسب لزوم تکرار شده است و در همة فیلدها، فیلد فرعی به منزلة «عنصر شناسهای» وجود دارد. اگر چه در صفحة ۲۱ از دستنامة مارک ایران در مورد «ترتیب فیلدها» نوشته شده که «نظم خاصی برای ضبط فیلدها در یک رکورد پیش بینی نشده است. نظم حاکم بر فهرست راهنمای فیلدها ممکن است با ترتیب ضبط فیزیکی فیلدها یکی نباشد». امّا در مارک ایران، و مثالهای ارائه شده در انتهای «دستنامة مارک ایران» نیز نشان می‌دهد می‌توان نظم فیلدهای موضوعی را بر حسب نظم ارائه آنها در یک فهرستبرگه انتخاب نمود. این نکته در مارک ایران در مورد نظم فیلدهای فرعی نیز صدق می‌کند؛ بدین معنا که جز در مواردی خاص که فیلدهای فرعی از نظمی خاص پیروی می‌کنند، ترتیب خاصّی برای فیلدهای فرعی در نظر گرفته نشده است. در مثالهای ارائه شده در انتهای کتاب «دستنامة مارک ایران» نیز نظم فیلدهای فرعی موضوعی، همان ترتیب سرعنوان اصلی و تقسیمهای فرعی در سرعنوانهای موضوعی است. بدین ترتیب، هم در پیشینة مارک ایران رتبه هر سرعنوان مشخّص می‌شود و هم می توان با افزودن یک الگوریتم ساده، این امکان را فراهم ساخت که رایانه هنگام تولید فهرستبرگه، با احتساب فیلدهای موضوعی و رتبه هر سرعنوان، ضرایب وزنی لازم را در انتهای هر سرعنوان موضوعی اضافه کند. لازم به توضیح است، اگر چه در تمام نمونه‌های بالا از فیلد۶۰۶ استفاده شده است، امّا استفاده از فیلدهای موضوعی دیگر نیز تفاوتی به وجود نمی آورد و راه حلّ پیشنهادی به قوّت خود باقی است.

در نمونه های بالا، سرعنوانهای با تقسیم فرعی نیز وجود دارند و به اعتباری، مسألة تعیین بخش اوّل یا مهم هر سرعنوان با استفاده از فیلد فرعی «عنصر شناسهای» تا حدودی روشن شده است. با این حال، یکی از نمونه‌های مربوط به جستجوی «موضوع کلیدواژهای» برای وضوح بیشتر، با استفاده از نشانه گذاری مارک ایران، در زیر ارائه می‌شود:

۱) شعر عاشقانه فارسی ـ قرن ۱۴.

۲) شعر آزاد ـ مجموعه‌ها.

۳) شاعران ایرانی ـ قرن ۱۴.

۴) شعر فارسی ـ قرن ۱۴ ـ مجموعه‌ها.

▪ ۶۰۶۱#شعر عاشقانه فارسیقرن ۱۴$۲nli@

▪ ۶۰۶۲#شعر آزادمجموعه‌ها$۲nli@

▪ ۶۰۶۲#شاعران ایرانیقرن ۱۴$۲nli@

▪ ۶۰۶۲#شعر فارسیقرن ۱۴مجموعه‌ها$۲nli@

در نمونة بالا، باز هم مشاهده می شود که ترتیب فیلدهای موضوعی را می‌توان همان ترتیب سرعنوانهای موضوعی در نظر گرفت و فیلد فرعی (عنصر شناسهای) نیز مشخّص می کند که جستجوی موضوع کلیدواژهای، چگونه در سرعنوان اصلی می تواند انجام شود.

● نتیجه‌گیری و پیشنهادها

در صورت پذیرش پیشنهادهای بالا بهتر است:

۱) این ضرایب وزنی در شناسه های کتابشناسی ملّی ایران ـ چه به صورت چاپّی و چه به صورت لوح فشرده ـ اعمال شود تا از این پس در کتابخانه های گوناگونی که از این کتابشناسی در راستای فهرستنویسی بهره می‌گیرند، به کار رود.

۲) در نرم افزارهای کتابخانهای نیز این ضرایب ـ خواه به صورت رویکردی آینده نگر و خواه به صورت رویکردی گذشته‌نگر ـ انجام شود.

۳) در نرم افزارهای آتی فرمت مارک ایران، الگوریتمهای لازم برای تولید این ضریبها در فهرستبرگه‌های تولیدی از طریق جستجوی «موضوع کلیدواژهای» در مارک ایران در نظر گرفته شود.

دکتر مرتضی کوکبی[۱]

منابع

ـ بیزا ـ ییتس، برتیه ریکاردو و نتو ریبرو (۱۳۸۴). قلمروهای نو در بازیابی اطلاعات، ترجمة علی حسین قاسمی با همکاری سیروس آزادی، علی جوامع، تهران: چاپار.

ـ پولیت، ا. استون (۱۳۸۰). نظامهای ذخیره و بازیابی اطلاعات: خاستگاه، توسعه و کاربردها/ ترجمه محمدحسین دیانی، جعفر مهراد. ـ شیراز: کتابخانه منطقهای علوم و تکنولوژی شیراز.

ـ حسن‌زاده، محمد (۱۳۸۳). تأثیر مدلهای بازیابی اطلاعات بر میزان ربط. اطلاع‌شناسی، ۲ (۱)، ۶۴ـ۸۹.

ـ فتاحی، رحمت الله و مهدی طاهری (۱۳۷۵). فهرستنویسی: اصول و روشها ـ ویراست۴. ـ تهران: کتابدار.

ـ کتابشناسی ملی ایران، فروردین ۱۳۴۹ـ .

ـ تهران: کتابخانه ملی ایران، ۱۳۴۹ ـ (شماره ۸۳، نیمه اوّل ۱۳۷۵)

ـ کینن، استلا (۱۳۷۸). فرهنگ فشرد? کتابداری و اطلاع‌رسانی، ترجمه و تدوین فاطمه اسدی کرگانی، مقابله و ویرایش عبدالحسین آذرنگ. ـ تهران: کتابدار.

ـ گراسمن، دیوید ا. و فریدر افیر (۱۳۸۴). بازیابی اطلاعات : الگوریتمها و روشهای اکتشافی؛ ترجمه جعفر مهراد و سارا کلینی، مشهد : کتابخانه رایانهای ؛ شیراز : کتابخانه منطقهای علوم و تکنولوژی.

ـ مارک ایران/ کمیتة ملی مارک ایران. ـ تهران : کتابخانه ملی جمهوری اسلامی ایران، ۱۳۸۱.

ـ هارتلی، آر. ج. ... [و دیگران] (۱۳۸۰). اصول و روشهای جستجوی پیوسته/ ترجمة زاهد بیگدلی. ـ مشهد : کتابخانه رایانهای.

۱. دانشیار گروه کتابداری دانشگاه شهید چمران اهواز: kokabi۸۰@Yahoo.com

۲. Term weighting.

۱. Keenan.

۲. Pollitt.

۳. Hartley.

۴. Baeza-Yates and Ribeiro-Neto.

۵. Grossman and Frieder.

۱. Post-coordinate indexing.

۲. Pre-coordinate indexing.