پنجشنبه, ۲۰ دی, ۱۴۰۳ / 9 January, 2025
مجله ویستا

مسائل زبان و خط فارسی در ذخیره سازی و بازیابی اطلاعات


مسائل زبان و خط فارسی در ذخیره سازی و بازیابی اطلاعات

بانك های اطلاعاتی فارسی , پیش از آن كه فرهنگستان زبان معیارهای لازم را برای كاربرد اصطلاحات علمی و رسم الخط فارسی تعیین كند شكل گرفتند

بانك‌های‌ اطلاعاتی‌ فارسی‌، پیش‌ از آن‌ كه‌ فرهنگستان‌ زبان‌ معیارهای‌ لازم‌ را برای‌كاربرد اصطلاحات‌ علمی‌ و رسم‌الخط فارسی‌ تعیین‌ كند شكل‌ گرفتند. مجریان‌بانك‌های‌ اطلاعاتی‌ و نمایه‌سازان‌، خواسته‌ یا ناخواسته‌ ـ با مسائل‌ واژه‌ گزینی‌ و جنبه‌هایی‌ از زبانشناسی‌ درگیر شدند. در كار واژه‌ گزینی‌، اطلاع‌‌رسانان‌ ـ به‌ لحاظ ماهیت‌ حرفه‌خود ـ واژه‌های‌ رایج‌ در جامعه‌ تولیدكنندگان‌ و استفاده‌ كنندگان‌ از اطلاعات‌ را مد نظردارند و خود را مجاز به‌ واژه‌سازی‌ و اعمال‌ سلیقه‌ نمی‌دانند. واژه‌های‌ تازه‌ ساخت‌ نیز تازمانی‌ كه‌ در جامعه‌ مقبولیت‌ لازم‌ را به‌ دست‌ نیاورده‌ باشند و در مدارك‌ به‌ كرات‌ دیده ‌نشوند، در نظام‌های‌ ذخیره‌ و بازیابی‌ اطلاعات‌ یا ظاهر نمی‌شوند و یا میهمان‌ چندروزه‌اند. بخش‌ قابل‌ توجهی‌ از مشكلات‌ نمایه‌‌سازان‌ از رواج‌ و كاربرد واژه‌ ناشی‌ می‌شود.متخصصان‌ برای‌ یك‌ مفهوم‌ واحد اصطلاحات‌ متفاوت‌ به‌ كار می‌برند. حتی‌ متخصصانی‌كه‌ در یك‌ رشته‌ و در یك‌ جامعه‌ كوچك‌ كار می‌كنند خود را ملزم‌ به‌ هماهنگی‌ در كاربرد واژه‌های‌ تخصصی‌ نمی‌بینند. به‌ علاوه‌ برای‌ بسیاری‌ از اصطلاح‌های‌ وارداتی‌ معادل‌های ‌متفاوت‌ در زبان‌ فارسی‌ وجود دارد كه‌ در مواردی‌ همه‌، كم‌ و بیش‌، به‌ یك‌ اندازه‌ كاربرد دارند. این‌ گونه‌ مطالب‌ به‌ علاوه‌ مسائل‌ رسم‌الخط فارسی‌، آوانویسی اسامی‌ عناصر وتركیبات‌ شیمیائی‌، سرواژه‌ها و كوته‌‌نوشته‌ها سبب‌ شده‌ است‌ تا ذخیره‌ اطلاعات‌ به‌ زبان‌فارسی‌ با كندی‌ صورت‌ گیرد و جستجو و بازیابی‌ كارایی‌ مطلوب‌ را نداشته‌ باشد.در این‌ مقاله‌ سعی‌ خواهد شد نمونه‌ هایی‌ از تجربه‌های‌ واژه‌ گزینی‌ در ذخیره ‌اطلاعات‌ ارائه‌ شود تا با‌ توجه‌ به‌ آنها، شاهد تسریع‌ و تسهیل‌ ذخیره‌ و بازیابی ‌اطلاعات‌ به‌ زبان‌ فارسی‌ باشیم‌. كتابداران‌ از مدتها پیش‌ دریافتند كه‌ رابطه‌ای‌ مستقیم‌ و الزامی‌ بین‌ تحلیل‌ موضوعی ‌مطالب‌ و زبانشناسی‌ وجود دارد. این‌ رابطه‌ با پیدایش‌ علم‌ اطلاع‌‌رسانی‌ و كاربرد رایانه‌ در این‌ رشته‌، شتاب‌ و اهمیت‌ بیشتری‌ یافت‌. امروزه‌ اطلاع‌‌رسانی‌ و اصطلاح‌شناسی ‌شاخه‌‌هایی‌ از علوم‌ را تشكیل‌ می‌دهند كه‌ ارتباطی‌ نزدیك‌ و مداوم‌ بین‌ آن‌ها برقرار است‌. دانش‌ اطلاع‌رسانی‌ در حوزه‌ء فعالیت‌ خود عمدتاً با اطلاعات‌ نوشتاری‌، كه‌ زبان‌ وسیله ‌اصلی‌ انتقال‌ آن‌ است‌، سروكار دارد. متخصصان‌ در مناسبات‌ علمی‌ از زبان‌های‌ ویژه ‌استفاده‌ می‌كنند. هسته ء ‌اصلی‌ هر زبان‌ ویژه‌، اصطلاحات‌ علمی‌ یا واژگان‌ آن‌ است‌. این‌اصطلاحات‌ برای‌ ارتباط علمی‌ و انتقال‌ صحیح‌ اطلاعات‌ به‌ كار گرفته‌ می‌شود و چنانچه ‌دچار هرج‌ و مرج‌ و نابسامانی‌ شود، طبعاً زبان‌ تفهیم‌ و تفاهم‌ و جریان‌ درست‌ اطلاعات ‌مختل‌ می‌شود. كتابداران‌ و اطلاع‌‌رسانان‌ كه‌ رابط بین‌ تولیدكنندگان‌ و مصرف‌ كنندگان‌ اطلاعات‌ هستند، پیش‌ از سایر متخصصان‌ ضرورت‌ استانداردكردن‌ واژگان‌ علوم‌ را دریافتند و همزمان‌ با توسعه‌ بانك‌های‌ اطلاعاتی‌ به رعایت آن‌ اصرار ورزیدند.در كشورهای‌ غربی‌ بیش‌ از ۳۰ سال‌ است‌ كه‌ رایانه‌ها در ذخیره‌ و بازیابی‌ اطلاعات ‌و ایجاد پایگاه‌های‌ اطلاعات‌ كتابشناختی‌ به ‌‌كار گرفته ‌‌شده‌اند. در این‌ مدت ‌اصطلاحنامه‌های‌ تخصصی‌ متعددی‌ كه‌ بعضی‌ از آنها شهرت‌ و اعتبار دارند، باهمكاری‌ متخصصان‌ موضوعی‌ و زبانشناسان‌ تدوین‌ گردیدند. رایانه‌ها از جهت‌سخت‌افزاری‌ و نرم‌افزاری‌ پیشرفت‌ كردند و ما امروزه‌ شاهد استفاده‌ از سیستم‌های ‌هوشمند در ذخیره‌ و بازیابی‌ اطلاعات‌ هستیم‌.در نظام‌های‌ اطلاعاتی‌، واژه‌ها به‌ دوگونه‌ "زبان‌ آزاد" و "زبان‌ مهارشده‌" ظاهر می‌گردند. در استفاده‌ از زبان‌ آزاد، اصطلاح‌های‌ تخصصی‌ بدون‌ آن‌ كه‌ هیچ‌ گونه‌ كنترلی‌ درمورد آن‌ها اعمال‌ شود، به‌ همان‌ صورت‌ كه‌ در مدارك‌ آمده‌اند، در سیستم‌ وارد و ذخیره‌ می‌شوند. مسوولیت‌ توجه‌ به‌ كلیه‌ اصطلاحات‌ معادل‌ و شكل‌های‌ متفاوت‌ نوشتاری‌ یك‌اصطلاح‌ هنگام‌ بازیابی‌ اطلاعات‌ به‌ عهده‌ كاربر است‌. حسن‌ این‌ روش‌ كاهش‌ زمان ‌آماده‌سازی‌ و پردازش‌ اطلاعات‌ و تقلیل‌ نیاز به‌ نیروی‌ متخصص‌ است‌.انواع‌ نمایه‌های‌ گردان‌ (۱)كه‌ براساس‌ چرخش‌ عنوان‌های‌ مدارك‌ و الفبایی‌ كردن‌ هر یك‌ از واژه‌های‌ عنوان‌ طراحی‌ شده‌اند، از این‌ نوع‌ اند. در استفاده‌ از زبان‌ مهار شده‌، نظام‌های‌ ذخیره‌ و بازیابی‌ اطلاعات‌ با بهره‌گیری‌ از متخصصان‌ موضوعی‌ و صرف‌ وقت‌ و نیروی‌ قابل‌ ملاحظه‌ای‌ می‌كوشند تا اطلاعات‌ را در قالب‌ زبانی‌ مهار شده‌ و مقید ذخیره‌ كنند تا كاربر و رابط اطلاعات‌(۲) در زمانی‌ كوتاه‌تر وبا نیرویی‌ كمتر، درصد بالایی‌ از اطلاعات‌ پایگاه‌ را بازیابی‌ نمایند. اصطلاحنامه‌های ‌تخصصی‌(۳) ابزار كار این‌ روش‌اند. نظام‌های‌ بازیابی‌ تمام‌ متن‌(۴) و آزاد متن‌(۵) كه‌ با رواج‌استفاده‌ از شبكه‌ جهانی‌ وب‌ شناخته‌ شدند، از زبان‌ آزاد و زبان‌ مهار شده‌، تؤاماً در سیستم‌های‌ هوشمند سود می‌جویند.در ایران‌ این‌ امور سابقه‌ چندانی‌ ندارد. از عمر پایگاههای‌ اطلاعاتی‌ فارسی‌ بیش‌ از۱۰ سال‌ نمی‌گذرد. پیش‌ از آن‌ كه‌ فرهنگستان‌ زبان‌ معیارهای‌ لازم‌ را برای‌ كاربرد اصطلاحات‌ علمی‌ و رسم‌الخط فارسی‌ تعیین‌ كند، پایگاه‌های‌ اطلاعاتی‌ شكل‌ گرفتند و مجریان‌ آن‌ها و نمایه‌‌سازان‌، خواسته‌ یا ناخواسته‌، با مسائل‌ واژه‌‌گزینی‌ و جنبه‌‌هایی‌ از زبانشناسی‌ درگیر شدند.البته‌ در این‌ مدت‌ به‌ مدد رسانه‌های‌ ارتباطی‌ و بهره‌گیری‌ از دانش‌ و تجربه‌ كشورهای‌ پیشرفته‌، بسیاری‌ از مراحل‌ را شتابان‌ پیمودیم‌ و شاید بسیاری‌ از مشكلات‌ را چون‌ دیگر مشكل‌ به‌ حساب‌ نمی‌آمدند، حس‌ نكردیم‌. ولی‌ بتدریج‌ كه‌ برحجم‌ اطلاعات‌ فارسی‌ افزوده‌ شد، دشواری‌های‌ خط و زبان‌ فارسی‌ خودنمایی‌ كرد، از محاسن‌ روش‌های‌ ذخیره‌ و بازیابی‌ كاست‌ و بر معایب‌ آنها افزود، حل‌ آن‌ها روزبه‌‌روز مشكل‌تر شد و اعمال‌ بعضی‌ روش‌های‌ ماشینی‌ ممكن‌ نگردید.كتابداران‌ و اطلاع‌‌رسانان‌ كه‌ به‌ لحاظ ماهیت‌ حرفه‌ خود با واژه‌های‌ رایج‌ در جامعه‌ء ‌تولیدكنندگان‌ و مصرف‌‌كنندگان‌ اطلاعات‌ سر و كار دارند، خود را مجاز به‌ اعمال‌ سلیقه ‌نمی‌دانند. خط و زبان‌ هم‌ مطلبی‌ نیست‌ كه‌ بتوان‌ با اجرای‌ الگوهای‌ غربی‌ بر مسایل‌ آن‌ فایق ‌آمد. تنها با استمداد از نهادهای‌ مسوول‌ و یاری‌ آنها می‌توانند به‌ رفع‌، و یا حداقل‌ مهار این‌مشكلات‌ بپردازند. نویسنده‌ء ‌ مقاله‌ به‌ عنوان‌ یكی‌ از كسانی‌ كه‌ با مسائل‌ پایگاه‌های ‌اطلاعاتی‌ مدارك‌ فارسی‌ سر و كار داشته‌ و آن‌ها را تجربه‌ كرده‌ است‌، تلاش‌ خواهد كرد درحد حوصله‌ و وقت‌ مقاله‌ نمونه‌هایی‌ ارائه‌ دهد تا مشخص‌ گردد دشواری‌های‌ زبان‌ و خط فارسی‌ چگونه‌ سبب‌ می‌شود اولاً ـ در نظام‌هایی‌ كه‌ براساس‌ زبان‌ آزاد طراحی‌ شده‌اند به ‌دلیل‌ تعدد اصطلاح‌های‌ معادل‌ و پراكندگی‌ آن‌ها در محل‌های‌ الفبایی‌ مختلف‌، مشخص‌ نبودن‌ حد كلمه‌ در واژه‌های‌ مركب‌ و استاندارد نبودن‌ شكل‌ نوشتاری‌ كلمات‌، نتیجه‌ جستجو جامعیت‌ مطلوب‌ را نداشته‌ باشد. ثانیاً در نظام‌‌‌هایی‌ كه‌ از زبان‌ مهارشده ‌بهره‌ می‌گیرند به‌ دلیل‌ همین‌ مسایل‌، نیرو و زمانی‌ بیش‌ از آنچه‌ تصور می‌رود برای‌ واژه‌گزینی‌ و معادل‌ یابی‌، هماهنگی‌ و یكسان‌ سازی‌ شكل‌ نوشتاری‌ اصطلاحات‌ صرف‌ شود.

پی‌نوشت‌ها:

۱. Permuted Index

۲. Information intermediary

۳. Thesaurus

۴. Full-Text

۵. Free-Text

۶. هاشمی‌، ابوالفضل‌ (۱۳۷۶). واژگان‌ كتابداری‌ و اطلاع‌ رسانی‌. تهران‌، دبیرخانه‌ هیأت‌امنای‌ كتابخانه‌های‌ كشور.

۷. Boolean logic

۸. Recall ratio

۹. Truncation

۱۰. حق‌ شناس‌، علی‌ محمد (۱۳۷۲). در جست‌ و جوی‌ زبان‌ علم‌. مجموعه‌ مقالات‌سمینار زبان‌ فارسی‌ در زبان‌ علم‌. تهران‌: مركز نشر دانشگاهی‌. ص‌ ۱۳-۶.

منابع:

آشوری‌، داریوش‌ (۱۳۷۵). بازاندیشی‌ زبان‌ فارسی‌; ده‌ مقاله‌، ویرایش‌ دوم‌. تهران‌: نشرمركز.

اكبری‌ نژاد، سعید (۱۳۷۶). فاصله‌ خالی‌ میان‌ واژه‌ها در ذخیره‌ و بازیابی‌ رایانه‌ای‌اطلاعات‌. فصلنامه‌ كتاب‌. (بهار و تابستان‌). ص‌ ۵۶-۴۹.

امامی‌، كریم‌ (۱۳۷۱). لزوم‌ بازنگری‌ در شیوه‌ نگارش‌ خط فارسی‌. آدینه‌. ۷۴/۷۳(شهریور) ص‌ ۱۹-۱۸.

باطنی‌، رضا (۱۳۷۱). نگاهی‌ تازه‌ به‌ شیوه‌ خط فارسی‌. آدینه‌. ۷۵ (آبان‌). ص‌ ۴۵-۴۴.

بهزادی‌، ماندانا (۱۳۷۵). شیوه‌ ضبط اعلام‌ انگلیسی‌ در فارسی‌. تهران‌: مركز نشر دانشگاهی‌ ;كتابخانه‌ ملی‌ جمهوری‌ اسلامی‌ ایران‌.

حری‌، عباس‌ (۱۳۷۲). كامپیوتر و رسم‌الخط فارسی‌، پیام‌ كتابخانه‌. سال‌ سوم‌. شماره‌ ۱.(بهار) ص‌ ۱۱-۶.

حق‌ شناس‌، علی‌ محمد (۱۳۷۲). در جست‌ و جوی‌ زبان‌ علم‌. مجموعه‌ مقالات‌ سمینارزبان‌ فارسی‌ در زبان‌ علم‌. تهران‌: مركز نشر دانشگاهی‌. ص‌ ۱۳-۶.

صنعتی‌، محمد (۱۳۷۱). دشواری‌های‌ زبان‌ فارسی‌ با كامپیوتر. آدینه‌. ۷۲ (مرداد).

ص‌ ۵۷-۵۶.

كابلی‌، ایرج‌ (۱۳۷۱). فراخوان‌ برای‌ فارسی‌ نویسی‌ و پیشنهاد به‌ تاجیكان‌. آدینه‌. ۷۲

(مرداد) ص‌ ۵۵-۵۰.

مآخذنمونه‌ها

امینی‌، سید محمد (۱۳۷۰). واژگان‌ فیزیك‌. تهران‌: مركز نشر دانشگاهی‌.

باقری‌، محمد (۱۳۷۲). واژگان‌ ریاضی‌. تهران‌: نشر فرهنگان‌.

بریجانیان‌، ماری‌ (۱۳۷۱). فرهنگ‌ اصطلاحات‌ فلسفه‌ و علوم‌ اجتماعی‌، ویرایش‌ بهاءالدین‌ خرمشاهی‌. تهران‌: مؤسسه‌ مطالعات‌ و تحقیقات‌ فرهنگی‌.

پورجوادی‌، علی‌. واژگان‌ شیمی‌ و مهندسی‌ شیمی‌، تهران‌: مركز نشر دانشگاهی‌.

هاشمی‌، سید محمد (۱۳۷۶). واژگان‌ كتابداری‌ و اطلاع‌رسانی‌. تهران‌: دبیرخانه‌ هیأت‌امنای‌ كتابخانه‌های‌ عمومی‌ كشور.

همایون‌، همادخت‌ (۱۳۷۱). واژه‌ نامه‌ زبانشناسی‌ و علوم‌ وابسته‌. تهران‌: مؤسسه‌ مطالعات‌و تحقیقات‌ فرهنگی‌.

نوشته: لیلا مرتضائی‌

عضو هیأت‌ علمی‌ مركز اطلاعات‌ و مدارك‌ علمی‌ ایران‌


شما در حال مطالعه صفحه 1 از یک مقاله 3 صفحه ای هستید. لطفا صفحات دیگر این مقاله را نیز مطالعه فرمایید.