چهارشنبه, ۱۹ اردیبهشت, ۱۴۰۳ / 8 May, 2024
مجله ویستا


مروری بر نمایه‌سازی معانی پنهان: نظریه و کاربردها


مروری بر نمایه‌سازی معانی پنهان: نظریه و کاربردها
نمایه‌سازی معانی پنهان روشی است که اطلاعات را در قالب معانی ذخیره می‌کند، و از رابطهٔ پنهان میان اصطلاحات و متن استفاده می‌نماید. در این روش معایب توجه به اصطلاح در یک سند به صورت منفرد، برطرف می‌گردد. در نظام بازیابی که به این روش فراهم می‌آید، به‌جای تطبیق لغوی اصطلاحات کلیدی، رابطهٔ معنایی میان اصطلاحات نیز مورد توجه قرار می‌گیرد. در این مقاله، نظریه و کاربردهای نمایه‌سازی معانی پنهان در نظام‌های بازیابی مورد بررسی قرار می‌گیرند.
در میان گونه‌های مختلف اطلاعات موجود در اینترنت، بیشتر اطلاعات، بخصوص اسناد و مدارک علمی، دارای قالب‌بندی متنی می‌باشند و بنابراین بازیابی اطلاعات متنی از اهمیت بسیاری برخوردار است (Kowalski, ۱۹۹۷).
برای آنکه بازیابی اسناد در اینترنت امکان‌پذیر باشد، باید روشی مناسب برای پیاده‌سازی، ذخیرهٔ اسناد و نمایه‌سازی انتخاب گردد. در میان روش‌های گوناگون پیاده‌سازی سند و درخواست، غالباً روش «فضای بُرداری» [۲] مورد استفاده قرار می‌گیرد. در این روش، سند و درخواست به صورت بُردارهایی از فرکانس یا وزن اصطلاحات نمایه، پیاده‌سازی می‌گردند. در میان فرمول‌های کلاسیک وزن‌دهی اصطلاحات نمایه، ساده‌ترین فرمول، استفاده از فراوانی، و بسامد معکوس می‌باشد: IDF*W=TF
در این روش، وزن هر اصطلاح از ضرب دفعات تکرار اصطلاح در سند (TF) [۳] در دفعات تکرار اصطلاح در کل اسناد (IDF) به‌دست می‌آید. برای آن‌که طول اسناد در وزن اصطلاحات، اثرگذار نباشد می‌توان وزن نهایی را با استفاده از طول سند، «نرمال» کرد. درنهایت هر سند به یک بُردار تبدیل خواهد شد؛ با مقایسهٔ بین‌بُردار درخواست و بردار سند، اسناد مرتبط [۴] بازیابی می‌گردند. یکی از روش‌های معمول برای محاسبهٔ شباهت میان‌ بردارها، محاسبهٔ زاویهٔ میان بردار درخواست و بردار سند است. هرچه زاویهٔ میان این دو بردار کمتر باشد، سند و درخواست، شبیه‌ترند (شکل شماره ۱)(Salton, ۱۹۸۳). درنهایت پس از نمایه‌سازی و محاسبهٔ وزن برای تمامی اصطلاحات کلیدی سند، یک ماتریس به نام ماتریس اصطلاح ـ سند [۵] به دست خواهد آمد. هر سطر از این ماتریس، بردار مشخصهٔ یکی از اسناد می‌باشد و هر مدخل از ماتریس، وزن‌های محاسبه‌شده در اسناد است (شکل شماره ۲)(Salton, ۱۹۸۳).
مسعود بهمن آبادی