پنجشنبه, ۲۷ دی, ۱۴۰۳ / 16 January, 2025

مجله ویستا

پایائی (reliability)

در جامعهٔ ما نمره‌های آزمون‌ها نقش تعبین‌کننده‌ای در بسیاری از امور دارند. در کلاس‌های مدارس ابتدائی، کودکان اغلب براساس عملکردشان در آزمون‌های ریاضی و مهارت‌های خواندن، در گروه آموزشی متفاوت جایگزین می‌شوند. در برخی دبیرستان‌ها دریافت‌ گواهینامهٔ پایان دورهٔ متوسطه مستلزم گذراندن آزمون‌های حداقل شایستگی است. در بسیاری از دانشگاه‌ها و مدارس عالی تخصصی و دوره‌های تحصیلی بعد از لیسانس آزمون‌ها بخشی از برنامهٔ پذیرش دانشجو است.

- توصیف آزمون‌های توانائی برحسب دو بُعد:

هر آزمون در نقطه‌ای از پیوستار استعداد ـ پیشرفت و همچنین در نقطه‌ای از پیوستار عمومی ـ اختصاصی قرار دارد. برای مثال یک آزمون واژگان زبان فرانسه یا آزمون ماشین‌نویسی (تعداد واژه‌هائی که آزمودنی می‌تواند در یک دقیقه بدون اشتباه تایپ کند) در انتهاء 'پیشرفت' پیوستار استعداد ـ پیشرفت، و در انتهاء 'اختصاصی' پیوستار عمومی ـ اختصاصی قرار دارد.

نیم‌رخ استعداد موسیقی که مستلزم داشتن معلومات قبلی در زمینه نیست و به‌منظور پیش‌بینی قابلیت فرد برای بهره‌گیری از دروس موسیقی طرح شده، آزمونی است که یک توانائی بسیار اختصاصی را می‌سنجد و در عین حال در انتهاء 'استعداد' بعد استعداد ـ پیشرفت قرار دارد. اکثر آزمون‌های هوش مانند مقیاس‌های هوشی استانفورد ـ بینه (Stanford - Binet) و کسلر (Wechler) تا حدود زیادی جبنهٔ عمومی دارند به این معنی که سلسله توانائی‌هائی را می‌سنجد که بیشتر برای سنجش استعداد طراحی شده‌اند تا سنجش میزان تسلط بر مهارت‌ها. آزمون‌های پیشرفت تحصیلی از قبیل آزمون استعداد تحصیلی و برنامهٔ ارزیابی دانشگاهی آمریکا نیز کمابیش عمومی هستند، زیرا فراگیری‌های کلامی و استدلال ریاضی و درک مطلب را می‌سنجد و ادعای سنجش تسلط در رشته‌های مشخصی را ندارند.

بسیاری از دانش‌آموزان دبیرستان که به ادامهٔ تحصیل در دانشگاه علاقه‌مند هستند مجبور هستند آزمون استعداد تحصیلی و یا آزمون ورودی مشابهی نظیر برنامهٔ ارزیابی دانشگاهی آمریکا را بگذرانند. نمره‌های این آزمون‌ها همراه با نمره‌های دورهٔ دبیرستان و ملاک‌های دیگر تعیین می‌کنند که چه کسانی به دانشگاه‌ها راه می‌یابند. داوطلبان دانشگاه‌های حقوق و پزشکی مجبور به گذراندن آزمون‌های ورودی ویژه‌ای هستند: آزمون ورودی دانشکدهٔ حقوق (Law School Admission Test ـLSAT) و آزمون ورودی دانشگاه پزشکی (Medical College Admission Test ـ MCAT). در بسیاری از دوره‌های تحصیلات بعد از لیسانس در دانشگاه‌ها، گذراندن امتحان ورودی تحصیلات بعد از لیسانس (Graduate Record Examination ـ GRE) برای داوطلبان اجباری است. داوطلبان ورود به دوره‌های آموزش مشاغل تخصصی (مانند دندان‌پزشکی، پرستاری، داروسازی، حسابداری و مدیریت بازرگانی) باید آزمون‌های ورودی ویژه‌ای را بگذرانند و پس از پایان تحصیلات خود نیز باید آزمون‌های دیگری را بگذرانند تا بتوانند پروانهٔ کار یا گواهینامهٔ تخصص دریافت دارند. دریافت پروانهٔ کار برای اشتغال تقریباً در هر حرفه‌ای اعم از لوله‌کشی، آرایشگری، فیزیوتراپی، طبابت، روانشناسی بالینی و یا وکالت، مستلزم گذراندن امتحانات کتبی است. علاوه بر این‌ها در بسیاری از ادارات دولتی و مؤسسات صنعتی گزینش داوطلبان کار، یا جایگزینی و ترفیع کارکنان براساس نمره‌های آزمون‌ها صورت می‌گیرد.

از آنجا که آزمون‌ها چنین نقض مهمی در زندگی افراد دارند، لازم است دقیقاً همانا چیزی را بسنجند که برای سنجش آن ساخته شده‌اند، و نمره‌های حاصل از آنها میزان معلومات و مهارت‌های افراد را به‌درستی نشان دهند. هر آزمون در صورتی می‌تواند مفید باشد که نمره‌های حاصل از آن هم معتبر (Valid) و هم پایا (reliable) باشند.

پایائی (reliability)

نمره‌های آزمون هنگامی پایا محسوب می‌شوند که در آزمایش‌های مکرر تغییر نکنند. آزمون‌ها به دلایل متعددی ممکن است ناپایا باشند. سؤال‌های مبهم و گیج‌کننده ممکن است در مواقع مختلف برای آزمودنی معانی متفاوتی داشته باشند. آزمون‌ها ممکن است بیش از حد کوتاه باشند و در نتیجه معرف توانائی‌های مورد آزمایش نباشند، و یا نمره‌گذاری آنها به شیوه‌ای بسیار شخصی صورت گیرد. آزمونی که به‌هنگام اجراء در موقعیت‌های گوناگون و یا نمره‌گذاری توسط افراد مختلف نتایج متفاوتی به‌دست دهد ناپایا به ‌حساب می‌آید. چنین وضعی شبیه استفاده از یک خط‌کش لاستیکی است. اگر ندانیم این خط‌کش در موقع اندازه‌گیری چقدر کش می‌آید در آن صورت علی‌رغم دقت کافی در اندازه‌گیری باز هم نتایج اندازه‌گیری ناپایا خواهد بود. از نتایج آزمون در صورتی می‌توان با اطمینان خاطر استفاده کرد که آزمون پایائی داشته باشد.

برای ارزیابی میزان پایائی باید برای هر آزمودنی در یک آزمون واحد دو اندازه در دست باشد. این دو اندازه از راه بازآزمائی فرد با آزمون واحد یا آزمایش فرد با دو صورت متفاوت ولی هم ارز آزمون، و تحلیل جداگانهٔ دو نیمهٔ آزمون واحد به‌دست می‌آید هرگاه در موارد هر یک از آزمودنی‌ها مقدار این دو اندازه تقریباً برابر باشد می‌توان آزمون را پایا به ‌حساب آورد. البته در مورد آزمون‌های پایا نیز ممکن است به‌ خاطر عوامل تصادف و خطاهای اندازه‌گیری، بین دو نمرهٔ یک فرد تفاوتی وجود داشته باشد. در نتیجه ناگزیر باید یک شاخص آماری از رابطهٔ بین سلسله نمره‌های جفتی افراد به‌دست آورد. ضریب همبستگی (r) میزان این رابطه را به‌دست می‌دهد. ضریب همبستگی بین دو سلسله نمرهٔ گروهی از افراد در یک آزمون واحد ضریب پایائی نامیده می‌شود. ضریب پایائی آزمون‌هائی که با دقت ساخته شده‌اند معمولاً برابر ۹۰/۰ و یا بیشتر است.

اعتبار

هر آزمون هنگامی معتبر شناخته می‌شود که همان چیزی را بسنجد که برای اندازه‌گیری آن ساخته شده است. یک امتحان دانشگاهی در رشتهٔ اقتصاد که مملو از سؤالاتی پیچیده یا فریب‌دهنده است ممکن است به‌جای مطالب آموخته شده در زمینهٔ اقتصاد، توانائی کلامی دانشجویان را بسنجد. چنین امتحانی ممکن است پایائی داشته باشد (به این معنی که هر دانشجو در بازآزمائی نمره‌ای معادل نمرهٔ قبلی خود به‌دست آورد)، اما نمی‌توان آن را آزمون معتبری برای سنجش میزان فراگیری آن درس تلقی کرد. یا می‌توان آزمونی برای سنجش میزان شوخ‌طبعی تهیه کرد که سؤال‌های آن متشکل از شوخی‌هائی باشد که درک آنها بسیار دشوار است مگر برای افراد بسیار باهوش یا افرادی که کتاب‌های فراوان خوانده باشند. چنین آزمونی ممکن استت چیزی (مثلاً شاید هوش یا پیشرفت تحصیلی) را به صورتی پایا بسنجد ولی آزمون معتبری برای سنجش شوخ‌طبعی نباشد.

برای اندازه‌گیری اعتبار باید برای هر فرد دو نمره به‌دست آورد: نمرهٔ آزمون، و شاخص دیگری از توانائی مورد آزمایش. این شاخص دوم ملاک (criterion) خوانده می‌شود. فرض کنید آزمونی برای پیش‌بینی موفقیت در ماشین‌نویسی ساخته شده است. برای تعیین اعتبار این آزمون، آن را به گروهی از افراد پیش از فراگیری فن ماشین‌نویسی می‌دهند. پس از پایان دورهٔ آموزشی، تعداد کلماتی که هر آزمودنی می‌تواند در یک دقیقه به طور صحیح ماشین کند تعیین می‌شود؛ و این شاخصی است از میزان موفقیت افراد که به‌عنوان ملاک از آن استفاده می‌شود. اینک می‌توان بین نمره‌های آزمون و نمره‌های ملاک ضریب همبستگی حساب کرد. این ضریب همبستگی که به‌عنوان ضریب اعتبار (Validity coefficient) شناخته می‌شود اطلاعاتی در مورد ارزش آزمون از لحاظ هدفی که در ساختن آن موردنظر بوده، به‌دست می‌دهد. هرچه ضریب اعتباری بزرگتر باشد دقیق‌تر می‌توان براساس نتایج آزمون دست به پیش‌بینی زد.

مع‌هذا در بسیاری از آزمون‌ها سنجش توانائی‌هائی مطرح است که در مقایسه با مهارت ماشین‌نویسی حوزهٔ گسترده‌تری دارند و اندازه‌گیری آنها دشوارتر است. برای مثال، از نمره‌های آزمون ورودی دانشکدهٔ پزشکی (همراه با سایر اطلاعات) به‌منظور گزینش دانشجویان پزشکی استفاده می‌شود. اگر هدف آزمون، پیش‌بینی موفقیت دانشجو در دانشکدهٔ پزشکی باشد می‌تواند میانگین نمره‌های درسی او را به‌عنوان ملاک به‌کار برد، و محاسبهٔ همبستگی بین نمره‌های آزمون ورودی دانشکدهٔ پزشکی و میانگین نمره‌های درسی یکی از شیوه‌های تعیین اعتبار آن آزمون خواهد بود. اما اگر بخواهیم براساس نمرهٔ دانشجو در این آزمون موفقیت او را به‌عنوان یک پزشک پیش‌بینی کنیم در آن صورت اعتباریابی آزمون دشوار تر می‌شود. در این مورد چه ملاکی باید انتخاب شود؟ درآمد سالانه، دستاوردهای تحقیقاتی، کمک به بهزیستی جامعه، ارزش پزشک از دیدگاه بیماران با همکاران، یا دعاوی مربوط به سوءاستفاده از حرفهٔ پزشکی؟ حتی اگر مجریان آزمون بتوانند در مورد یکی از این ملاک‌ها به توافق برسند تازه اندازه‌گیری آن احتمالاً دشوار خواهد بود.

نکتهٔ مهمی که لازم است در اینجا خاطرنشان شود این است که در ارزیابی یک آزمون باید به کاربردهای احتمالی و استنتاج‌های آینده براساس نمره‌های آن نیز توجه داشت.

همسانی شرایط اجرای آزمون

پایائی و اعتبار آزمون به میزان زیادی بستگی دارد به رعایت همسانی در شیوهٔ اجراء و نمره‌گذاری آن. در سنجش توانائی نیز مثل هر نوع اندازه‌گیری علمی دیگر باید شرایط کنترل شود تا تأثیر متغیرهای نامربوط به حداقل ممکن برسد. بنابراین، آن دسته از آزمون‌های توانائی قبول عام یافته‌اند که دستورالعمل‌های اختصاصی، حدهای زمانی (یا فقدان محدودیت زمانی در مورد برخی آزمون‌ها)، و شیوه‌های نمره‌گذاری روشن و مشخصی دارند. توضیحات آزماینده و نحوهٔ ارائه موارد آزمون به آزمودنی باید در تمام اجراءهای آزمون یکسان باشد.

البته نمی‌توان همهٔ متغیرهای نامربوط را پیش‌بینی یا کنترل کرد. مثلاً جنسیت و نژاد آزماینده مسلماً تغییر می‌کند. این قبیل ویژگی‌های فردی، و نیز سلوک عمومی آزماینده (مانند حالت چهره و لحن صدای وی) ممکن است بر عملکرد آزمودنی اثر بگذارند. هر چند این‌گونه متغیرها قابل کنترل نیستند اما در ارزیابی نتایج آزمون باید به اثر احتمالی آنها توجه داشت. مثلاً اگر پسربچهٔ سیاهپوستی که به‌وسیلهٔ یک زن سفیدپوست آزمایش شده عملکرد ضعیفی در آزمون داشته باشد. ممکن است در برابر یک آزمایندهٔ مرد سیاه‌پوست به همان اندازه اضطراب یا انگیزش نشان ندهد.

همچنین مشاهده کنید

روزنامه شرق

پنجشنبه, ۲۷ دی, ۱۴۰۳ / 16 January, 2025

پایائی (reliability)

جیغ رادیکالیسم

ادعای کارشناس ایرانی در لس‌آنجلس درباره مهار آتش همه را شوکه کرد! …

بحران آلودگی هوا بازار دستگاه‌های تصفیه هوا را داغ کرد/ نجات‌دهنده‌های …

برگهای قدرت را دیگر در دست نداریم/ شرایط امروز ایران مانند سال ۶۷ …

حیف شد! | یادداشت عباس عبدی درباره‌ی ابراهیم نبوی | انصاف نیوز

ترامپ به دنبال نیمه نمایش، نیمه دیپلماسی در مذاکره با ایران است - …

این صنار باقی مانده را به غزه بدهیم یا به لس‌آنجلس؟!

سرمایه گذاری در مسکن یا خودرو؟ کدام یک بهتر است؟

آرامش قبل از توفان

به افق مرگ

چند سوال از مهدی کوچک‌زاده درباره مالیات و لس‌آنجلس

اقتصاد ایران درگیر طولانی‌ترین دوره تورم یکصد سال اخیر / رویکرد بانک …

شغل‌های مناسب دانشجویی در ایران چیست؟ | روزنو

توافق حماس و اسرائیل قطعی شد

رفتار مشابه کشورهای تحریم شده؛ از ایران تا روسیه+ فیلم

رادیکال‌ها؛ سوار بر موج استیضاح

چراغ سبز ایران برای مذاکره برابر+ فیلم

نگاهی از درون به توافق ایران و روسیه

ابراهیم نبوی کیست؟ | پایان تلخ طنزپردازی که در غربت چشم به راه بازگشت …

پزشکیان در گفتگو با ان‌. بی‌. سی نیوز: ایران هیچ نقشه‌ای برای ترور …

فیلم عجیب ترین دوقلوهای به هم چسبیده جهان ! / هم حمام جداگانه می روند …

ویروس اچ‌ پی‌ وی را بهتر بشناسید

در رابطه درستی قرار دارید؟

اسپرم و رحم در ایران با این اسم رمز خرید و فروش می شود

روش‌های پاک کردن صفحه گوشی بدون آسیب

با خیار و آلوئه ورا سیاهی دور چشماتو از بین ببر+فیلم - سبک ایده آل

امین زندگانی قید پدر شدنش را زد !+ فیلم

این نوشیدنی از مغز محافظت می‌کند

تصویر روز | تغییر چهره جنجالی و عجیب «مریم مؤمن و بهاره افشاری» در …

آداب درست رفتار در رستوران/ راهنمای کامل برای تجربه‌ای لوکس و بی‌دغدغه

بیل گیتس از تلخ ترین شکست زندگی خود پرده برداشت

مرگبارترین عقرب دنیا در ایران ساکن است!

پوست میوه‌ها برای سلامت بدن مضر است یا مفید؟ - سبک ایده آل

6 عادت روزمره که برای کبد خطرناک هستند

تصویر روز | استایل عجیب «بهاره راهنما، السا فیروز آذر و زهرا داوودنژاد» …

مهراوه شریفی نیا از اخلاق حرفه‌ای امین حیایی می‌گوید

عکس/چهره «ترانه علیدوستی» در ۴۰ سالگی

۱۰ نشانه از خوشبختی که تنها اقلیتی از مردم دنیا دارند! - سبک ایده …

راهنمای خرید بهترین هاچ‌بک غیرچینی با بودجه کمتر از دو میلیارد

چرا «چای‌خورها» عمر طولانی‌تری دارند؟ - فراشپز