سه شنبه, ۹ بهمن, ۱۴۰۳ / 28 January, 2025
مجله ویستا

نمونه گیری آماری و مشکلات آن


نمونه گیری آماری و مشکلات آن

بیشتر داده هایی که اقتصاددانان استفاده می کنند از راه نمونه گیری به دست آمده است تنها هر از گاهی پیش می آید که داده های در اختیار ما از آنچه آماردانان با قلمبه نویسی «جامعه یا جهان» می نامند به دست آمده باشد

بیشتر داده‌هایی که اقتصاددانان استفاده می‌کنند از راه نمونه‌گیری به دست آمده است. تنها هر از گاهی پیش می‌آید که داده‌های در اختیار ما از آنچه آماردانان با قلمبه‌نویسی «جامعه یا جهان» می‌نامند به دست آمده باشد؛

یعنی حالتی که همه موارد مرتبط را در اختیار داریم. یک دلیل نمونه‌گیری، پرهزینه بودن سرشماری و جمع‌آوری تمام داده‌ها است، به‌طوری که سعی می‌شود با تعداد تا جای ممکن کمتر مشاهداتی که منطقا پذیرفتنی است کارمان را راه بیندازیم. دلیل دیگر این است که وقتی بیشتر تئوری‌ها را آزمون می‌کنیم، چاره‌ای نخواهیم داشت که نمونه‌گیری کنیم چون که بیشتر تئوری‌ها به صورت عبارات کلی بیان می‌شوند، از قبیل «وقتی نرخ رشد عرضه پول افزایش چشمگیری می‌یابد، نرخ تورم بالا می‌رود». چنین عباراتی قصد دارند برای دامنه گسترده‌ای از شرایط گذشته، حال و آینده به‌کار روند.

این فراگیر بودن نمونه‌گیری، دو مساله مهم را مطرح می‌سازد که باید مورد توجه قرار گیرد. نخست، آیا نمونه به صورتی استخراج شده است که با احتمال بالایی آن را نماینده و شاخص جامعه و جهان سازد و دوم اینکه پرسش‌هایی که در ادامه می‌آید نیازمند بحثی انتزاعی‌تر از آنچه تاکنون بحث شده است، می‌باشد.

۱) انتخاب نمونه فراگیر

نمونه فراگیر به نمونه‌ای گفته می‌شود که ویژگی‌های مورد علاقه ما از جامعه مدنظر را دارا باشد. برای نمونه اگر می‌خواهیم نسبت مردمان حومه‌نشینی را که در شنبه شب به سینما می‌روند برآورد کنیم، با ایستادن در جلوی محوطه پارک خودروی یک سینما در شنبه شب و پرسش از رهگذران که آیا شنبه شب‌ها به سینما می‌روید نمونه خود را انتخاب نمی‌کنیم، اما انتخاب نام‌های اول هر صفحه کتاب راهنمای تلفن، نمونه به حد کافی تصادفی به ما خواهد داد؛ به شرطی که در شنبه شب به آنها تلفن نکنیم. کسانی که به جزئیات توجه دارند شاید با این نمونه‌گیری نیز مخالفت کنند که کاملا تصادفی نیست چون مردمی که غالبا شنبه شب‌ها به سینما می‌روند احتمال دارد کمتر در خانه باشند حتی وقتی در سایر زمان‌ها به آنها تلفن می‌کنید.

وقتی اقتصاددان‌ها با داده‌های حاضر و آماده کار می‌کنند که اغلب اوقات همین‌طور است، نمونه‌ها کاملا تصادفی نیست، اما نتایج نباید خیلی غیرواقعی باشد و حتی وقتی اختلال زیاد باشد، نمونه غیرفراگیر- که معمولا «نمونه با سوگیری» نامیده می‌شود- برخی اوقات هنوز هم اطلاعات مفیدی ارائه می‌کند. فرض کنید نمونه ما در جهت عکس تئوری‌ای که آزمون می‌کنیم سوگیری دارد. اگر با این وجود، تئوری ما هنوز سربلند از آزمون بیرون آید، این آزمون تئوری را بیشتر از یک آزمون که سوگیری ندارد تقویت می‌کند. با همه اینها، این پرسش که آیا نمونه‌گیری سوگیری جدی دارد و اگر این‌طور است در کدام جهت، نیازمند توجه و دقت است.

۲) مراقب نمونه‌های نامناسب باشید

سوگیری به معنای غیرفراگیر بودن نمونه، تنها چیزی نیست که نمونه را نادرست می‌سازد. مشکل دیگر این است که احتمال دارد نمونه ارتباط نزدیک و کافی با آنچه نویسنده و پژوهشگر ادعا می‌کند نداشته باشد. یک مثال خوب در این زمینه، استدلالی است که فدرال رزرو باید نرخ تورم را پایین و مثلا زیر ۳ درصد نگه دارد چون که داده‌ها نشان می‌دهد تورم رشد اقتصاد را پایین می‌آورد. اگر نمونه‌ای از کشورها با نرخ‌های تورم بسیار گوناگون را انتخاب کنیم متوجه می‌شویم که با فرض ثبات سایر شرایط، رابطه منفی بین نرخ تورم و رشد اقتصادی وجود دارد، اما این رابطه منفی تماما به خاطر وجود کشورهایی است که نرخ تورم بالا دارند؛ بنابراین استدلالی علیه مثلا نرخ تورم ۲ درصدی ارائه نمی‌کند. (نمی‌خواهیم منکر این شویم که تورم حتی پایین هم برخی اثرات بد دارد، اما این توجیهی برای سوء‌استفاده از آمار نمی‌باشد.)

پس از انتشار کتاب «منحنی زنگی شکل» توسط ریچارد هرنستین و چارلز ماری، بحث زیادی در این‌باره وجود داشته است که آیا تفاوت در میانگین نمرات ضریب هوشی سیاه‌پوستان و سفیدپوست‌ها آن‌طور که کتاب آنها ادعا می‌کند تا حدودی به علت عوامل ژنتیکی بوده است. (واقعا امکان جدا کردن دقیق عوامل محیطی از عوامل ژنتیکی وجود ندارد، اما فرض کنیم امکانش هست.) یک استدلال این بوده است که درون جامعه کلی، تفاوت‌های محیطی در بین افراد، x امتیاز در یک آزمون ضریب هوشی به حساب می‌آید، به طوری که اگر شکاف سفیدها- سیاهان مثلا x۲ باشد، پس عوامل ژنتیکی باید نصف دلیل آن تفاوت به حساب آیند. در این جا خطایی وجود دارد که اگر به طور متوسط تفاوت در عوامل محیطی بین سیاهان و سفیدان بزرگ‌تر از میانگین تفاوت در عوامل محیطی در کل جامعه باشد که چنین انتظاری بسیار قابل تامل است، پس این انتظار می‌رود که تفاوت عوامل محیطی، بیش از x امتیاز در تفاوت میانگین نمرات ضریب هوشی سیاهان- سفیدها نقش داشته باشد. به عبارت دیگر، تفاوت عوامل محیطی در بین جامعه کلی، نمونه نادرستی است تا تفاوت بین سیاه و سفید بر آن اساس بحث شود.

۳) مطالعه رگرسیونی: بنا نهادن سوگیری در نمونه

نوع متفاوت دیگری از دام‌های موجود در استدلال کردن بر اساس آنچه نمونه نشان می‌دهد که به مطالعه رگرسیونی معروف است، نیازمند توجه بیشتری است. چون حالت نامحسوس و پنهانی داشته و به سختی ردیابی می‌شود. پس به این منظور به هشت مثال زیر نگاه می‌کنیم. نمونه کلاسیکی این خطا را که نام مطالعه هم از آن گرفته شده است، متخصص بزرگ ژنتیک سر فرانسیس گالتون (۱۸۳۳ تا ۱۹۱۱) مرتکب شد. او نمونه‌ای از مردان با دستاوردهای علمی عالی را انتخاب کرد و متوجه شد که به طور میانگین، پسرهای آنها دستاوردهای علمی کمتری نسبت به پدران خود داشتند؛ آنها به سمت میانگین جامعه برگشت کرده بودند (که معنای رگرسیون هم همین است)، او از چنین یافته‌ای، نتیجه بدبینانه‌ای گرفت که توانایی علمی از نسلی به نسل دیگر در حال کاهش است. او اشتباه می‌کرد. چرا؟ خب، چون تمام پدران این فرزندان، افرادی با دستاوردهای درخشان بودند و پسران آنها نهایت زوری که می‌توانستند بزنند- یعنی اگر همه آنها شبیه پدرانشان افراد با دستاوردهای عالی می‌شدند- باعث می‌شدند تا توانایی علمی از نسلی به نسل دیگر ثابت به نظر برسد و حتی اگر فقط چند تا از آنها موفقیت علمی کسب نکرده باشند پس از آزمون گالتون لزوما نشان خواهد داد که توانایی علمی در حال کاهش است؛ اما اگر گالتون به جای نگاه به پسران به پدران مردان با دستاوردهای عالی نگاه کرده بود- که برخی از آن پدران اصلا آدم‌های موفقی نبودند- پس او درمی‌یافت که توانایی علمی از نسلی به نسل دیگر در حال افزایش بوده است، چون همه پسران متعلق به نسل دوم، افراد با دستاوردهای عالی بودند که در غیراین‌صورت آنها در نمونه مورد بررسی گنجانده نمی‌شدند.

فرض کنید یک بررسی نشان می‌دهد برخی صنایع آمریکا که بیست سال پیش کاملا رقابتی بودند از آن زمان به بعد کمتر رقابتی شدند و از این یافته نتیجه می‌گیرد که رقابت در اقتصاد آمریکا کاهش یافته است. این نیز اشتباه است؛ چون اگر بررسی به یک نمونه از صنایع نگاه کرده بود که بیست سال پیش انحصاری بودند نتیجه‌ای که می‌گرفت کاملا عکس نتیجه بالا بود. برخی از آنها در این بیست سال رقابتی‌تر می‌شدند؛ به طوری که نتیجه گرفته می‌شد رقابت افزایش یافته است.

فرض کنید یک منطقه آموزش و پرورش، روشی جدید برای آموزش روخوانی را بررسی می‌کند. برای ارزیابی این روش، تمام دانش‌آموزانی که کمترین نمرات خواندن را گرفتند (مثلا ۲۵ درصد از کل دانش‌آموزان) انتخاب می‌شوند و روش جدید خواندن روی آنها امتحان می‌شود و معلوم می‌گردد در خواندن پیشرفت داشتند. پس اداره آموزش و پرورش از روش جدید استقبال می‌کند. سال بعد میانگین نمرات خواندن تمام دانش‌آموزان افت می‌کند. چگونه این را توضیح دهیم؟ نمونه دانش‌آموزانی که روش جدید روی آنها امتحان شد تماما کسانی را شامل می‌شدند که با روش قدیم خواندن چیزی یاد نمی‌گرفتند و توجهی به بقیه دانش‌آموزانی که روش قدیم خواندن برایشان مناسب‌تر از روش جدید بود، نشده بود.

بررسی‌های بسیاری وجود دارد که عملکرد صندوق‌های سرمایه‌گذاری مشترک را با آنچه که سرمایه‌گذاران به دست می‌آورند اگر که فقط یک نمونه فراگیر از سهام را می‌خریدند و به آنها تکیه می‌کردند مقایسه می‌کنند. یکی از دلایلی که چرا صندوق‌های سرمایه‌گذاری مشترک حرفه‌ای عملکردی پایین‌تر از کل بازار و بنابراین از یک نمونه سهام تصادفی انتخاب شده داشته‌اند، به این برمی‌گردد که بازارهای مالی تقریبا کارآ هستند و نیز چون صندوق‌های سرمایه‌گذاری مشترک، از سهامداران خود حق‌الزحمه‌ای بابت خدمات‌شان می‌گیرند که چندان هم کم نیست. برخی از بررسی‌های اولیه آنچه را طبیعی هست انجام دادند: آنها نمونه‌ای فراگیر از فهرست صندوق‌های سرمایه‌گذاری مشترک در حال حاضر موجود انتخاب کردند؛ اما چنین کاری یک سوگیری ایجاد کرد که «سوگیری بقا» نامیده می‌شود؛ چون صندوق‌های سرمایه‌گذاری مشترک که عملکرد بدی داشتند احتمال بیشتری دارد که نسبت به صندوق‌های سرمایه‌گذاری موفق‌تر ناپدید شده باشند. آنچه آنها باید انجام می‌دادند انتخاب یک نمونه از صندوق‌های سرمایه‌گذاری مشترک است که در آغاز دوره تحت پوشش وجود داشته‌اند.

فرض می‌کنیم نمونه‌ای فراگیر از کسانی که در حال حاضر بیکار هستند انتخاب کردید و از آنها می‌پرسید چه مدت بیکار بوده‌اند. از پاسخ‌های آنها، نتیجه می‌گیرید که میانگین دوره بیکاری، مثلا ۶ ماه است. این کارنادرست است. شخصی که به مدت مثلا ۱۲ ماه بیکار بوده است ۱۲ برابر احتمال بیشتری دارد که در ماه خاصی که اتفاقا شما نظرسنجی کردید بیکار باشد نسبت به کسی که فقط یک ماه بیکار بوده است؛ بنابراین ۱۲ برابر احتمال بیشتری دارد تا وی در نمونه شما شامل شده باشد؛ به طوری که تخمین به دست آمده از میانگین طول دوره بیکاری، سوگیری به سمت بالا دارد.اینجا یک مثال شخصی آوردم. بسیاری سال پیش، گالری ملی در واشنگتن پر ازدحام بود و من از سروصدای مردمی که با هم صحبت می‌کردند، ناراحت شده بودم. با شنیدن حرف‌های چند نفر که به آلمانی صحبت می‌کردند من فکر کردم: «آلمانی‌ها در موزه‌ها خیلی حرف می‌زنند.» این اشتباه بود. در آنجا شاید بسیاری آلمان‌های ساکت وجود داشتند که من آنها را نمی‌شناختم.

سرانجام، در فرهنگ عامه این‌طور پذیرفته شده است که اگر چیزی برای شما خیلی خوب شروع شده است و درباره آن به سایر مردم چیزی بگویید بدون این‌که «بزنم به تخته» بگویند در دور بعدی نتیجه بدتر خواهد شد. تجربه پشت این تصور چیست؟ یک مثال برای بهتر شدن وضع شما را شیر آمدن در انداختن سکه فرض کنیم و اینکه پنج بار پشت سر هم شیر آورده‌اید.۵۰ درصد احتمال هست که در دور بعدی انداختن سکه، خوش‌شانسی شما پایان یابد. از آنجا که احتمال می‌رود تا پس از اینکه چند بار شیر آوردید خوش‌شانسی خود را به کسی یادآوری نخواهید کرد، تعجبی ندارد که پس از اینکه درباره آن با دیگران صحبت کردید خوش‌شانسی شما پایان یابد. نمونه موارد و حالت‌هایی که اوضاع بد و خراب می‌شود پس از اینکه درباره آن با دیگران صحبت کردید نمونه‌ای فراگیر از همه موارد نیست؛ بلکه یک نمونه از مواردی است که شما در ابتدا خوش‌شانس بوده‌اید و در ماهیت خوش‌شانسی است که نمی‌توان انتظار داشت، همین‌طور ادامه یابد.

۴) اندازه نمونه و همزمانی

فرض می‌کنیم که از دام‌های مغالطه رگرسیونی گریخته‌اید و نمونه شما حالت فراگیری دارد، اما هنوز هم باید نگران این باشید که نمونه‌تان به حدکافی بزرگ است یا خیر. اشتباه رایج در بحث‌های علمی علم اقتصاد این است که از نمونه بسیار کوچکی استفاده می‌شود؛ ما میل به این داریم که جای اندکی برای همزمانی پدیده‌ها در نظر بگیریم. شاید که این از آرزوی ما برای دیدن جهان به صورت مکانی قابل پیش‌بینی ناشی می‌شود- و این واقعیت را نیز تبیین می‌کند که چرا ستاره‌شناسی هنوز در کنار علوم شکوفا می‌شود- و تا حدی از ناتوانی ما برای ملاحظه تعداد زیادی از مواردی است که امکان وقوع همزمانی یک پدیده وجود داشته است، اما واقع نشده است. اگر شانس رخ دادن چیزی ۱ در ۱۰۰ هزار باشد پس تعجب نکنید وقتی که آن یک بار در هر ۱۰۰ هزار بار رخ دهد و همه ما هزاران رویداد را هر هفته تجربه می‌کنیم. به نظر می‌رسد سقوط سه هواپیما در یک فرودگاه در عرض یک هفته نمی‌تواند تصادفی باشد، اما در یک دوره نمونه ۲۰ ساله، ۷۳۰۰ روز داریم و تعداد زیادی فرودگاه که در هر روز پروازهای زیادی دارند؛ به طوری که وقتی یک بار در هر ۲۰ سال درباره رخ دادن چنین رویدادی می‌شنوید به دنبال یک «علت عمیق» نباشید. البته منظور این نیست که نباید به دنبال یک عامل مشترک بگردید، اما می‌خواهیم بگوییم خیلی پافشاری نکنید که باید حتما یک عامل مشترک وجود داشته باشد.

یک تمرین در این ارتباط آورده‌ایم: به نمودار دقت کنید و ببینید آیا می‌توان الگویی پیدا کرد یا متغیر مستقل مثلا y وجود داشته باشد که باعث شده است چنین نموداری رسم شود. اگر نتوانستید ناامید نشوید. آنچه که این نمودار نشان می‌دهد یک توالی از اعداد مربوط به جدول اعداد تصادفی است (نگویید که من کلک زدم و آنقدر اعداد تصادفی مختلف را امتحان کردم تا به الگویی مثل این رسیدم. خیر، این داده‌ها تنها مجموعه اعداد تصادفی بود که من امتحان کردم.) برخی سرمایه‌گذاران پول‌های زیادی را به هدر می‌دهند چون که فکر می‌کنند الگوهای خاصی را در قیمت سهام دیده‌اند. بله، در گذشته، هر بار رویداد x رخ داد، بازار سهام بالا می‌رفت، اما با توجه به هزاران مورد x بالقوه که وجود داشت، تعجب‌آور خواهد بود اگر در گذشته یک یا چند تا از آنها همبستگی به صورت کاملا تصادفی با قیمت سهام نداشته باشند و بنابراین هیچ گونه راهنمایی برای آنچه در آینده اتفاق خواهد افتاد، نخواهند بود.

۵) خطای نمونه‌گیری، فاصله اطمینان و معنادار بودن

دقیقا همان طور که با انداختن همزمان صد سکه، انتظار نداریم دقیقا پنجاه تای آن شیر بیاید، پس نباید انتظار داشت که میانگین نمونه دقیقا برابر با میانگین جامعه باشد. این تفاوت و تفاوت‌های مشابه بین جامعه و نمونه آن چیزی است که اقتصاددانان و آماردان‌ها منظورشان است وقتی که درباره خطای نمونه‌گیری صحبت می‌کنند: یک خطای اجتناب‌ناپذیر، نه خطای انسانی.

ما نمی‌توانیم مطمئن باشیم این خطا چقدر بزرگ است، اما کاری که می‌توانیم بکنیم تخمین این احتمال است که بزرگتر از یک عدد معین نباشد. به همین خاطر است در نظرسنجی‌ها از افکار عمومی پس از اینکه میزان تایید مردمی رییس‌جمهور را بر اساس میانگین نمونه اعلام می‌کند می‌گوید که این رقم در یک دامنه مثلا منها یا به علاوه ۳ درصد دقیق است. چنین دامنه ۶ درصدی در اطراف میانگین را «فاصله اطمینان» می‌نامند.این فاصله اطمینان بستگی به چه چیزی دارد و چگونه محاسبه می‌شود؟ یکی از عوامل دخیل، اندازه نمونه است. فرض می‌کنیم که شما میانگین جامعه را از یک نمونه فقط ۱۰ مشاهده‌ای تخمین می‌زنید. سپس با گنجاندن یک مشاهده خیلی افراطی، مثلا مشاهده‌ای که ۵ برابر بزرگتر از میانگین است، تاثیر قوی بر میانگین نمونه برآوردشده می‌گذارد، اما در حالتی که نمونه ما ۱۰۰۰ مشاهده داشته باشد، آن مشاهداتی که تفاوت بسیار زیادی از میانگین جامعه در هر جهت داشته باشند عمدتا همدیگر را خنثی می‌کنند؛ در این حالت، اصل عالی «قانون اعداد بزرگ» مسلط می‌شود و میانگین نمونه، تخمین قابل اتکایی از میانگین جامعه خواهد بود. (اما دقت نمونه، متناسب با افزایش اندازه نمونه تغییر نمی‌کند. برای اینکه خطای نمونه‌گیری را به نصف کاهش دهیم، باید اندازه نمونه را چهار برابر کرد.)

عامل دوم که فاصله اطمینان را تعیین می‌کند این است که هر یک از مشاهدات در جامعه چقدر در نزدیکی میانگین قرار دارند. فرض کنید ۹۹ درصد مشاهدات درون یک نوار برابر با میانگین و منهای و به علاوه ۱۰ درصد میانگین جای گرفته‌اند. در این حالت، احتمال اینکه میانگین نمونه از میانگین جامعه به خاطر وجود یک چند مشاهده افراطی بسیار دور شود به شدت ناچیز است، چون که تعداد اندکی مشاهدات افراطی داریم. برعکس، اگر فقط ۵ درصد مشاهدات درون نوار منهای و به‌علاوه میانگین قرار داشته باشند، در حالی که ۲۰ درصد آنها بسیار دور از میانگین باشند، پس احتمال اینکه یک چند مشاهده بزرگ، نمونه را مختل خواهند کرد و یک تخمین نادرست از میانگین جامعه می‌دهند بسیار بیشتر است.

یک سنجه ساده برای اینکه بفهمیم مشاهدات ما چقدر نزدیک به میانگین هستند «انحراف از میانگین» است. برای محاسبه این سنجه، تفاوت بین هر کدام از مشاهدات و میانگین را حساب می‌کنیم. علامت‌های این تفاوت‌ها را نادیده بگیرید، آنها را با هم جمع کنید و مجموع به دست آمده را تقسیم بر تعداد مشاهدات کنید. یکی از عملیات مجاز ریاضی، افزودن منفی و مثبت است. به این ترتیب حاصل جمعی به دست می‌آید که نه مثبت و نه منفی است؛ بلکه «قدر مطلق» است و چنین چیزی مناسب است وقتی درباره تفاوت صحبت می‌کنیم. یک سنجه مهم‌تر اما اندکی پیچیده‌تر، «انحراف معیار» است که اغلب با حرف یونانی سیگما نشان می‌دهند. برای اینکه انحراف معیار را محاسبه کنید، همانند حالت انحراف از میانگین، انحرافات از میانگین را به دست آورید، اما قبل از اینکه آنها را با هم جمع کنید، به توان دو برسانید و سپس کل این انحرافاتی که به توان رسیده است را بر تعداد مشاهدات تقسیم کنید. سپس جذر بگیرید و به آن انحراف معیار می‌گویند.

خوشبختانه، در مورد بسیاری از توزیع داده‌ها یا آن طور که آماردان‌ها می‌نامند «توزیع فراوانی‌ها»، به محض اینکه انحراف معیار را حساب می‌کنیم می‌توان گفت فاصله اطمینان میانگین ما چیست. در مورد توزیع منحنی زنگی شکل که «توزیع نرمال» یا «توزیع گوسین» هم نامیده می‌شود، تقریبا دو سوم مشاهدات در محدوده یک انحراف معیار از دو طرف میانگین، ۹۵ درصد مشاهدات در فاصله دو انحراف معیار و تقریبا ۹۹ درصد در فاصله سه انحراف معیار از دو طرف میانگین قرار دارند. برای نمونه فرض کنید که در نمونه تصادفی قد مردان که از جامعه‌ای با توزیع نرمال گرفته شده است میانگین قد ۱۷۰ سانتی‌متر و انحراف معیار ۱۰ سانتی‌متر است. پس اگر بگویید میانگین قد در جامعه‌ای که شما نمونه خود را از آن گرفته‌اید در جایی بین ۱۵۰ سانتی‌متر و ۱۹۰ سانتی‌متر است، به‌رغم وجود خطای نمونه‌گیری، اگر به دفعات کافی این کار را بکنید، در ۹۵ درصد از موارد حق با شما خواهد بود.

کاربرد دیگری از انحراف معیار را ببینیم. فرض می‌کنیم شما نمونه‌ای از دانشجویان دارید که در آزمونی شرکت کرده‌اند و از این آزمون استفاده می‌کنید تا ببینید آیا دانشجویانی که آموزش ویژه‌ای دیدند نمرات بالاتری گرفتند یا خیر. سپس معلوم می‌شود دانشجویانی که آموزش ویژه دیدند میانگین نمرات ۹۲ داشتند در حالی که سایر دانشجویان میانگین ۸۷ کسب کردند. آیا چنین تفاوت ۵ نمره‌ای احتمالا صرفا به خاطر خطای نمونه‌گیری بوده است؟ اگر انحراف معیار ۲ باشد، به طوری که تفاوت بین دو گروه برابر با دو و نیم برابر انحراف معیار باشد، پس (با فرض اینکه نمرات دانشجویان به صورت نرمال توزیع شده است)، اگر بگویید که تفاوت بین دانشجویان آموزش ویژه دیده و سایر دانشجویان از نظرآماری معنادار است و صرفا نتیجه خطای نمونه‌گیری نیست در ۹۵ درصد موارد حق با شما است.

عبارت بالا را می‌توان به این صورت توصیف کرد که ضریب متغیر آموزش ویژه ۵ است و انحراف معیار آن- که در این وضعیت‌ها معمولا «خطای معیار» نامیده می‌شود- ۲ است. برای مقایسه آسان، ضریب را اغلب بر خطای معیار آن تقسیم می‌کنند و نسبت حاصله را «نسبت t» ضریب یا خیلی ساده t آن می‌نامند.

پیش از این‌که بتوان گفت نتایج معنادار هستند و صرفا به علت خطای نمونه‌گیری نیستند مقدار t باید چقدر بزرگ باشد؟ این پرسش هیچ پاسخ قطعی ندارد. هرچقدر معیار برای مقدار t را که می‌گویید نتایج‌تان معنادار هستند پایین‌تر تعیین کنید، نتایج نادرست بیشتری، یعنی نتایجی را که صرفا به علت خطای نمونه‌گیری هستند، ناآگاهانه خواهید پذیرفت و هر چقدر معیار برای مقدار t را بالاتر تعیین کنید، نتایج درست بیشتری را رد خواهید کرد با این باور که آنها صرفا به علت خطای نمونه‌گیری بوده‌اند. این یک بده‌بستان است و از آنجا که هیچ پاسخ قاطعی وجود ندارد، به عرف قراردادی متوسل می‌شویم. یعنی نتیجه به دست آمده از یک نمونه را در صورتی معنادار دانسته و می‌پذیریم که احتمال خطای نمونه‌گیری کمتر از

۵ درصد باشد؛ یعنی اگر مقدار t آن ۲ یا بزرگتر از ۲ باشد، اما برخی اوقات یک نتیجه، اعتبار محدودی پیدا می‌کند هر چند که فقط در سطح ۱۰ درصد معنادار است.

چرا ۵ درصد بلی و چرا ۶ درصد یا ۵/۴ درصد نه؟ خب، همان طور که این مثل قدیمی می‌گوید: «دلیلی برای این کار نداریم، این صرفا سیاست ما است.» پنج درصد عدد معقولی است. مقدار آن پایین است، چون علم به طور سنتی و به‌درستی، زحمت اثبات را بر دوش فرضیه جدید می‌گذارد. مدعی باید دلیل قوی برای ادعای خود بیاورد پیش از اینکه به عنوان بخشی از پایه دانش ما پذیرفته شود.

اما در تصمیم‌گیری برای اینکه چکار بکنید از عرف ۵ درصدی کورکورانه پیروی نکنید. فرض می‌کنیم عضو گروهی هستید که ایمنی و سلامت داروها را ارزیابی می‌کنید. اگر احتمال ۶ درصدی وجود دارد که داروی معینی که قرار است دندان‌های شما را سفید کند ناخن انگشت شصت پای شما را اندکی زرد می‌کند، بدیهی است که شما چنین دارویی را ایمن ملاحظه می‌کنید، اما شما چنین کاری را نخواهید کرد اگر شانس ۴ درصدی هست که آن دارو باعث حمله قلبی می‌شود. اینکه آیا یک فرضیه را بپذیریم و مطابق آن عمل کنیم نه فقط باید به این احتمال بستگی داشته باشد که فرضیه درست است، بلکه همچنین به منافع و زیان‌هایی که رخ می‌دهد اگر فرضیه را بپذیرید وقتی که در واقع فرضیه نادرست است یا آن را رد کنید وقتی که واقعا درست است هم بستگی دارد. باز به این گفته قدیمی می‌رسیم؛ پس از اینکه همه محاسبات را انجام دادید هنوز هم مجبورید طبق قوه تشخیص خود عمل کنید.

۶) برخی هشدارها درباره آزمون‌های معنادار بودن

آزمون معنادار بودن، ابزار قدرتمندی است تا غبار برخاسته از خطاهای نمونه‌گیری را فرونشاند، اما با این حال محدودیت‌های خاص خود را دارد. یکی اینکه توجه به مقادیر t فقط شما را در برابر خطر خطاهایی که تصادفی هستند محافظت می‌کند از قبیل خطاهای نمونه‌گیری و نه در برابر هر چیز دیگری از قبیل استفاده از نمونه‌ای که سوگیری دارد. خطاهای نمونه‌گیری مورد توجه زیادی قرار گرفتند چون که آنها قابل اندازه‌گیری هستند و اگر کسی زحمت زیادی می‌کشد تا کار خود را «علمی» جلوه دهد، تمایل شدیدی می‌یابد تا روی آنچه قابل اندازه‌گیری است متمرکز شود و از آنچه قابل اندازه‌گیری نیست غافل می‌شود. به‌علاوه، مقالاتی که آماره t پایینی دارند معمولا قابل انتشار نیستند، به طوری که پژوهشگران انگیزه می‌یابند داده‌های خود را آنقدر بالا و پایین کنند تا مقادیر t آنها خوب به نظر رسد. چنین کارهایی، منطق آزمون‌های معنادار بودن را زیر سوال می‌برد. چنین کاری مثل این می‌ماند که ۶۰ سکه را پنج‌بار پرتاب کنیم و تعجبی نخواهد داشت اگر یکی از این سکه‌ها در هر پنج‌بار شیر بیاید.

مشکل دوم این است که شما نه فقط باید بپرسید که آیا ضریب معنادار است یا خیر به این معنا که بعید است صرفا در نتیجه خطای نمونه‌گیری باشد، بلکه همچنین باید بپرسید که آیا چنین ضریب معناداری، اهمیتی هم دارد یا خیر یعنی از جنبه محتوایی هم «معنادار» هست؟ فرض کنید یک نمونه بسیار بزرگ دارید، به‌طوری که خطای معیار بسیار بسیار کوچک است. سپس یک ضریب یا تفاوت بین میانگین‌های یک نمونه از مردان و یک نمونه از زنان در سطح ۵ درصد معنادار آماری باشد بدون اینکه اهمیت محتوایی- و بنابراین عملی- داشته باشد. فرض کنید متوجه می‌شویم احتمال تصادف خودرو برای رانندگان مرد ۰۰۰۰۱/۰ درصد بیشتر از رانندگان زن باشد و این نتیجه از نظرآماری در سطح ۵ درصد معنادار است. خوب که چه؟ چه کسی به چنین تفاوت پیش پا افتاده‌ای اهمیت می‌دهد. پس یک تفاوت باید از هر دو جنبه آماری و محتوایی معنادار باشد.

اینک به حالت عکس آن نگاه کنیم: فرض کنیم فرضیه شما پیش‌بینی می‌کند که x اثر قوی روی y دارد، اما در نمونه شما این اثر در سطح ۵ درصد معنادار آماری نیست و سرخورده می‌شوید. آیا درست است که به خودتان بگوید «خوب، حداقل من نشان دادم که این فرضیه نادرست است و با این کارم کمکی به دانش کرده‌ام؟» خیر حق چنین کاری ندارید. آماره t پایین به شما نمی‌گوید که فرضیه نادرست است. شاید مقدار t پایین است چون که نمونه شما خیلی کوچک بوده است. من نمی‌توانم تایید کنم که در روز ۱۸ ژانویه سال ۲۰۲۰ باران خواهد بارید، اما چنین وضعیتی این حق را به من نمی‌دهد که بگویم در آن روز باران نخواهد بارید. تصمیم هیات منصفه که گناه متهم بدون هیچ شکی ثابت نشده است، به این معنا نیست که اعضای هیات منصفه نسبت به بی‌گناهی وی متقاعد شده‌اند. این نکته ارزش تاکید کردن دارد، چون که برخی اوقات، حتی اقتصاددانان باتجربه هم آن را نادیده می‌گیرند.

درصدها به نظر بی‌ارزش می‌رسند، اما آیا همه مردم از درصدها سردر می‌آورند؟ خیر، خیلی‌ها درصدها را کامل درک نمی‌کنند و در نتیجه زمینه برای دغل‌کاری با آنها وجود دارد. خوشبختانه یک روش آسان هست تا که با درصدها ما را گیج و سردرگم نسازند. اینکه همیشه به خاطر داشته باشیم «درصد» به معنای «درصد از یک چیزی است» و به این ترتیب در برخی دام‌ها گرفتار نشویم. این به نظر ساده می‌آید، اما چنین کاری نیازمند تمرین دائمی است به‌طوری که در اینجا ده مثال آورده‌ایم که یک نوع سرمشق به حساب می‌آیند.

یک مثال روشن از بد بیان کردن درصد، زمانی است که یک فروشگاه تبلیغ می‌کند که قیمت را ۱۰۰ درصد کاهش داده است. چنین چیزی بی‌معنا است. کاهش قیمت‌ها باید به صورت درصدی از قیمت اولیه بیان شود؛

به طوری که ۱۰۰ درصد کاهش قیمت دلالت بر این دارد که قیمت اکنون صفر شده است.

مثال دوم که نامحسوس‌تر است اینکه اگر قیمت را مثلا ۲۵ درصد کاهش داده و سپس دوباره ۲۵ درصد افزایش دهیم، این طور به نظر می‌رسد که قیمت به جای اول خود برگشته است. نه این طور نیست. فرض کنید که قیمت اولیه ۱۰۰ باشد به طوری که پس از ۲۵ درصد کاهش، اکنون به ۷۵ می‌رسد. سپس با افزایش دادن آن به میزان ۲۵ درصد ۷۵ که داشتیم اینک آن را به ۹۴ و نه ۱۰۰ می‌رساند.

مثال سوم را این طور مطرح می‌کنیم: فرض کنید اشتغال بخش عمومی و اشتغال بخش خصوصی، هر دو به میزان ۵ درصد افزایش می‌یابد. آیا منظور این است که بخش دولتی و بخش خصوصی، هر دو به یک میزان شغل اضافی ایجاد کرده‌اند؟ خیر: درصدهای برابر فقط زمانی به اعداد برابر تبدیل می‌شود که پایه‌هایی که از آنها درصدها حساب شده‌اند برابر باشند. پس اگر اشتغال دولتی ۵ درصد افزایش یابد؛ یعنی ۵ درصد آنچه که قبلا بود و به همین ترتیب، اگر اشتغال خصوصی ۵ درصد افزایش یابد، آن نیز ۵ درصد آنچه که قبلا بوده است؛ بنابراین در صورتی که میزان اشتغال دولتی و خصوصی در ابتدا برابر نباشند آنها به میزان‌های متفاوتی افزایش می‌یابند.

چهارم موردی را آورده‌ام که زمانی در یک کتاب درسی دانشگاهی پیدا کردم. (من اعداد واقعی آن کتاب را با اعدادی فرضی جایگزین کرده‌ام، اما در اصل قضیه تغییری ایجاد نمی‌کند.) نویسنده بی‌دقت کتاب نوشته بود که تولید صنعتی آمریکا در ۱۹۳۰ به میزان ۲۵ درصد سقوط کرد، در ۱۹۳۱ باز هم به میزان ۲۰ درصد سقوط کرد و در ۱۹۳۲ نیز دوباره ۱۰ درصد سقوط کرد به طوری که در دوره سه ساله ۳۲-۱۹۳۰ تولید صنعتی ۵۵ درصد کاهش یافت یعنی (۲۵+ ۲۰+ ۱۰) درصد. او چه اشتباهی کرده بود. همان اشتباهی که در مثال دوم و سوم آوردیم. کاهش‌هایی که در سال‌های ۱۹۳۰، ۱۹۳۱ و ۱۹۳۲ اتفاق افتاد همگی به صورت درصدهایی با پایه‌های متفاوت بیان شده‌اند و بنابراین قابل جمع شدن مستقیم با هم نیستند. وقتی کاهش تولید صنعتی را به صورت درصد کاهش آن از سطحی که در آغاز سال ۱۹۳۰ بود حساب کنیم (که باید همچنین کاری را بکنیم)، میزان کاهش ۴۶ درصد (۲۵+ ۱۵+ ۶) خواهد بود نه ۵۵ درصد.

برای مثال پنجم، فرض کنید یک مدرسه برنامه پاداش‌دهی به کارآمدترین آموزگاران خود را دارد. معلوم می‌شود که ۶۰ درصد این آموزگاران برجسته زن و ۴۰ درصد مرد هستند. آیا می‌توان نتیجه گرفت که دست‌کم یک زن در این مدرسه است که احتمال می‌رود آموزگار برجسته‌تری نسبت به مردها باشد؟ نه لزوما فرض کنید ۹۰ درصد آموزگاران این مدرسه زن باشند. در این حالت، داده‌ها می‌گوید که مردان احتمال بیشتری دارد آموزگار برجسته‌ای باشند. دوباره باید حواسمان باشد که درصد را به پایه آن مرتبط سازیم.

ششم، فرض کنیم شما مدیرعامل یک بانک هستید و می‌خواهید سهامداران بانک را با اعلام اینکه چقدر سود بالایی به دست آورده‌اید تحت‌تاثیر قرار دهید در حالی که از سوی دیگر مشتریان را نیز تحت‌تاثیر قرار دهید که چقدر سود پایینی به دست می‌آورید. بدون دروغ گفتن، به آسانی می‌توانید این معجزه را انجام دهید. به سهامداران‌تان بگویید که ۲۰ درصد سود به دست آورید و به مشتریان بانک هم بگویید که سود ناقابل و ناچیز ۲ درصد کسب کردید. هر دو عبارت درست است. کلک این است که پایه درصدها را تغییر بدهید. ۲درصد مبلغ سود پولی بانک است که به صورت درصدی از کل دارایی‌های بانک محاسبه شده است، اما از آنجا که (فرض می‌کنیم) کل دارایی‌های بانک شما ۱۰ برابر میزان سرمایه بانک است (سپرده‌های مشتریان بیشتر این تفاوت را پوشش می‌دهند) بازده ۲ درصدی در کل دارایی‌ها معادل با ۲۰ درصد بازده سرمایه سهامداران می‌شود. عمل مشابهی انجام می‌شود وقتی سودها را به صورت درصدی از فروش بیان می‌کنند. یک شرکت شاید فقط ۱ درصد سود از فروش به دست آورد، اما اگر فروش سالانه آن اتفاقا ۳۰ برابر سرمایه آن باشد، به سود ۳۰ درصدی بر سرمایه آن می‌رسیم.

هفتم، فرض کنید سود شرکت در امسال ۵۰۰ درصد میزان سودی باشد که سال پیش بود. آیا سهامداران خوشبختی داریم؟ شاید که نه، چون که سود سال گذشته مثلا ۲/۰ درصد سرمایه شرکت بوده است، به‌طوری که امسال هم به میزان ناچیز ۱ درصد افزایش یافته است.

هشتم، فرض کنید که در بروشور یک صندوق سرمایه‌گذاری مشترک آمده است هر ساله ۸/۰ درصد بابت حق‌الزحمه مدیریت برداشته می‌شود. به نظر خوب می‌آید اما این طور نیست. ۸/۰ درصد به صورت درصد درآمدهای سالانه صندوق سرمایه‌گذاری مشترک بیان نمی‌شود بلکه ۸/۰ درصد مبلغی است که سرمایه‌گذاری شده است؛ بنابراین اگر صندوق مثلا در یک سال ۸ درصد درآمد کسب کند، این حق‌الزحمه تا یک دهم (۱۰ درصد) عایدات شما را می‌بلعد.

نهم، فرض کنید سال گذشته نوجوانان ۲۰ درصد تمام کسانی باشند که دستگیر شده‌اند در حالی که سال قبل از آن، آنها ۱۹ درصد دستگیر شده‌ها را تشکیل می‌دادند. آیا می‌توان نتیجه گرفت سال گذشته نسبت به سال قبل از آن، تعداد نوجوان بیشتری دستگیر شده است؟ یک بار دیگر خیر. افزایش درصد فقط به ما می‌گوید که چه اتفاقی به فراوانی نوجوانان دستگیر شده نسبت به بزرگسالان دستگیر شده افتاده است. اگر تعداد بزرگسالان دستگیر شده کاهش یابد پس احتمالا تعداد نوجوانانی که سال گذشته دستگیر شدند کمتر از تعداد آنها در سال پیش‌تر بوده است.

سرانجام درصد کمتری از تصادفات در بین ساعات ۲ و ۳ نیمه شب تا بین ساعات ۸ و ۹ بامداد رخ می‌دهد، اما نمی‌توان نتیجه گرفت که رانندگی در نیمه شب ایمن‌تر است. نتیجه اخلاقی همه این ماجراها این است: دانستن اینکه متغیری به درصد معینی رسیده است، هیچ چیز به شما نمی‌گوید مگر اینکه بدانید آن درصد چیست و از چه چیزهایی تشکیل شده است.

● برخی نگرانی‌ها درباره نوشتن درصدها

اینک دو پرسش مربوط به درست نوشتن درصدها طرح می‌کنیم. نخست، اگر قیمت یک کالا از ۱ دلار به ۳ دلار افزایش می‌یابد، قیمت آن کالا چند درصد افزایش یافته است؟ ۲۰۰ درصد و نه ۳۰۰ درصد. اینک قیمت، ۳۰۰ درصد آن چیزی است که قبلا بود پس ۲۰۰ درصد افزایش یافته است. دوم، اگر سودها از ۱۰ درصد فروش به ۱۲ درصد فروش افزایش یابند، چگونه باید این افزایش را بیان کنیم؟ یک روش این است که بگوییم ۲۰ درصد افزایش.

روش دیگری که درصدها باعث گیجی و ابهام می‌شوند پنهان کردن تعداد واقعی موارد است. این‌طور بر سر زبان‌ها افتاد که وقتی دانشگاه جان هاپکینز نخستین دانشجویان دختر را پذیرفت، یک مخالف چنین حرکتی، به شکایت برخاست که یک سوم این دانشجویان با اساتید خود ازدواج کرده‌اند. حق با او بود: یکی از سه دانشجویان دختر پذیرفته شده چنین کاری کرده بود.

پیش از آنکه درصدها را به حال خود رها کنیم به یک سنجه مرتبط؛ یعنی اعداد شاخص می‌پردازیم. برای محاسبه یک عدد شاخص، مثلا قیمت‌ها، باید یک سال خاص را به عنوان «سال پایه» انتخاب کنید و قیمت‌ها را در همه سال‌ها در نمونه خود به صورت درصدی از قیمت‌ها در آن سال بیان می‌کنید. سپس علامت درصد حذف می‌شود.

این تمام کاری است که انجام می‌دهید. این نکته را کاملا به یاد داشته باشید که ارزش شاخص در هر سال بستگی به سال پایه خاصی دارد که انتخاب کرده‌اید. اگر قیمت در سال ۲۰۰۱، ۱۰۰ دلار، در سال ۲۰۰۵، ۱۱۰ دلار و در سال ۲۰۰۸، ۱۱۱ دلار باشد، هنگامی که به صورت عدد شاخص با سال پایه ۲۰۰۱ بیان شوند برای سال ۲۰۰۵، ۱۱۰ و برای سال ۲۰۰۸، ۱۱۱ می‌شوند، اما اگر به جای آن بیایید سال پایه را ۲۰۰۵ انتخاب کنید پس شاخص برای سال ۲۰۰۸ تنها ۱۰۱ می‌شود.

توماس مایر

مترجم: جعفر خیرخواهان