سه شنبه, ۹ بهمن, ۱۴۰۳ / 28 January, 2025
نمونه گیری آماری و مشکلات آن
بیشتر دادههایی که اقتصاددانان استفاده میکنند از راه نمونهگیری به دست آمده است. تنها هر از گاهی پیش میآید که دادههای در اختیار ما از آنچه آماردانان با قلمبهنویسی «جامعه یا جهان» مینامند به دست آمده باشد؛
یعنی حالتی که همه موارد مرتبط را در اختیار داریم. یک دلیل نمونهگیری، پرهزینه بودن سرشماری و جمعآوری تمام دادهها است، بهطوری که سعی میشود با تعداد تا جای ممکن کمتر مشاهداتی که منطقا پذیرفتنی است کارمان را راه بیندازیم. دلیل دیگر این است که وقتی بیشتر تئوریها را آزمون میکنیم، چارهای نخواهیم داشت که نمونهگیری کنیم چون که بیشتر تئوریها به صورت عبارات کلی بیان میشوند، از قبیل «وقتی نرخ رشد عرضه پول افزایش چشمگیری مییابد، نرخ تورم بالا میرود». چنین عباراتی قصد دارند برای دامنه گستردهای از شرایط گذشته، حال و آینده بهکار روند.
این فراگیر بودن نمونهگیری، دو مساله مهم را مطرح میسازد که باید مورد توجه قرار گیرد. نخست، آیا نمونه به صورتی استخراج شده است که با احتمال بالایی آن را نماینده و شاخص جامعه و جهان سازد و دوم اینکه پرسشهایی که در ادامه میآید نیازمند بحثی انتزاعیتر از آنچه تاکنون بحث شده است، میباشد.
۱) انتخاب نمونه فراگیر
نمونه فراگیر به نمونهای گفته میشود که ویژگیهای مورد علاقه ما از جامعه مدنظر را دارا باشد. برای نمونه اگر میخواهیم نسبت مردمان حومهنشینی را که در شنبه شب به سینما میروند برآورد کنیم، با ایستادن در جلوی محوطه پارک خودروی یک سینما در شنبه شب و پرسش از رهگذران که آیا شنبه شبها به سینما میروید نمونه خود را انتخاب نمیکنیم، اما انتخاب نامهای اول هر صفحه کتاب راهنمای تلفن، نمونه به حد کافی تصادفی به ما خواهد داد؛ به شرطی که در شنبه شب به آنها تلفن نکنیم. کسانی که به جزئیات توجه دارند شاید با این نمونهگیری نیز مخالفت کنند که کاملا تصادفی نیست چون مردمی که غالبا شنبه شبها به سینما میروند احتمال دارد کمتر در خانه باشند حتی وقتی در سایر زمانها به آنها تلفن میکنید.
وقتی اقتصاددانها با دادههای حاضر و آماده کار میکنند که اغلب اوقات همینطور است، نمونهها کاملا تصادفی نیست، اما نتایج نباید خیلی غیرواقعی باشد و حتی وقتی اختلال زیاد باشد، نمونه غیرفراگیر- که معمولا «نمونه با سوگیری» نامیده میشود- برخی اوقات هنوز هم اطلاعات مفیدی ارائه میکند. فرض کنید نمونه ما در جهت عکس تئوریای که آزمون میکنیم سوگیری دارد. اگر با این وجود، تئوری ما هنوز سربلند از آزمون بیرون آید، این آزمون تئوری را بیشتر از یک آزمون که سوگیری ندارد تقویت میکند. با همه اینها، این پرسش که آیا نمونهگیری سوگیری جدی دارد و اگر اینطور است در کدام جهت، نیازمند توجه و دقت است.
۲) مراقب نمونههای نامناسب باشید
سوگیری به معنای غیرفراگیر بودن نمونه، تنها چیزی نیست که نمونه را نادرست میسازد. مشکل دیگر این است که احتمال دارد نمونه ارتباط نزدیک و کافی با آنچه نویسنده و پژوهشگر ادعا میکند نداشته باشد. یک مثال خوب در این زمینه، استدلالی است که فدرال رزرو باید نرخ تورم را پایین و مثلا زیر ۳ درصد نگه دارد چون که دادهها نشان میدهد تورم رشد اقتصاد را پایین میآورد. اگر نمونهای از کشورها با نرخهای تورم بسیار گوناگون را انتخاب کنیم متوجه میشویم که با فرض ثبات سایر شرایط، رابطه منفی بین نرخ تورم و رشد اقتصادی وجود دارد، اما این رابطه منفی تماما به خاطر وجود کشورهایی است که نرخ تورم بالا دارند؛ بنابراین استدلالی علیه مثلا نرخ تورم ۲ درصدی ارائه نمیکند. (نمیخواهیم منکر این شویم که تورم حتی پایین هم برخی اثرات بد دارد، اما این توجیهی برای سوءاستفاده از آمار نمیباشد.)
پس از انتشار کتاب «منحنی زنگی شکل» توسط ریچارد هرنستین و چارلز ماری، بحث زیادی در اینباره وجود داشته است که آیا تفاوت در میانگین نمرات ضریب هوشی سیاهپوستان و سفیدپوستها آنطور که کتاب آنها ادعا میکند تا حدودی به علت عوامل ژنتیکی بوده است. (واقعا امکان جدا کردن دقیق عوامل محیطی از عوامل ژنتیکی وجود ندارد، اما فرض کنیم امکانش هست.) یک استدلال این بوده است که درون جامعه کلی، تفاوتهای محیطی در بین افراد، x امتیاز در یک آزمون ضریب هوشی به حساب میآید، به طوری که اگر شکاف سفیدها- سیاهان مثلا x۲ باشد، پس عوامل ژنتیکی باید نصف دلیل آن تفاوت به حساب آیند. در این جا خطایی وجود دارد که اگر به طور متوسط تفاوت در عوامل محیطی بین سیاهان و سفیدان بزرگتر از میانگین تفاوت در عوامل محیطی در کل جامعه باشد که چنین انتظاری بسیار قابل تامل است، پس این انتظار میرود که تفاوت عوامل محیطی، بیش از x امتیاز در تفاوت میانگین نمرات ضریب هوشی سیاهان- سفیدها نقش داشته باشد. به عبارت دیگر، تفاوت عوامل محیطی در بین جامعه کلی، نمونه نادرستی است تا تفاوت بین سیاه و سفید بر آن اساس بحث شود.
۳) مطالعه رگرسیونی: بنا نهادن سوگیری در نمونه
نوع متفاوت دیگری از دامهای موجود در استدلال کردن بر اساس آنچه نمونه نشان میدهد که به مطالعه رگرسیونی معروف است، نیازمند توجه بیشتری است. چون حالت نامحسوس و پنهانی داشته و به سختی ردیابی میشود. پس به این منظور به هشت مثال زیر نگاه میکنیم. نمونه کلاسیکی این خطا را که نام مطالعه هم از آن گرفته شده است، متخصص بزرگ ژنتیک سر فرانسیس گالتون (۱۸۳۳ تا ۱۹۱۱) مرتکب شد. او نمونهای از مردان با دستاوردهای علمی عالی را انتخاب کرد و متوجه شد که به طور میانگین، پسرهای آنها دستاوردهای علمی کمتری نسبت به پدران خود داشتند؛ آنها به سمت میانگین جامعه برگشت کرده بودند (که معنای رگرسیون هم همین است)، او از چنین یافتهای، نتیجه بدبینانهای گرفت که توانایی علمی از نسلی به نسل دیگر در حال کاهش است. او اشتباه میکرد. چرا؟ خب، چون تمام پدران این فرزندان، افرادی با دستاوردهای درخشان بودند و پسران آنها نهایت زوری که میتوانستند بزنند- یعنی اگر همه آنها شبیه پدرانشان افراد با دستاوردهای عالی میشدند- باعث میشدند تا توانایی علمی از نسلی به نسل دیگر ثابت به نظر برسد و حتی اگر فقط چند تا از آنها موفقیت علمی کسب نکرده باشند پس از آزمون گالتون لزوما نشان خواهد داد که توانایی علمی در حال کاهش است؛ اما اگر گالتون به جای نگاه به پسران به پدران مردان با دستاوردهای عالی نگاه کرده بود- که برخی از آن پدران اصلا آدمهای موفقی نبودند- پس او درمییافت که توانایی علمی از نسلی به نسل دیگر در حال افزایش بوده است، چون همه پسران متعلق به نسل دوم، افراد با دستاوردهای عالی بودند که در غیراینصورت آنها در نمونه مورد بررسی گنجانده نمیشدند.
فرض کنید یک بررسی نشان میدهد برخی صنایع آمریکا که بیست سال پیش کاملا رقابتی بودند از آن زمان به بعد کمتر رقابتی شدند و از این یافته نتیجه میگیرد که رقابت در اقتصاد آمریکا کاهش یافته است. این نیز اشتباه است؛ چون اگر بررسی به یک نمونه از صنایع نگاه کرده بود که بیست سال پیش انحصاری بودند نتیجهای که میگرفت کاملا عکس نتیجه بالا بود. برخی از آنها در این بیست سال رقابتیتر میشدند؛ به طوری که نتیجه گرفته میشد رقابت افزایش یافته است.
فرض کنید یک منطقه آموزش و پرورش، روشی جدید برای آموزش روخوانی را بررسی میکند. برای ارزیابی این روش، تمام دانشآموزانی که کمترین نمرات خواندن را گرفتند (مثلا ۲۵ درصد از کل دانشآموزان) انتخاب میشوند و روش جدید خواندن روی آنها امتحان میشود و معلوم میگردد در خواندن پیشرفت داشتند. پس اداره آموزش و پرورش از روش جدید استقبال میکند. سال بعد میانگین نمرات خواندن تمام دانشآموزان افت میکند. چگونه این را توضیح دهیم؟ نمونه دانشآموزانی که روش جدید روی آنها امتحان شد تماما کسانی را شامل میشدند که با روش قدیم خواندن چیزی یاد نمیگرفتند و توجهی به بقیه دانشآموزانی که روش قدیم خواندن برایشان مناسبتر از روش جدید بود، نشده بود.
بررسیهای بسیاری وجود دارد که عملکرد صندوقهای سرمایهگذاری مشترک را با آنچه که سرمایهگذاران به دست میآورند اگر که فقط یک نمونه فراگیر از سهام را میخریدند و به آنها تکیه میکردند مقایسه میکنند. یکی از دلایلی که چرا صندوقهای سرمایهگذاری مشترک حرفهای عملکردی پایینتر از کل بازار و بنابراین از یک نمونه سهام تصادفی انتخاب شده داشتهاند، به این برمیگردد که بازارهای مالی تقریبا کارآ هستند و نیز چون صندوقهای سرمایهگذاری مشترک، از سهامداران خود حقالزحمهای بابت خدماتشان میگیرند که چندان هم کم نیست. برخی از بررسیهای اولیه آنچه را طبیعی هست انجام دادند: آنها نمونهای فراگیر از فهرست صندوقهای سرمایهگذاری مشترک در حال حاضر موجود انتخاب کردند؛ اما چنین کاری یک سوگیری ایجاد کرد که «سوگیری بقا» نامیده میشود؛ چون صندوقهای سرمایهگذاری مشترک که عملکرد بدی داشتند احتمال بیشتری دارد که نسبت به صندوقهای سرمایهگذاری موفقتر ناپدید شده باشند. آنچه آنها باید انجام میدادند انتخاب یک نمونه از صندوقهای سرمایهگذاری مشترک است که در آغاز دوره تحت پوشش وجود داشتهاند.
فرض میکنیم نمونهای فراگیر از کسانی که در حال حاضر بیکار هستند انتخاب کردید و از آنها میپرسید چه مدت بیکار بودهاند. از پاسخهای آنها، نتیجه میگیرید که میانگین دوره بیکاری، مثلا ۶ ماه است. این کارنادرست است. شخصی که به مدت مثلا ۱۲ ماه بیکار بوده است ۱۲ برابر احتمال بیشتری دارد که در ماه خاصی که اتفاقا شما نظرسنجی کردید بیکار باشد نسبت به کسی که فقط یک ماه بیکار بوده است؛ بنابراین ۱۲ برابر احتمال بیشتری دارد تا وی در نمونه شما شامل شده باشد؛ به طوری که تخمین به دست آمده از میانگین طول دوره بیکاری، سوگیری به سمت بالا دارد.اینجا یک مثال شخصی آوردم. بسیاری سال پیش، گالری ملی در واشنگتن پر ازدحام بود و من از سروصدای مردمی که با هم صحبت میکردند، ناراحت شده بودم. با شنیدن حرفهای چند نفر که به آلمانی صحبت میکردند من فکر کردم: «آلمانیها در موزهها خیلی حرف میزنند.» این اشتباه بود. در آنجا شاید بسیاری آلمانهای ساکت وجود داشتند که من آنها را نمیشناختم.
سرانجام، در فرهنگ عامه اینطور پذیرفته شده است که اگر چیزی برای شما خیلی خوب شروع شده است و درباره آن به سایر مردم چیزی بگویید بدون اینکه «بزنم به تخته» بگویند در دور بعدی نتیجه بدتر خواهد شد. تجربه پشت این تصور چیست؟ یک مثال برای بهتر شدن وضع شما را شیر آمدن در انداختن سکه فرض کنیم و اینکه پنج بار پشت سر هم شیر آوردهاید.۵۰ درصد احتمال هست که در دور بعدی انداختن سکه، خوششانسی شما پایان یابد. از آنجا که احتمال میرود تا پس از اینکه چند بار شیر آوردید خوششانسی خود را به کسی یادآوری نخواهید کرد، تعجبی ندارد که پس از اینکه درباره آن با دیگران صحبت کردید خوششانسی شما پایان یابد. نمونه موارد و حالتهایی که اوضاع بد و خراب میشود پس از اینکه درباره آن با دیگران صحبت کردید نمونهای فراگیر از همه موارد نیست؛ بلکه یک نمونه از مواردی است که شما در ابتدا خوششانس بودهاید و در ماهیت خوششانسی است که نمیتوان انتظار داشت، همینطور ادامه یابد.
۴) اندازه نمونه و همزمانی
فرض میکنیم که از دامهای مغالطه رگرسیونی گریختهاید و نمونه شما حالت فراگیری دارد، اما هنوز هم باید نگران این باشید که نمونهتان به حدکافی بزرگ است یا خیر. اشتباه رایج در بحثهای علمی علم اقتصاد این است که از نمونه بسیار کوچکی استفاده میشود؛ ما میل به این داریم که جای اندکی برای همزمانی پدیدهها در نظر بگیریم. شاید که این از آرزوی ما برای دیدن جهان به صورت مکانی قابل پیشبینی ناشی میشود- و این واقعیت را نیز تبیین میکند که چرا ستارهشناسی هنوز در کنار علوم شکوفا میشود- و تا حدی از ناتوانی ما برای ملاحظه تعداد زیادی از مواردی است که امکان وقوع همزمانی یک پدیده وجود داشته است، اما واقع نشده است. اگر شانس رخ دادن چیزی ۱ در ۱۰۰ هزار باشد پس تعجب نکنید وقتی که آن یک بار در هر ۱۰۰ هزار بار رخ دهد و همه ما هزاران رویداد را هر هفته تجربه میکنیم. به نظر میرسد سقوط سه هواپیما در یک فرودگاه در عرض یک هفته نمیتواند تصادفی باشد، اما در یک دوره نمونه ۲۰ ساله، ۷۳۰۰ روز داریم و تعداد زیادی فرودگاه که در هر روز پروازهای زیادی دارند؛ به طوری که وقتی یک بار در هر ۲۰ سال درباره رخ دادن چنین رویدادی میشنوید به دنبال یک «علت عمیق» نباشید. البته منظور این نیست که نباید به دنبال یک عامل مشترک بگردید، اما میخواهیم بگوییم خیلی پافشاری نکنید که باید حتما یک عامل مشترک وجود داشته باشد.
یک تمرین در این ارتباط آوردهایم: به نمودار دقت کنید و ببینید آیا میتوان الگویی پیدا کرد یا متغیر مستقل مثلا y وجود داشته باشد که باعث شده است چنین نموداری رسم شود. اگر نتوانستید ناامید نشوید. آنچه که این نمودار نشان میدهد یک توالی از اعداد مربوط به جدول اعداد تصادفی است (نگویید که من کلک زدم و آنقدر اعداد تصادفی مختلف را امتحان کردم تا به الگویی مثل این رسیدم. خیر، این دادهها تنها مجموعه اعداد تصادفی بود که من امتحان کردم.) برخی سرمایهگذاران پولهای زیادی را به هدر میدهند چون که فکر میکنند الگوهای خاصی را در قیمت سهام دیدهاند. بله، در گذشته، هر بار رویداد x رخ داد، بازار سهام بالا میرفت، اما با توجه به هزاران مورد x بالقوه که وجود داشت، تعجبآور خواهد بود اگر در گذشته یک یا چند تا از آنها همبستگی به صورت کاملا تصادفی با قیمت سهام نداشته باشند و بنابراین هیچ گونه راهنمایی برای آنچه در آینده اتفاق خواهد افتاد، نخواهند بود.
۵) خطای نمونهگیری، فاصله اطمینان و معنادار بودن
دقیقا همان طور که با انداختن همزمان صد سکه، انتظار نداریم دقیقا پنجاه تای آن شیر بیاید، پس نباید انتظار داشت که میانگین نمونه دقیقا برابر با میانگین جامعه باشد. این تفاوت و تفاوتهای مشابه بین جامعه و نمونه آن چیزی است که اقتصاددانان و آماردانها منظورشان است وقتی که درباره خطای نمونهگیری صحبت میکنند: یک خطای اجتنابناپذیر، نه خطای انسانی.
ما نمیتوانیم مطمئن باشیم این خطا چقدر بزرگ است، اما کاری که میتوانیم بکنیم تخمین این احتمال است که بزرگتر از یک عدد معین نباشد. به همین خاطر است در نظرسنجیها از افکار عمومی پس از اینکه میزان تایید مردمی رییسجمهور را بر اساس میانگین نمونه اعلام میکند میگوید که این رقم در یک دامنه مثلا منها یا به علاوه ۳ درصد دقیق است. چنین دامنه ۶ درصدی در اطراف میانگین را «فاصله اطمینان» مینامند.این فاصله اطمینان بستگی به چه چیزی دارد و چگونه محاسبه میشود؟ یکی از عوامل دخیل، اندازه نمونه است. فرض میکنیم که شما میانگین جامعه را از یک نمونه فقط ۱۰ مشاهدهای تخمین میزنید. سپس با گنجاندن یک مشاهده خیلی افراطی، مثلا مشاهدهای که ۵ برابر بزرگتر از میانگین است، تاثیر قوی بر میانگین نمونه برآوردشده میگذارد، اما در حالتی که نمونه ما ۱۰۰۰ مشاهده داشته باشد، آن مشاهداتی که تفاوت بسیار زیادی از میانگین جامعه در هر جهت داشته باشند عمدتا همدیگر را خنثی میکنند؛ در این حالت، اصل عالی «قانون اعداد بزرگ» مسلط میشود و میانگین نمونه، تخمین قابل اتکایی از میانگین جامعه خواهد بود. (اما دقت نمونه، متناسب با افزایش اندازه نمونه تغییر نمیکند. برای اینکه خطای نمونهگیری را به نصف کاهش دهیم، باید اندازه نمونه را چهار برابر کرد.)
عامل دوم که فاصله اطمینان را تعیین میکند این است که هر یک از مشاهدات در جامعه چقدر در نزدیکی میانگین قرار دارند. فرض کنید ۹۹ درصد مشاهدات درون یک نوار برابر با میانگین و منهای و به علاوه ۱۰ درصد میانگین جای گرفتهاند. در این حالت، احتمال اینکه میانگین نمونه از میانگین جامعه به خاطر وجود یک چند مشاهده افراطی بسیار دور شود به شدت ناچیز است، چون که تعداد اندکی مشاهدات افراطی داریم. برعکس، اگر فقط ۵ درصد مشاهدات درون نوار منهای و بهعلاوه میانگین قرار داشته باشند، در حالی که ۲۰ درصد آنها بسیار دور از میانگین باشند، پس احتمال اینکه یک چند مشاهده بزرگ، نمونه را مختل خواهند کرد و یک تخمین نادرست از میانگین جامعه میدهند بسیار بیشتر است.
یک سنجه ساده برای اینکه بفهمیم مشاهدات ما چقدر نزدیک به میانگین هستند «انحراف از میانگین» است. برای محاسبه این سنجه، تفاوت بین هر کدام از مشاهدات و میانگین را حساب میکنیم. علامتهای این تفاوتها را نادیده بگیرید، آنها را با هم جمع کنید و مجموع به دست آمده را تقسیم بر تعداد مشاهدات کنید. یکی از عملیات مجاز ریاضی، افزودن منفی و مثبت است. به این ترتیب حاصل جمعی به دست میآید که نه مثبت و نه منفی است؛ بلکه «قدر مطلق» است و چنین چیزی مناسب است وقتی درباره تفاوت صحبت میکنیم. یک سنجه مهمتر اما اندکی پیچیدهتر، «انحراف معیار» است که اغلب با حرف یونانی سیگما نشان میدهند. برای اینکه انحراف معیار را محاسبه کنید، همانند حالت انحراف از میانگین، انحرافات از میانگین را به دست آورید، اما قبل از اینکه آنها را با هم جمع کنید، به توان دو برسانید و سپس کل این انحرافاتی که به توان رسیده است را بر تعداد مشاهدات تقسیم کنید. سپس جذر بگیرید و به آن انحراف معیار میگویند.
خوشبختانه، در مورد بسیاری از توزیع دادهها یا آن طور که آماردانها مینامند «توزیع فراوانیها»، به محض اینکه انحراف معیار را حساب میکنیم میتوان گفت فاصله اطمینان میانگین ما چیست. در مورد توزیع منحنی زنگی شکل که «توزیع نرمال» یا «توزیع گوسین» هم نامیده میشود، تقریبا دو سوم مشاهدات در محدوده یک انحراف معیار از دو طرف میانگین، ۹۵ درصد مشاهدات در فاصله دو انحراف معیار و تقریبا ۹۹ درصد در فاصله سه انحراف معیار از دو طرف میانگین قرار دارند. برای نمونه فرض کنید که در نمونه تصادفی قد مردان که از جامعهای با توزیع نرمال گرفته شده است میانگین قد ۱۷۰ سانتیمتر و انحراف معیار ۱۰ سانتیمتر است. پس اگر بگویید میانگین قد در جامعهای که شما نمونه خود را از آن گرفتهاید در جایی بین ۱۵۰ سانتیمتر و ۱۹۰ سانتیمتر است، بهرغم وجود خطای نمونهگیری، اگر به دفعات کافی این کار را بکنید، در ۹۵ درصد از موارد حق با شما خواهد بود.
کاربرد دیگری از انحراف معیار را ببینیم. فرض میکنیم شما نمونهای از دانشجویان دارید که در آزمونی شرکت کردهاند و از این آزمون استفاده میکنید تا ببینید آیا دانشجویانی که آموزش ویژهای دیدند نمرات بالاتری گرفتند یا خیر. سپس معلوم میشود دانشجویانی که آموزش ویژه دیدند میانگین نمرات ۹۲ داشتند در حالی که سایر دانشجویان میانگین ۸۷ کسب کردند. آیا چنین تفاوت ۵ نمرهای احتمالا صرفا به خاطر خطای نمونهگیری بوده است؟ اگر انحراف معیار ۲ باشد، به طوری که تفاوت بین دو گروه برابر با دو و نیم برابر انحراف معیار باشد، پس (با فرض اینکه نمرات دانشجویان به صورت نرمال توزیع شده است)، اگر بگویید که تفاوت بین دانشجویان آموزش ویژه دیده و سایر دانشجویان از نظرآماری معنادار است و صرفا نتیجه خطای نمونهگیری نیست در ۹۵ درصد موارد حق با شما است.
عبارت بالا را میتوان به این صورت توصیف کرد که ضریب متغیر آموزش ویژه ۵ است و انحراف معیار آن- که در این وضعیتها معمولا «خطای معیار» نامیده میشود- ۲ است. برای مقایسه آسان، ضریب را اغلب بر خطای معیار آن تقسیم میکنند و نسبت حاصله را «نسبت t» ضریب یا خیلی ساده t آن مینامند.
پیش از اینکه بتوان گفت نتایج معنادار هستند و صرفا به علت خطای نمونهگیری نیستند مقدار t باید چقدر بزرگ باشد؟ این پرسش هیچ پاسخ قطعی ندارد. هرچقدر معیار برای مقدار t را که میگویید نتایجتان معنادار هستند پایینتر تعیین کنید، نتایج نادرست بیشتری، یعنی نتایجی را که صرفا به علت خطای نمونهگیری هستند، ناآگاهانه خواهید پذیرفت و هر چقدر معیار برای مقدار t را بالاتر تعیین کنید، نتایج درست بیشتری را رد خواهید کرد با این باور که آنها صرفا به علت خطای نمونهگیری بودهاند. این یک بدهبستان است و از آنجا که هیچ پاسخ قاطعی وجود ندارد، به عرف قراردادی متوسل میشویم. یعنی نتیجه به دست آمده از یک نمونه را در صورتی معنادار دانسته و میپذیریم که احتمال خطای نمونهگیری کمتر از
۵ درصد باشد؛ یعنی اگر مقدار t آن ۲ یا بزرگتر از ۲ باشد، اما برخی اوقات یک نتیجه، اعتبار محدودی پیدا میکند هر چند که فقط در سطح ۱۰ درصد معنادار است.
چرا ۵ درصد بلی و چرا ۶ درصد یا ۵/۴ درصد نه؟ خب، همان طور که این مثل قدیمی میگوید: «دلیلی برای این کار نداریم، این صرفا سیاست ما است.» پنج درصد عدد معقولی است. مقدار آن پایین است، چون علم به طور سنتی و بهدرستی، زحمت اثبات را بر دوش فرضیه جدید میگذارد. مدعی باید دلیل قوی برای ادعای خود بیاورد پیش از اینکه به عنوان بخشی از پایه دانش ما پذیرفته شود.
اما در تصمیمگیری برای اینکه چکار بکنید از عرف ۵ درصدی کورکورانه پیروی نکنید. فرض میکنیم عضو گروهی هستید که ایمنی و سلامت داروها را ارزیابی میکنید. اگر احتمال ۶ درصدی وجود دارد که داروی معینی که قرار است دندانهای شما را سفید کند ناخن انگشت شصت پای شما را اندکی زرد میکند، بدیهی است که شما چنین دارویی را ایمن ملاحظه میکنید، اما شما چنین کاری را نخواهید کرد اگر شانس ۴ درصدی هست که آن دارو باعث حمله قلبی میشود. اینکه آیا یک فرضیه را بپذیریم و مطابق آن عمل کنیم نه فقط باید به این احتمال بستگی داشته باشد که فرضیه درست است، بلکه همچنین به منافع و زیانهایی که رخ میدهد اگر فرضیه را بپذیرید وقتی که در واقع فرضیه نادرست است یا آن را رد کنید وقتی که واقعا درست است هم بستگی دارد. باز به این گفته قدیمی میرسیم؛ پس از اینکه همه محاسبات را انجام دادید هنوز هم مجبورید طبق قوه تشخیص خود عمل کنید.
۶) برخی هشدارها درباره آزمونهای معنادار بودن
آزمون معنادار بودن، ابزار قدرتمندی است تا غبار برخاسته از خطاهای نمونهگیری را فرونشاند، اما با این حال محدودیتهای خاص خود را دارد. یکی اینکه توجه به مقادیر t فقط شما را در برابر خطر خطاهایی که تصادفی هستند محافظت میکند از قبیل خطاهای نمونهگیری و نه در برابر هر چیز دیگری از قبیل استفاده از نمونهای که سوگیری دارد. خطاهای نمونهگیری مورد توجه زیادی قرار گرفتند چون که آنها قابل اندازهگیری هستند و اگر کسی زحمت زیادی میکشد تا کار خود را «علمی» جلوه دهد، تمایل شدیدی مییابد تا روی آنچه قابل اندازهگیری است متمرکز شود و از آنچه قابل اندازهگیری نیست غافل میشود. بهعلاوه، مقالاتی که آماره t پایینی دارند معمولا قابل انتشار نیستند، به طوری که پژوهشگران انگیزه مییابند دادههای خود را آنقدر بالا و پایین کنند تا مقادیر t آنها خوب به نظر رسد. چنین کارهایی، منطق آزمونهای معنادار بودن را زیر سوال میبرد. چنین کاری مثل این میماند که ۶۰ سکه را پنجبار پرتاب کنیم و تعجبی نخواهد داشت اگر یکی از این سکهها در هر پنجبار شیر بیاید.
مشکل دوم این است که شما نه فقط باید بپرسید که آیا ضریب معنادار است یا خیر به این معنا که بعید است صرفا در نتیجه خطای نمونهگیری باشد، بلکه همچنین باید بپرسید که آیا چنین ضریب معناداری، اهمیتی هم دارد یا خیر یعنی از جنبه محتوایی هم «معنادار» هست؟ فرض کنید یک نمونه بسیار بزرگ دارید، بهطوری که خطای معیار بسیار بسیار کوچک است. سپس یک ضریب یا تفاوت بین میانگینهای یک نمونه از مردان و یک نمونه از زنان در سطح ۵ درصد معنادار آماری باشد بدون اینکه اهمیت محتوایی- و بنابراین عملی- داشته باشد. فرض کنید متوجه میشویم احتمال تصادف خودرو برای رانندگان مرد ۰۰۰۰۱/۰ درصد بیشتر از رانندگان زن باشد و این نتیجه از نظرآماری در سطح ۵ درصد معنادار است. خوب که چه؟ چه کسی به چنین تفاوت پیش پا افتادهای اهمیت میدهد. پس یک تفاوت باید از هر دو جنبه آماری و محتوایی معنادار باشد.
اینک به حالت عکس آن نگاه کنیم: فرض کنیم فرضیه شما پیشبینی میکند که x اثر قوی روی y دارد، اما در نمونه شما این اثر در سطح ۵ درصد معنادار آماری نیست و سرخورده میشوید. آیا درست است که به خودتان بگوید «خوب، حداقل من نشان دادم که این فرضیه نادرست است و با این کارم کمکی به دانش کردهام؟» خیر حق چنین کاری ندارید. آماره t پایین به شما نمیگوید که فرضیه نادرست است. شاید مقدار t پایین است چون که نمونه شما خیلی کوچک بوده است. من نمیتوانم تایید کنم که در روز ۱۸ ژانویه سال ۲۰۲۰ باران خواهد بارید، اما چنین وضعیتی این حق را به من نمیدهد که بگویم در آن روز باران نخواهد بارید. تصمیم هیات منصفه که گناه متهم بدون هیچ شکی ثابت نشده است، به این معنا نیست که اعضای هیات منصفه نسبت به بیگناهی وی متقاعد شدهاند. این نکته ارزش تاکید کردن دارد، چون که برخی اوقات، حتی اقتصاددانان باتجربه هم آن را نادیده میگیرند.
درصدها به نظر بیارزش میرسند، اما آیا همه مردم از درصدها سردر میآورند؟ خیر، خیلیها درصدها را کامل درک نمیکنند و در نتیجه زمینه برای دغلکاری با آنها وجود دارد. خوشبختانه یک روش آسان هست تا که با درصدها ما را گیج و سردرگم نسازند. اینکه همیشه به خاطر داشته باشیم «درصد» به معنای «درصد از یک چیزی است» و به این ترتیب در برخی دامها گرفتار نشویم. این به نظر ساده میآید، اما چنین کاری نیازمند تمرین دائمی است بهطوری که در اینجا ده مثال آوردهایم که یک نوع سرمشق به حساب میآیند.
یک مثال روشن از بد بیان کردن درصد، زمانی است که یک فروشگاه تبلیغ میکند که قیمت را ۱۰۰ درصد کاهش داده است. چنین چیزی بیمعنا است. کاهش قیمتها باید به صورت درصدی از قیمت اولیه بیان شود؛
به طوری که ۱۰۰ درصد کاهش قیمت دلالت بر این دارد که قیمت اکنون صفر شده است.
مثال دوم که نامحسوستر است اینکه اگر قیمت را مثلا ۲۵ درصد کاهش داده و سپس دوباره ۲۵ درصد افزایش دهیم، این طور به نظر میرسد که قیمت به جای اول خود برگشته است. نه این طور نیست. فرض کنید که قیمت اولیه ۱۰۰ باشد به طوری که پس از ۲۵ درصد کاهش، اکنون به ۷۵ میرسد. سپس با افزایش دادن آن به میزان ۲۵ درصد ۷۵ که داشتیم اینک آن را به ۹۴ و نه ۱۰۰ میرساند.
مثال سوم را این طور مطرح میکنیم: فرض کنید اشتغال بخش عمومی و اشتغال بخش خصوصی، هر دو به میزان ۵ درصد افزایش مییابد. آیا منظور این است که بخش دولتی و بخش خصوصی، هر دو به یک میزان شغل اضافی ایجاد کردهاند؟ خیر: درصدهای برابر فقط زمانی به اعداد برابر تبدیل میشود که پایههایی که از آنها درصدها حساب شدهاند برابر باشند. پس اگر اشتغال دولتی ۵ درصد افزایش یابد؛ یعنی ۵ درصد آنچه که قبلا بود و به همین ترتیب، اگر اشتغال خصوصی ۵ درصد افزایش یابد، آن نیز ۵ درصد آنچه که قبلا بوده است؛ بنابراین در صورتی که میزان اشتغال دولتی و خصوصی در ابتدا برابر نباشند آنها به میزانهای متفاوتی افزایش مییابند.
چهارم موردی را آوردهام که زمانی در یک کتاب درسی دانشگاهی پیدا کردم. (من اعداد واقعی آن کتاب را با اعدادی فرضی جایگزین کردهام، اما در اصل قضیه تغییری ایجاد نمیکند.) نویسنده بیدقت کتاب نوشته بود که تولید صنعتی آمریکا در ۱۹۳۰ به میزان ۲۵ درصد سقوط کرد، در ۱۹۳۱ باز هم به میزان ۲۰ درصد سقوط کرد و در ۱۹۳۲ نیز دوباره ۱۰ درصد سقوط کرد به طوری که در دوره سه ساله ۳۲-۱۹۳۰ تولید صنعتی ۵۵ درصد کاهش یافت یعنی (۲۵+ ۲۰+ ۱۰) درصد. او چه اشتباهی کرده بود. همان اشتباهی که در مثال دوم و سوم آوردیم. کاهشهایی که در سالهای ۱۹۳۰، ۱۹۳۱ و ۱۹۳۲ اتفاق افتاد همگی به صورت درصدهایی با پایههای متفاوت بیان شدهاند و بنابراین قابل جمع شدن مستقیم با هم نیستند. وقتی کاهش تولید صنعتی را به صورت درصد کاهش آن از سطحی که در آغاز سال ۱۹۳۰ بود حساب کنیم (که باید همچنین کاری را بکنیم)، میزان کاهش ۴۶ درصد (۲۵+ ۱۵+ ۶) خواهد بود نه ۵۵ درصد.
برای مثال پنجم، فرض کنید یک مدرسه برنامه پاداشدهی به کارآمدترین آموزگاران خود را دارد. معلوم میشود که ۶۰ درصد این آموزگاران برجسته زن و ۴۰ درصد مرد هستند. آیا میتوان نتیجه گرفت که دستکم یک زن در این مدرسه است که احتمال میرود آموزگار برجستهتری نسبت به مردها باشد؟ نه لزوما فرض کنید ۹۰ درصد آموزگاران این مدرسه زن باشند. در این حالت، دادهها میگوید که مردان احتمال بیشتری دارد آموزگار برجستهای باشند. دوباره باید حواسمان باشد که درصد را به پایه آن مرتبط سازیم.
ششم، فرض کنیم شما مدیرعامل یک بانک هستید و میخواهید سهامداران بانک را با اعلام اینکه چقدر سود بالایی به دست آوردهاید تحتتاثیر قرار دهید در حالی که از سوی دیگر مشتریان را نیز تحتتاثیر قرار دهید که چقدر سود پایینی به دست میآورید. بدون دروغ گفتن، به آسانی میتوانید این معجزه را انجام دهید. به سهامدارانتان بگویید که ۲۰ درصد سود به دست آورید و به مشتریان بانک هم بگویید که سود ناقابل و ناچیز ۲ درصد کسب کردید. هر دو عبارت درست است. کلک این است که پایه درصدها را تغییر بدهید. ۲درصد مبلغ سود پولی بانک است که به صورت درصدی از کل داراییهای بانک محاسبه شده است، اما از آنجا که (فرض میکنیم) کل داراییهای بانک شما ۱۰ برابر میزان سرمایه بانک است (سپردههای مشتریان بیشتر این تفاوت را پوشش میدهند) بازده ۲ درصدی در کل داراییها معادل با ۲۰ درصد بازده سرمایه سهامداران میشود. عمل مشابهی انجام میشود وقتی سودها را به صورت درصدی از فروش بیان میکنند. یک شرکت شاید فقط ۱ درصد سود از فروش به دست آورد، اما اگر فروش سالانه آن اتفاقا ۳۰ برابر سرمایه آن باشد، به سود ۳۰ درصدی بر سرمایه آن میرسیم.
هفتم، فرض کنید سود شرکت در امسال ۵۰۰ درصد میزان سودی باشد که سال پیش بود. آیا سهامداران خوشبختی داریم؟ شاید که نه، چون که سود سال گذشته مثلا ۲/۰ درصد سرمایه شرکت بوده است، بهطوری که امسال هم به میزان ناچیز ۱ درصد افزایش یافته است.
هشتم، فرض کنید که در بروشور یک صندوق سرمایهگذاری مشترک آمده است هر ساله ۸/۰ درصد بابت حقالزحمه مدیریت برداشته میشود. به نظر خوب میآید اما این طور نیست. ۸/۰ درصد به صورت درصد درآمدهای سالانه صندوق سرمایهگذاری مشترک بیان نمیشود بلکه ۸/۰ درصد مبلغی است که سرمایهگذاری شده است؛ بنابراین اگر صندوق مثلا در یک سال ۸ درصد درآمد کسب کند، این حقالزحمه تا یک دهم (۱۰ درصد) عایدات شما را میبلعد.
نهم، فرض کنید سال گذشته نوجوانان ۲۰ درصد تمام کسانی باشند که دستگیر شدهاند در حالی که سال قبل از آن، آنها ۱۹ درصد دستگیر شدهها را تشکیل میدادند. آیا میتوان نتیجه گرفت سال گذشته نسبت به سال قبل از آن، تعداد نوجوان بیشتری دستگیر شده است؟ یک بار دیگر خیر. افزایش درصد فقط به ما میگوید که چه اتفاقی به فراوانی نوجوانان دستگیر شده نسبت به بزرگسالان دستگیر شده افتاده است. اگر تعداد بزرگسالان دستگیر شده کاهش یابد پس احتمالا تعداد نوجوانانی که سال گذشته دستگیر شدند کمتر از تعداد آنها در سال پیشتر بوده است.
سرانجام درصد کمتری از تصادفات در بین ساعات ۲ و ۳ نیمه شب تا بین ساعات ۸ و ۹ بامداد رخ میدهد، اما نمیتوان نتیجه گرفت که رانندگی در نیمه شب ایمنتر است. نتیجه اخلاقی همه این ماجراها این است: دانستن اینکه متغیری به درصد معینی رسیده است، هیچ چیز به شما نمیگوید مگر اینکه بدانید آن درصد چیست و از چه چیزهایی تشکیل شده است.
● برخی نگرانیها درباره نوشتن درصدها
اینک دو پرسش مربوط به درست نوشتن درصدها طرح میکنیم. نخست، اگر قیمت یک کالا از ۱ دلار به ۳ دلار افزایش مییابد، قیمت آن کالا چند درصد افزایش یافته است؟ ۲۰۰ درصد و نه ۳۰۰ درصد. اینک قیمت، ۳۰۰ درصد آن چیزی است که قبلا بود پس ۲۰۰ درصد افزایش یافته است. دوم، اگر سودها از ۱۰ درصد فروش به ۱۲ درصد فروش افزایش یابند، چگونه باید این افزایش را بیان کنیم؟ یک روش این است که بگوییم ۲۰ درصد افزایش.
روش دیگری که درصدها باعث گیجی و ابهام میشوند پنهان کردن تعداد واقعی موارد است. اینطور بر سر زبانها افتاد که وقتی دانشگاه جان هاپکینز نخستین دانشجویان دختر را پذیرفت، یک مخالف چنین حرکتی، به شکایت برخاست که یک سوم این دانشجویان با اساتید خود ازدواج کردهاند. حق با او بود: یکی از سه دانشجویان دختر پذیرفته شده چنین کاری کرده بود.
پیش از آنکه درصدها را به حال خود رها کنیم به یک سنجه مرتبط؛ یعنی اعداد شاخص میپردازیم. برای محاسبه یک عدد شاخص، مثلا قیمتها، باید یک سال خاص را به عنوان «سال پایه» انتخاب کنید و قیمتها را در همه سالها در نمونه خود به صورت درصدی از قیمتها در آن سال بیان میکنید. سپس علامت درصد حذف میشود.
این تمام کاری است که انجام میدهید. این نکته را کاملا به یاد داشته باشید که ارزش شاخص در هر سال بستگی به سال پایه خاصی دارد که انتخاب کردهاید. اگر قیمت در سال ۲۰۰۱، ۱۰۰ دلار، در سال ۲۰۰۵، ۱۱۰ دلار و در سال ۲۰۰۸، ۱۱۱ دلار باشد، هنگامی که به صورت عدد شاخص با سال پایه ۲۰۰۱ بیان شوند برای سال ۲۰۰۵، ۱۱۰ و برای سال ۲۰۰۸، ۱۱۱ میشوند، اما اگر به جای آن بیایید سال پایه را ۲۰۰۵ انتخاب کنید پس شاخص برای سال ۲۰۰۸ تنها ۱۰۱ میشود.
توماس مایر
مترجم: جعفر خیرخواهان
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست