شنبه, ۲۹ دی, ۱۴۰۳ / 18 January, 2025
مجله ویستا


آراستگی دروغ!


آراستگی دروغ!
«آمارها نشان می‌دهد كه ۹۵ درصد مبتلایان به سرطان ریه، سابقه‌ی اعتیاد به سیگار دارند». «طبق بررسی‌های به عمل آمده از هر هفت زن انگلیسی یك نفر مبتلا به چاقی مفرط است». «پژوهشگران آلمانی در طی مطالعات خود به این نتیجه رسیدند كه بیش از ۶۰ درصد بزهكاران این كشور، مسواك نمی‌زنند». «۲/۴۲ درصد كودكان دبستانی مادران خود را از نمرات كمتر از ۵/۷ خود مطلع نمی‌كنند!!». «متوسط در آمد فعلی دانشجویان ورودی سال ۱۳۵۴ دانشگاه صنعتی شریف ۵۰۷۷۷۵۵۵ تومان است».
به گمانم این جملات مشخص كرده باشند كه موضوع صحبت ما، آمار است. جملاتی مشابه جملات بالا را هر روز در اخبار می‌شنویم، یا در روزنامه‌ها و مجلات می‌خوانیم. تقریباً همه‌ی ما به شنیدن این جملات عادت كرده‌ایم و كم‌تر به محتوای آن‌ها فكر می‌كنیم. كم‌تر می‌اندیشیم كه منظور از فلان آمار ارائه شده چیست و چه قدر احتمال دارد كه این آمار صحیح باشد. بیش‌تر كسانی كه در اطراف ما زندگی می‌كنند به آمارهایی كه مثلاً در اخبار تلویزیون ارائه می‌شود اعتماد دارند، علی الخصوص آمارهایی كه در بردارنده‌ی اطلاعاتی از یك موضوع غیر سیاسی است. تقریباً همه‌ی زنان خانه‌دار همه‌ی آمارهائی كه در آن حرفی از چاقی زنان به میان آمده است را به دقت دنبال می‌كنند؛ تقریباً همه‌ی مردان شاغل به جزئیات آمارهائی كه از حقوق و درآمد صاحبان مشاغل مختلف ارائه می‌شود ،علاقه‌مندند. اما به راستی این آمارها چه قدر دقیقند؟ و تا چه حد حاكی از واقعیت هستند؟
پاسخ به این سوال از این جهت مهم است كه مردم، اعداد و ارقام ذكر شده در آمارها را به راحتی باور می‌كنند. پس طبعاً مهم است كه: «این آمارها چه قدر واقعی هستند؟». اما حقیقت این است كه این سوال، سوال پیچیده‌ای است و پاسخ دادن به آن اصلاً ساده نیست. زبان آمار زبانی عجیب و رمز گونه است كه اندكی ساده گیری در مواجهه با آن منجر به برداشت‌های غلطی خواهد شد. البته باید گفت كه همگان از این پیچیدگی و رمزگونگی زبان آمار ناخشنود نیستند، چرا كه بسیاری از افراد (در همه جای دنیا) از پیچیدگی و رمزگونگی همین زبان و نیز اقبال عمومی مردمان به نتایج آماری سو استفاده می‌كنند و با تهیه‌ی آمارهائی كه از روش‌هائی غلط بدست آمده، آن‌ها را فریب می‌دهند. روش‌هائی كه اگر چه عالمانه به نظر می‌رسند اما تن به ضوابط پیچیده‌ی علم آمار نمی‌دهند. در حقیقت می‌توان گفت بسیاری از افراد (در همه جای دنیا) از این روش‌ها استفاده می‌كنند و با آن‌ها به مردم دروغ می‌گویند؛ صد البته: دروغ‌هائی آراسته!
در این مقاله سعی بر این داریم تا یكی از ویژگی‌های ابتدائی (اما بسیار مهم) یك آمارگیری صحیح را بررسی كنیم و سپس با استناد به این ویژگی به بررسی صحت و سقم آخرین آماری كه در بند اول آمده است، بپردازیم. ببینیم كه آیا واقعاً «متوسط در آمد فعلی دانشجویان ورودی سال ۱۳۵۴ دانشگاه صنعتی شریف ۵۰۷۷۷۵۵۵ تومان است»؟ !
برای توضیح این ویژگی، از یك مثال ساده شروع می‌كنیم. فرض كنید بشكه‌ای در اختیار داریم كه پر است از دانه‌های لوبیا؛ برخی از آن‌ها قرمز هستند و برخی سفید. می‌خواهیم ببینیم كه نسبت تعداد لوبیاهای قرمز به تعداد لوبیاهای سفید موجود در این بشكه چند است. شما چه راهی را پیش‌نهاد می‌كنید؟
شاید اولین راهی كه به نظر می‌رسد این است كه بشكه را خالی كنیم و تك‌تك لوبیاهای قرمز و سفید را شمارش كنیم و در نهایت به محاسبه‌ی نسبت لوبیاهای قرمز به سفید بپردازیم؛ اما روشن است كه این راه چندان معقول به نظر نمی‌رسد: بسیار وقت‌گیر و پر دردسر است. راه دیگری كه معقولانه به نظر می‌رسد این است كه از میان همه‌ی لوبیاهائی كه در داخل بشكه قرار دارند (كه به آن جامعه‌ی آماری می‌گوئیم)، تعدادی لوبیا را به عنوان نمونه و به تصادف انتخاب كنیم. در این حالت اگر نمونه‌ی ما به اندازه‌ی كافی بزرگ باشد و تا حد ممكن تصادفی انتخاب شده باشد، می‌توان انتظار داشت كه نسبت لوبیاهای قرمز به سفید در این نمونه بیان كننده‌ی تقریب مناسبی از نسبت آن‌ها در همه‌ی بشكه است.
دقت كنید كه تحقق هر دو شرط (الف) بزرگ و (ب) تصادفی بودن این نمونه ضروری است. چرا كه فرض كنید ما فقط ۲ عدد لوبیا را به صورت كاملاً تصادفی انتخاب كنیم (یعنی شرط "الف" برقرار نباشد و شرط "ب" برقرار باشد)، در این صورت به طور قطع به یكی از سه نتیجه‌ی زیر خواهیم رسید:
۱. در این بشكه هیچ لوبیای قرمزی نیست (در حالتی كه هر دو لوبیای انتخاب شده در نمونه سفیدند).
۲. تعداد لوبیاهای سفید و قرمز بشكه با هم برابر است (در حالتی كه یكی از دو لوبیای نمونه سفید و دیگری قرمز است).
۳. در این بشكه هیچ لوبیای سفیدی نیست (در حالتی كه هر دو لوبیای انتخاب شده در نمونه قرمزند).
و واضح است كه هیچ یك از این سه نتیجه، قابل قبول نیستند. در حالتی كه شرط "الف" برقرار باشد و شرط "ب" برقرار نباشد نیز نتایج مقبولی بدست نمی‌آوریم مثلاً فرض كنید كه نمونه‌ی ما بزرگ باشد (۱۰۰۰ دانه لوبیا)، اما همه‌ی آن‌ها را به صورتی غیر تصادفی انتخاب كرده باشیم. حالت اغراق شده‌ی این مسئله شرایطی است كه در آن همه‌ی لوبیا‌ها را قرمز (یا همگی را سفید) انتخاب كرده باشیم!!!
در عین حال اگر نمونه‌ای تصادفی و به اندازه‌ی كافی بزرگ را انتخاب كنیم، می‌توانیم انتظار داشته باشیم كه نتیجه‌ی تقریباً صحیحی به دست بیاوریم (مثلاً ابتدا لوبیا‌های داخل بشكه را خوب مخلوط كنیم، بعد به صورتی تصادفی یك لیوان از لوبیا‌های داخل بشكه انتخاب كرده و با شمارش آن‌ها نسبت مورد نظر را تقریب بزنیم).
در همه‌ی آمارگیری‌های دیگری هم كه انجام می‌شود، نمونه‌ای از یك جامعه‌ی آماری بررسی می‌شود و نتایج بدست آمده از آن نمونه به كل جامعه تعمیم داده می‌شود. مثلاً در مورد «بزهكاران گریزان از مسواك» (در بند اول مقاله)، جامعه‌ی آماری «كل بزهكاران آلمانی» هستند و نمونه‌ی انتخاب شده، «بزهكارانی هستند كه در خصوص مسواك زدن یا نزدن آن‌ها تحقیق شده است». در این مورد هم (همانند همه‌ی موارد دیگر) برای رسیدن به نتیجه‌ی صحیح نیازمند به اندازه‌ی كافی بزرگ و تصادفی بودن نمونه‌ی آماری هستیم (شاید در این‌جا این سوال برای شما مطرح شود كه «چه زمانی می‌توانیم از به اندازه‌ی كافی بزرگ و تصادفی بودن نمونه مطمئن شویم؟»، در جواب باید گفت كه این سوال شما سوال بسیار مهمی است، اما پاسخ به آن اصلاً ساده نیست).
در حالتی كه نمونه‌ی ما به اندازه‌ی كافی بزرگ یا تصادفی نباشد آن را اریب می‌نامند. نمونه‌های مناسب برای آمارگیری نمونه‌های نااریب هستند.
حال اجازه بدهید كه به بررسی صحت و سقم این ادعا كه «متوسط در آمد فعلی دانشجویان ورودی سال ۱۳۵۴ دانشگاه صنعتی شریف ۵۰۷۷۷۵۵۵ تومان است» بپردازیم. تنها ابزاری كه (تا این‌جا) برای این بررسی در اختیار داریم، اریب یا نا اریب بودن نمونه‌ای است كه برای بدست آمدن این آمار مورد استفاده قرار گرفته است، اما اجازه بدهید كه پیش از آن این گزاره را با فهم عرفی (و نه شعور علمی) خود مورد توجه قرار دهیم:
این رقم (یعنی ۵۰۷۷۷۵۵۵ تومان) رقم بسیار دقیقی است و غیر محتمل به نظر می‌رسد كه درست باشد. چرا كه اگر كسی كارمند (حقوق بگیر) نباشد، احتمال این‌كه بتواند درآمدش را با چنین دقتی محاسبه نماید بسیار اندك است، از سوی دیگر كسانی كه كارمند (حقوق بگیر) هستند چنین درآمد بالائی نخواهند داشت.
پس تا به این‌جا به این نتیجه می‌رسیم كه این عدد چندان معقول به نظر نمی‌رسد اما آیا مطالب علمی نیز این نظر ما را تائید می‌كنند؟
می‌توانیم مطمئن باشیم، گزارشی كه از میزان درآمد فارغ التحصیلان دانشگاه شریف ارائه شده است نتیجه‌ی یك نمونه‌گیری است، چرا كه منطقاً دسترسی به همه‌ی آدم‌های زنده‌ای كه ورودی سال ۱۳۵۴ این دانشگاه بوده‌اند، ممكن به نظر نمی‌رسد. نشانی بسیار از این افراد بعد از گذشت ۳۰ سال به دست نخواهد آمد. از بین آن‌هائی هم كه نشانیشان در اختیار باشد، بسیاری به سوالات پرسش‌نامه (به خصوص پرسش‌نامه‌ای كه در آن سوالاتی تقریباً خصوصی -میزان درآمد- پرسیده شده است!) پاسخ نخواهند داد. بنابراین رقم متوسط درآمد بر اساس پاسخ‌های نمونه‌ای از تمام ورودی‌های سال ۱۳۵۴ دانشگاه صنعتی شریف، به دست آمده است. اما آیا این نمونه معرف كل جامعه‌ی آماریست؟ به بیان علمی‌تر آیا این نمونه اریب نیست؟ (آیا می‌توان درآمد افراد این نمونه را به درآمد همه‌ی فارغ التحصیلان ورودی ۱۳۵۴ این دانشگاه تعمیم داد؟).
پاسخ ساده است. این نمونه به دو دلیل بسیار روشن (و دلایل تاریك و روشن دیگر!)، اریب خواهد بود:
عمده‌ی افرادی كه آدرس آن‌ها به دست آمده است، افراد شناخته شده‌ای هستند. صاحبان كارخانجات، مدیران عامل شركت‌ها، اساتید مشهور دانشگاه‌ها و... كه عمدتاً در آمد بالائی دارند. در حقیقت اكثریت افرادی كه نشانی آن‌ها به دست نیامده است كسانی هستند كه پس از دریافت مدرك كارشناسی خود از این دانشگاه چندان درخششی نداشته‌اند؛ آن‌ها كسانی‌اند كه در مسند یك آموزگار ساده، یك كارمند معمولی، یك روزنامه‌نگار، یك تكنسین پیش پا افتاده یا... نشسته‌اند و از درآمد بالائی برخوردار نیستند (و در این نمونه‌گیری هم خبری از آن‌ها نیست).
بنابراین نمونه‌ی ما به اندازه‌ی كافی تصادفی نیست! و اریب بودن نمونه مقبولیت آمارهای مستند به آن را مخدوش می‌كند!
●●
چه طور بود؟ حالا نسبت به آمارهای اطرافتان چگونه فكر می‌كنید؟؟
پی‌نوشت:
۱. این آمار اگر چه ساختگی است اما بر گرفته از آماری است كه مجله‌ی تایم (Time) در سال ۱۹۵۹ از میزان در آمد فارغ التحصیلان ورودی ۱۹۲۴ این دانشگاه ارائه داده است. برای مطالعات بیش‌تر می‌توانید به كتاب زیر (كه مرجع اصلی این نوشتار است) رجوع كنید:
تارل هاف، دكتر مهدی تقوی، «چگونه با آمار دروغ می‌گویند؟»، آفتاب، ۱۳۷۱
صالح زارع پور
منبع : تبیان