شنبه, ۱۱ اسفند, ۱۴۰۳ / 1 March, 2025
موتور حرکت اقتصاد تجربی

در جایگاه قضاوت نشستن، باعث میشود تا شخص بیش از آن که به سطح معنیدار بودن آماری توجه کند نگران روابط آماری باشد. معنیدار بودن نتایج فقط در صورتی قابل تایید است که درک عمیقی از همه جنبههای مساله داشته باشیم.
باید شناخت کافی از همه تئوریهای مرتبط با موضوع داشت و ادبیات گسترده درباره آن موضوع و نهادهایی را که نقش مهمی در مساله مورد بررسی دارند، شناخت.
(دیوید کلاندر، «چگونگی شکلگیری اقتصاددان»، ص ۲۴۳)
ابزار اصلی آماری که در علم اقتصاد استفاده میشود تحلیل رگرسیونی است. در این شیوه به دو یا چند سری آماری نگاه میکنیم که آیا به نحوی سازگار با هم در یک جهت یا در جهت مقابل حرکت میکنند و اگر اینطور است وقتی یکی از سریها تغییر میکند سری دیگر چقدر تغییر خواهد کرد: به عبارت دیگر همارتباطی آنها چگونه بوده و چقدر دقیق است. فرض کنید قصد داریم فروش یخچال را تبیین یا پیشبینی کنیم. فروش یخچال را «متغیر وابسته» مینامیم چون که میخواهیم بدانیم به چه متغیرهایی وابسته است. سپس به تئوری اقتصادی یا به فهم مشترک عمومی متوسل میشویم تا به ما بگوید عوامل تعیینکننده- که آنها را «متغیر مستقل» یا گاهی اوقات «رگرسورها» مینامند- چه هستند. آنها را «متغیر مستقل» مینامند چون در حالی که روی فروش یخچال تاثیر میگذارند فرض میکنیم فروش یخچال در مقابل تاثیری بر آنها نمیگذارد. (این امکان نیز هست که مجموعه معادلات رگرسیون را به طور همزمان حل کنیم که متغیر وابسته در یک معادله، متغیر مستقل در معادله دیگر میشود.)
در علوم طبیعی اغلب اوقات، دو متغیر رابطه دقیق دارند که میتوان به صورت یک قانون علمی بیان کرد. برای مثال. متغیر y همیشه دقیقا b برابر متغیر دیگر x است. در این حالت، نیازی به تحلیل رگرسیونی نیست. تمام کاری که باید انجام داد دقت در مقادیر هر جفت x و y است و با استفاده از اینها میتوان مقدار b را حساب کرد، اما اگر x تنها متغیری نباشد که بر y تاثیر میگذارد چنین روشی نتیجه نمیدهد. همان طور که در شکل ۱ دیده میشود رابطه بین x و y دقیق نیست.
جایگاه متغیر x را روی محور افقی در نظر بگیرید. برخی نقاط در جایگاه بسیار بالایی روی محور عمودی قرار دارند و برعکس. یک شیوه فهمیدن تحلیل رگرسیونی این است که تصور کنیم رابطه زیربنایی دقیقی بین x و y وجود دارد، چنان که y برابر ۳x است، اما پیش از اینکه دادهها به دست شما برسد یک نفر شیطنت کرده است و مقداری اعداد تصادفی مثبت و منفی روی yها انداخته است. وظیفه شما پیبردن به روابط واقعی x و y از میان مشاهدات آلودهشدهای است که به شما داده شده است. مشخصا این کارها را باید بکنید: (۱) میزان تاثیری را که یک واحد تغییر x روی y میگذارد تعیین کنید؛ (۲) ارزیابی کنید که آیا این اثر از نظر آماری معنیدار است و (۳) برآورد کنید چه نسبتی از تغییر در y که مشاهده کردهایم به خاطر تغییرات در x بوده است.
۱) ضریب رگرسیون
برای سادگی فرض کنید رابطه بین x و y را میتوان با یک خط راست نشان داد. معادله خط راست با وجود تنها یک متغیر مستقل به این صورت درمیآید:
y = a + bx که a و b اعداد ثابت هستند؛ یعنی اعدادی مثل ۳۴ یا ۸ که تغییر نمیکنند. پس b به شما میگوید که اگر x به میزان ۱ واحد تغییر کند، y به اندازه ۸ واحد تغییر میکند. b شبیه چرخ دنده است که تغییرات از x را به y انتقال میدهد.
پس آنچه رگرسیون x روی y انجام میدهد انتخاب مقادیر خاصی برای a و b است که بهترین پیشبینی از y را که با دانستن مقدار x میتوانید به دست آورید به شما میدهد. دقیقتر اینکه بگوییم کامپیوتر آن مقادیری را برای a و b انتخاب میکند که مجذور تفاوتهای بین مقادیر واقعی y و مقادیر y که رگرسیون پیشبینی میکند به حداقل میرساند. برای سادهسازی بحث، لحظهای مجذور کردن و نیز عدد ثابت a را فراموش کرده و فکر کنید چگونه وضعیتی را توصیف میکنید که به صورت یک قاعده کلی هر وقت x به میزان ۱ واحد افزایش یافت، y به اندازه ۳ واحد افزایش مییابد، اما برخی اوقات یک کمی بیشتر و برخی اوقات یک کمی کمتر افزایش مییابد. آیا منطقی نخواهد بود که بگوییم: y برابر با ۳x به علاوه یا منهای یک عامل سرهم کردنی است؟ این عامل سرهم کردنی را «جمله خطا» مینامیم. مادامی که این حالت از خطاهای نمونهگیری تصادفی ناشی میشود، در نمونه به حدی کافی بزرگ جمله خطا توزیع نرمال خواهد داشت. همان طور که نمونه بزرگتر و بزرگتر میشود با داشتن اعداد مثبت و منفی که میل به حذف کردن هم دارند، عامل سرهم کردنی به صفر نزدیک میگردد، اما مادامی که وجود عامل سرهم کردنی به علت تاثیر برخی متغیرهای مستقل اضافی نباشد که به اشتباه حذف کردهایم، ما همچنین فرض میکنیم، یا درستتر اینکه بگوییم امیدوار هستیم این خطاها نیز به صورت نرمال توزیع شده باشند؛ بنابراین تقریبا همدیگر را خنثی نمایند.
فرض کنید کامپیوتر حساب میکند که a مثلا ۱۰ و b مثلا ۳ شده است. وجود خطاهای نمونهگیری و سایر خطاها (یعنی عامل سرهم کردنی) به ما اجازه نمیدهد که بگوییم هر وقت x مساوی ۱ است y باید ۱۳ باشد، اما مادامی که این خطاها تصادفی باشند، از بخشهای بعدی میدانیم در اینباره چه کار باید کرد. ما به خطاهای معیار نگاه میکنیم (یعنی انحراف معیار) تا دامنهای که به نحو معقولی میتوان انتظار داشت a و b در آن محدوده جای گیرند به دست آید، (معمولا تا منها و به علاوه دو خطای معیار پیش میرود تا سطح احتمال ۵ درصد به دست آید). یا اگر ما صرفا میخواهیم بدانیم آیا احتمال کمتر از ۵ درصدی وجود دارد که در جامعه، a یا b واقعا صفر هستند، مقادیر آنها را که «برآوردهای نقطهای» نامیده میشوند بازبینی میکنیم که آیا از صفر به اندازه بیشتر از دو خطای معیار تفاوت دارند یعنی مقدار t آنها ۲ یا بزرگتر از ۲ باشد.
این a و b واقعا چه چیزی را اندازهگیری میکنند؟ از آنجا که a یک عدد ثابت است؛ یعنی بدون توجه به مقداری که x میگیرد مقدار آن فرقی نمیکند، آن را میتوان اینگونه تفسیر کرد: مقدار y، وقتی x صفر باشد. به طوری که میتواند منفی، مثبت یا صفر باشد. از آنجا که ما عمدتا میخواهیم بدانیم چگونه x بر y تاثیر میگذارد و نه اینکه وقتی x صفر است y چه مقدار میشود، به این جمله ثابت معمولا علاقهای نشان داده نمیشود. به جای آن، علاقه زیادی به ضریب b داریم که «ضریب رگرسیون» نامیده میشود. به شکل نموداری، b شیب خط رگرسیون است؛ یعنی خطی که از میان خوشه نقاط (مشاهدات) کشیده شده است به طوری که مربعات انحرافات این نقاط از خط را به حداقل میرساند و با این معنی، بهترین تصویر از مشاهدات است.
تا اینجا فرض کردم رابطه بین x و y را میتوان با یک خط راست توصیف کرد. اگر بخواهیم علمی سخن بگوییم دلیلی ندارد که چرا باید اینگونه باشد، اما معمولا آن خط، تقریب کافی و نزدیکی است که ما بتوانیم استفاده کنیم. همچنین امکان استفاده از معادلات رگرسیونی که رگرسورهای غیرخطی از قبیلX۲ دارند هست، اما برخی اوقات باعث میشود تا برنامه کامپیوتری به هم بریزد و وقتی دادهها با رسم خط راستی از اعداد طبیعی به خوبی قابل توصیف نباشند ما رگرسیون را روی لگاریتم آنها برازش میکنیم. استفاده از لگاریتم این مزیت را دارد که تغییرات در هر دو متغیرهای وابسته و مستقل را میتوان به صورت درصد تغییرات خواند.
تا اینجا ما فقط با یک رگرسور کار کردیم، اما معمولا اوضاع و احوال پیچیدهتر است چون که رفتار y وابسته به عوامل بسیاری است؛ برای مثال، تقاضا برای خودرو نه فقط به قیمت خودرو، بلکه به قیمت بنزین و حمل و نقل عمومی، قیمت کالاهای رقیب و جانشین، به درآمد و به عشق و علاقه مردم به داشتن خودرو نیز بستگی دارد. بنابراین اغلب اوقات نیاز است تا رگرسورهای بیشتری را بگنجانیم: مثلا اگر پنج متغیر مستقل، اثر چشمگیری بر متغیر وابسته داشته باشند باید معادله رگرسیون را به این صورت بنویسیم:
y=a +bx۱ +cx۲ +dx۳ +ex۴ +fx۵ +e
که پاییننویسهای هر x بیانگر رگرسورهای متفاوت است و e جمله خطا میباشد. میتوان متغیرهای مستقل بسیاری را در رگرسیون جای داد به شرط اینکه مشاهدات کافی داشته باشیم. بیشتر رگرسیونها اینک از بیش از یک رگرسور استفاده میکنند، اما برای اینکه بحث را ساده نگه داریم در اینجا فقط درباره یک رگرسور صحبت میکنیم.
۲) تعیین خوبی برازش رگرسیون با دادهها
فرض کنید با محاسبات کامپیوتری معلوم میشود وقتی نرخ بهره وام خودرو یک درصد افزایش یابد فروش خودرو ۵ درصد کاهش مییابد. این اطلاعات مفیدی است اگر که شما در واحد بازاریابی یک شرکت خودروسازی کار میکنید، اما این اطلاعات به شما نمیگوید تغییرات در فروش خودرو که مشاهده میکنید تا چه حد با تغییرات نرخ بهره قابل تبیین است به جای اینکه با سایر عوامل از قبیل تغییر درآمد مصرفکننده قابل تبیین باشد. امکان این هست که پیشبینی هر یک درصد تغییر در نرخ بهره، فروش خودرو را ۵ درصد کاهش میدهد کاملا درست باشد و درعین حال میتوان بیشتر تغییرات واقعا مشاهده شده در فروش خودرو را با عواملی به غیر از تغییر نرخ بهره تبیین کرد.
اقتصاددانان و آماردانان، خوبی برازش معادله رگرسیون با دادهها را اندازهگیری میکنند یعنی با چه دقتی میتوان y (فروش خودرو) را به صرف دانستن x (نرخ بهره) پیشبینی کرد. آنها این کار را با استفاده از ضریب همبستگی، R یا در بیشتر اوقات با پسر عموی آن، R۲ ضریب تعیین، انجام میدهند. R و R۲ در دامنه صفر تا یک هستند و با توجه به شرط مهمی که در زیر بحث میشود، نسبت نوسانات در y یا دقیقتر نسبت مربع نوسانات y را که با نوسانات در x تبیین شده باشد اندازهگیری میکند؛ اگر چه R۲ نمیتواند منفی باشد چون که مجذور یک عدد طبیعی نمیتواند عدد منفی به دست آید، برخی اوقات با بیقیدی به صورت منفی گزارش میشود تا به خواننده گوشزد کند رابطه بین x و y منفی است.
بنابراین، با فرض ثبات سایر چیزها، اگر میخواهید عواملی را پیدا کنید که به بهترین نحو تغییرات مشاهده شده در متغیر وابسته شما را تبیین میکنند باید یک معادله رگرسیون انتخاب کنید که R۲ مثلا ۸/۰ دارد نسبت به یک معادله رگرسیون که R۲ فقط ۵/۰ دارد، اما در این کار زیادهروی نکنید: تفاوت کوچک در R۲ از قبیل تفاوت بین مثلا ۸۳۴/۰ و ۸۳۰/۰ بیمعنی است و شاید حتی معکوس شود اگر برنامه کامپیوتری متفاوتی استفاده میکردید و علاوه بر این، سایر چیزها اغلب اوقات برابر نیستند.
۳) در رگرسیون باید به دنبال چه چیزی باشیم؟
کدامیک از این سنجهها مهمتر است، R۲ ،ضریب رگرسیون یا مقدار t؟ پاسخ این است: «هر سه تا». هر سه مهم هستند چون که آنها به پرسشهای متفاوتی پاسخ میدهند. فرض کنید از شما پرسیده میشود رگرسورهای مدل چقدر رفتار y را تبیین یا پیشبینی میکند. پس همان طور که در بالا بحث شد R۲ سنجه مناسب خواهد بود، اما اگر پرسش شما این است که آیا یک واحد نوسان رگرسور، اثر چشمگیری بر متغیر وابسته دارد، پس باید ابتدا به مقدار t ضریب مربوطه نگاه کنید تا از خطر نسبت دادن اهمیت به نتیجه خطای صرف نمونهگیری جلوگیری کنید و نیز باید به معنیدار بودن محتوایی ضریب نگاه کنید تا معلوم شود آیا این اثر به حد کافی بزرگ و مهم هست. در اینجا باید به واحدهایی که x و y اندازهگیری میشوند توجه کرد. برای مثال اگر در تخمین عوامل تعیینکننده نرخ تورم، ضریب رگرسیون کسری فدرال، مثلا ۰۰۱/۰ است، فرق است بین اینکه آیا منظور این است نرخ بهره ۰۰۱/۰ درصد افزایش مییابد وقتی کسری به میزان یک میلیون دلار افزایش مییابد یا این افزایش نتیجه یک افزایش یکمیلیارد دلاری در کسری فدرال است.
توجه به واحدهای اندازهگیری لازم اما نه کافی است تا ثابت شود که آیا ضریب «بزرگ» بوده یا چنان کوچک است که اهمیتی ندارد. در اینجا هیچ قاعده مکانیکی مثل قرار ۵ درصد معنیدار بودن آماری نداریم. آنچه نیاز است قضاوت شما و نه قضاوت کامپیوتر است.
هنگام نگاه به ضریب رگرسور باید این دقت را نیز داشت که اندازه آن یا مقدار t آن را با اهمیتش در تبیین تغییرات مشاهده شده در y قاطی نکنید. برای تبیین این تغییرات، آنچه اهمیت دارد نه فقط اندازه ضریب رگرسیون، بلکه اینکه چقدر خود رگرسور تغییر میکند نیز هست. حتی اگر ضریب رگرسیون X۱ بسیار بزرگتر از ضریب رگرسیون X۲ باشد اگر X۲ بسیار بیشتر از X۱ تغییر میکند پس نوسانات احتمالا میتواند نسبت بزرگتری از تغییرات مشاهده شده در y را توضیح دهد. فرض کنید در رگرسیونی که درصد درآمد پسانداز شده خانوادهها را تبیین میکند یک رگرسور X۸ را شامل میکنید برای اینکه آیا خانواده در آن سال یک بچه دارد یا خیر. ضریب رگرسیون برای این رگرسور احتمالا بزرگ است، اما بیشتر نوسانات در درصد درآمد پسانداز شده خانوادهها در نمونه شما را تبیین نخواهد کرد چون که در هر سال خاص، X۸ بیشتر خانوادهها صفر خواهد بود.
حتی اگر فقط علاقهمند به این هستید که رگرسیون شما چقدر خوب میتواند متغیر وابسته را تبیین و پیشبینی کند باید نه فقط به R۲ بلکه همچنین به یکایک ضرایب رگرسیون و مقادیر t آنها نگاه کنید. فرض میکنیم فروش کارتهای کریسمس را روی نرخ بیکاری رگرس میکنید و عامل فصلی بودن را در نظر میگیرید و نیز یک رگرسور اضافی که به اصطلاح «متغیر بدلی یا ساختگی» است که در این مورد خاص مقدار ۱ را برای ماه دسامبر و مقدار صفر را برای سایر ماهها میگیرد. R۲ بالایی به دست میآورید، اما این به شما نمیگوید که تغییر بیکاری اثر زیادی بر فروش کارت کریسمس دارد- شما همچنین یک R۲ بالا به دست میآورید حتی اگر به جای نرخ بیکاری، تعداد گربههای به دنیا آمده در آن ماه را استفاده میکردید چون که در این مورد، متغیر بدلی فصلی بودن و نه نرخ بیکاری است که تاثیر میگذارد. داستانی درباره یک فروشنده دورهگرد گفته میشود که به یک روستا رفت و اعلام کرد سنگ مخصوصی برای فروش دارد که با آن میتوان سوپ خوشمزهای درست کرد و حاضر به اثبات آن شد. در حینی که سنگ را با آبجوش میپخت به روستاییان گفت سوپ سنگی خیلی خوشمزه است، اما مزه حتی بهتری پیدا میکند اگر مقداری هویج به آن اضافه شود. پس روستاییان مقداری هویج به درون قابلمه ریختند. در حینی که هویج پخته میشد به آنها گفت اضافه کردن مقداری پیاز سوپ را حتی خوشمزهتر میکند و پس از افزودن پیاز به آنها گفت برای اینکه سوپ سنگی خیلی بهتری به دست آید آنها باید مقداری گوشت هم اضافه کنند!
سرانجام فرض میکنیم شما فقط علاقهمند به اثری که یک رگرسور معین روی Y دارد هستید و نه به تبیین اینکه چه چیز بیشتر تغییرات در Y را تعیین میکند. با این حال، باید به R۲ نگاه کنید تا ببینید آیا رگرسیون به حد کافی معنیدار بودن نوسان در Y را تبیین میکند. اگر یک رگرسیون، ۹۸ درصد تغییرات در Y را تبیین نشده باقی میگذارد پس نمیتوان اعتماد زیادی به آن کرد.
پس R۲ باید چقدر بزرگ باشد تا ضرایب رگرسیون معنیدار باشند؟ پرسش خوبی است، اما پرسشی است که پاسخ خوبی ندارد. تا حدی بستگی به این دارد که R۲رگرسیونهای رقیب چقدر بالا بودهاند. آن همچنین به مشخصات متغیر وابسته بستگی دارد. برای مثال فرض کنیم قصد تبیین نرخ پسانداز خانوادهها را دارید. اگر متغیر وابسته شما نرخ پسانداز هر کدام از خانوادهها باشد R۲ پایینی به دست خواهید آورد، چون که بسیاری عوامل شخصیشده که در معادله رگرسیون شما وجود ندارند از قبیل از دست دادن شغل، دریافت یک هدیه با ارزش و غیره بر نسبت پسانداز خانوادههای خاصی تاثیر خواهند گذاشت، اما اگر دادههای شما میانگین نرخ پسانداز خانوادههایی باشد که درون طبقات درآمدی گوناگون مرتب شدهاند این عوامل شخصی شده اساسا حذف خواهد شد، به طوری که باید R۲ بالاتری به دست آورید. برخی بررسیها کهR۲، ۲/۰ یا حتی کمتر داشتند در نشریات کاملا معتبر علمی منتشر شدند اگر چه خود منR۲ چنین پایینی را تا حدی نگرانکننده میبینم. در سوی دیگر قضیه،R۲ مثلا ۹۹۸/۰ نیز نگرانکننده است چون که بیش از حد خوب است که واقعی به نظر رسد و شاید به این علت باشد که هر دو متغیر روند زمانی یکسانی دارند یا Y یک عنصر مشترک با X دارد.
۴) جمعبندی مطالب
چون که این بحث پیچیده است پس آن را مرور میکنیم. فرض میکنیم شما مقالهای مینویسید که آیا طی رکود اقتصادی دولت باید به صنعت ساختمان مسکونی کمک کند یا نه. تارنمای این صنعت استدلال میآورد هر گونه که ساختوساز مسکونی پیش برود اقتصاد ملی هم همان طور پیش میرود و استدلال خود را با یک رگرسیون تقویت میکند که مقادیر فصلی GDP (متغیر وابسته) را به GDP فصل قبلی و به ساخت و ساز مسکونی آن فصل مرتبط میکند. R۲ وی ۹۱/۰ است. مساله علیت را به کنار میگذاریم. آیا باید تحت تاثیر اینها قرار بگیریم؟ نه واقعا. چون که GDP در هر فصلی، همبستگی بالایی با GDP فصل قبلی دارد، پس احتمال دارد R۲ بالایی به دست آورید حتی اگر نوسانات درجه حرارت در هند را به جای ساخت و ساز مسکونی استفاده میکردید. بنابراین به ضریب رگرسیون ساخت و ساز
مسکونی نیز نگاه میکنید و متوجه میشوید که کاملا معنیدار است؛ یک دلاری که خرج ساخت و ساز مسکونی میشود GDP را ۴ دلار بالا میبرد. این کمی نامعقول به نظر میرسد پس به مقدار t این ضریب نگاه میکنید که عدد ۵/۰ شده است. شما به درستی استدلال این صنعت را رد میکنید.
حال موضوع را اندکی پیچیده میکنیم. مقدار t، ۹/۱ بوده است، اینک چه میگویید؟ شما میتوانید همچنان سرسختی نشان دهید و بگویید چون احتمال این که مقدار واقعی ضریب صفر باشد بیشتر از ۵ درصد هست، پس استدلال صنعت را نخواهید پذیرفت. یا اینکه میتوانید بگویید در حالی که صنعت معیار اثبات علمی را رعایت نکرده است احتمال قابل توجهی میرود که مقدار واقعی ضریب بزرگتر از صفر باشد. پس شاید با احتیاط استدلال صنعت را بپذیرید. در واقع شما باید اینکار را بکنید اگر فکر میکنید زیان پذیرفتن این شاهد به نفع موضع صنعت وقتی که واقعا نادرست است بیشتر از زیان نپذیرفتن آن وقتی که واقعا درست است، نباشد.
۵) نگاه کردن به دندانهای اسب بارکش
تحلیل رگرسیون ابزار قدرتمندی است که در بیشتر حوزهها و برای اهداف گوناگون استفاده میشود، اما قابلیت گمراه کردن را نیز دارد. چهار دام مهم عبارتند از:
خطر نسبت دادن روابط گذشته به آینده، نیاز به گنجاندن متغیرهای کنترل درست، احتمال به اشتباه افتادن با یک یا چند مشاهده پرت و خطر استنتاج علیت از وجود همبستگی.
با خواندن خطراتی که ذکر شد، شاید این احساس به شما دست دهد که تحلیل رگرسیون؛ بنابراین بیشتر تحلیل اقتصاد تجربی بهعلاوه بسیاری از پژوهشهای دیگر علوم اجتماعی کارهای بیارزشی هستند که ما بهتر است به درک شهودی، احساس و قضاوت شخصی خود متکی باشیم. این طور نیست. قطعا این گونه نیست. چنین برداشتی به اندازه نظری درست است که پس از خواندن کتابی درباره بیماریها پیدا میکنید: اینکه شما مبتلا به انواع بیماریها هستید. من به عنوان کسی که بیشتر عمرش را در پژوهشهای اقتصادی تجربی صرف کرده است، از جمله بسیاری معادلات رگرسیونی انجام دادم، قطعا فکر نمیکنم که آنها بیفایده هستند.
● گذشته، آینده نیست
ظاهرا اگر شما غیبگو نباشید همه دادههایی که در اختیار دارید از گذشته میآید و اگر بخواهید فقط رویدادهای گذشته را تبیین کنید، بسیار خوب است و کسی با آن مخالفتی ندارد، اما بیشتر اوقات به آینده هم علاقهمند هستیم و این فرض که آینده دقیقا شبیه گذشته خواهد بود میتواند فرضی مشکلآفرین باشد. برای مثال رگرسیونهایی که در دهههای ۱۹۶۰ و ۱۹۷۰ برآورد گردیدند رابطهای ثابت بین عرضه پول و GDP اسمی نشان میدادند، اما برای تغییرات در زمان کوتاهمدتتر در دهه ۱۹۸۰، این رابطه تقریبا ناپدید شد، در دهه ۸۰
نوآوریهای مالی، مقرراتزدایی بازارهای مالی و نرخهای بهره بالا باعث شد تا شیوه پرداختهای خانوارها و بنگاه و نیز شیوه مدیریت داراییهای مالی آنها تغییر کند (یک مثال کارتهای اعتباری هستند). مشکل مشابهی در سال ۸-۲۰۰۷ و در زمانی بهوجود آمد که اقتصاددانان سعی کردند آمدن یک رکود اقتصادی را پیشبینی کنند و اینکه در صورت وقوع چقدر عمیق است. به علت زیانهایی که نظام مالی از اوراق بهادار به پشتوانه وامهای رهنی و سایر داراییها دیده است، این نظام بسیار شکنندهتر از هر زمانی از هنگام بحران بزرگ تاکنون شده است؛ بنابراین مدلهای اقتصادسنجی بر اساس رگرسیون که به دادههای پس از جنگ جهانی دوم برازش میشوند چیزهای اندکی درباره چگونگی تاثیرگذاری چنین شکنندگی مالی بر اقتصاد به ما میگوید. به همین ترتیب، پس از سقوط بازار سهام، معادله رگرسیونی که در تخمینهای پیشین قیمت سهام، برازشهای خیلی خوبی داشته است اینک خودش را نه به شکل یک دوست قابل اعتماد، بلکه به شکل دشمنی نابکار نشان خواهد داد.
حالت خاصی که ضرایب رگرسیون بیثبات هستند زمانی پیش میآید که دولت سیاست خود را تغییر میدهد. فرض کنید دولت قبلا مالیاتها را فقط زمانی کاهش میداد که قصد داشت آن را برای مدت طولانی در سطح پایینتری نگه دارد. یک اقتصاددان سپس یک رگرسیون را تخمین میزند تا اثر کاهش مالیاتها را بر مصرف اندازه بگیرد. او یک ضریب بزرگ و کاملا معنیدار پیدا میکند. این یافته دولت را تشویق به اقتباس یک سیاست جدید میکند. از این به بعد، دولت مالیاتها را طی دوره رکود کاهش خواهد داد تا مصرف را تقویت کند و سپس دوباره مالیاتها را بالا میبرد وقتی اقتصاد به حالت عادی برگشت.
اما پس از مدتی مردم متوجه قضیه میشوند و میدانند که وقتی مالیاتهایشان کاهش مییابد به زودی دوباره افزایش خواهد یافت. اکنون وقتی مالیاتها کاهش مییابد آنها مصرفشان را تقریبا به همان اندازه قبل افزایش نخواهند داد؛ بنابراین برگزیدن سیاست جدید، باعث میشود تا ضرایب رگرسیون قبلی کهنه و بیاستفاده شود که سیاست جدید هم روی آن بنا شده است. این به «انتقاد لوکاس» مشهور شده است چون که نخستین بار رابرت لوکاس برنده جایزه نوبل آن را مطرح کرد. در حالی که همه اصولا میپذیرند حق با لوکاس است و تغییر سیاست باعث قدیمی شدن ضرایب رگرسیون قبلی میشود درباره اهمیت مقداری آن اختلاف نظر وجود دارد. بیشتر اقتصاددانان در حالی که اعتبار منطقی انتقاد لوکاس را میپذیرند، آن را برای مسائل عملی روزمره نسبتا بیاهمیت میدانند چون آنها انتظار دارند عامه مردم انتظارات خود درباره سیاست دولت را خیلی آهسته تغییر دهند. سایرین فکر میکنند که انتقاد لوکاس بیشتر پیشبینیهای قبلا مرسوم از اثر تغییرات سیاست دولت را بیاعتبار میسازد. انتقاد لوکاس برای برخی تغییرات سیاسی بسیار مهمتر از سایر تغییرات سیاستی است، اما در کل، هیات منصفه هنوز حکم قطعی صادر نکرده است. ضرایب بیثبات نه فقط برای مطالعاتی که از دادههای سری زمانی استفاده میکنند، بلکه برای مطالعاتی که از دادههای مقطعی استفاده میکنند یعنی دادههایی که در یک لحظه خاص به دست آمده است از قبیل نظرسنجیها از بیکاری جاری نیز مشکلزا هستند. برای مثال اکنون که مردم از خطرات سیگار کشیدن بسیار باخبرتر شدهاند، معادله رگرسیونی که تفاوت مصرف سیگار را در دهه ۱۹۵۰ خیلی خوب تبیین میکرد حالا دیگر شاید نتواند چنین کاری بکند.
● انتخاب متغیرهای کنترل
فرض میکنیم که شما فروش خودروی بیامو را روی قیمت آن رگرس میکنید. انتظار داریم ضریب رگرسیون منفی باشد چون که علیالظاهر در قیمتهای بالاتر، خودروی کمتری خریداری میشود، اما کامپیوتر شما در عوض یک ضریب مثبت تحویل میدهد. دلیل آن را اینجا آوردیم. در آن زمانهایی که درآمد مردم به سرعت افزایش مییابد بیامو بیشتری خریداری میشود و این زمان دقیقا موقعی است که فروشندگان هم قیمتهای خود را بالا میبرند. (اگر بر اساس منحنیهای عرضه و تقاضا بخواهیم صحبت کنیم منحنی تقاضا به سمت بالا و راست جابهجا میشود و اینک در قیمتهای بیشتری منحنی عرضه را قطع میکند.) اما شما به کامپیوتر چیزی درباره افزایش درآمد مصرفکنندگان نگفتهاید و تعجبی ندارد که کامپیوتر همه مشاهداتی که نشان میدهد هر دو قیمت و فروش در حال افزایش هستند به عنوان وجود رابطهای مثبت بین قیمت و فروش تفسیر کند. بیتردید، در این بین مشاهداتی نیز وجود دارد که قیمت بیامو بالا میرود و فروش کاهش مییابد (که این را حرکت روی منحنی تقاضا میگوییم) و اینها را به درستی به عنوان رابطهای منفی بین قیمت و فروش تفسیر میکند، اما امکان دارد فقط یک ضریب رگرسیون به شما بدهد که هر دو حالت را دربر میگیرد. پس ضریبی تحویل شما میدهد که ملغمهای بیمعنی بوده و امکان دارد مثبت یا منفی باشد.
مثال دیگری میآوریم و فرض میکنیم درآمد را فقط روی تحصیلات رگرس میکنید. با اینکار چیزهایی را از قلم میاندازید. افرادی که تحصیلات بیشتری دارند معمولا ضریب هوشی بالاتری دارند و نیز در هر سطحی از تحصیلات، کسانی که ضریب هوشی بالایی دارند معمولا درآمد بالاتری دارند، اما چون به کامپیوتر چیزی درباره ضریب هوشی نگفتهاید تمام کاری که آن میتواند بکند کل تفاوت درآمدی مردم با میزان متفاوت تحصیلات را فقط به تحصیلات نسبت میدهد. با انجام این کار، کامپیوتر ضریب رگرسیونی بیرون میدهد که خیلی بالا است، چون که اثر تفاوتها در ضریب هوشی را در کنار تفاوتها در تحصیل شامل میکند.
مثال سومی هم برایتان آوردهایم: در برخی مناطق بالکان، تعداد بچههای متولد شده همبستگی مثبتی با تعداد لکلکها دارد. دلیل آن این است که در روستاهای بزرگ بچههای بیشتر به دنیا میآیند و نیز دودکشهای بخاری بیشتری دارند که لکلکها روی آنها آشیانه میسازند. باز هم بخواهیم مثال دیگری بیاوریم، همبستگی بین اندازه پای دانشآموزان دبستانی و نمرات درس انجیلخوانی است. بچههای بزرگتر پاهای بزرگتری دارند.
برای اینکه از چنین سردرگمی تا حد امکان رهایی یابیم معمولا باید در رگرسیون خود، برخی رگرسورهای اضافی را اضافه کنیم که «متغیرهای مشروطسازی» یا «متغیرهای کنترل» نامیده میشوند و هیچ علاقه ذاتی به این متغیرها نداریم، فقط به این خاطر به آنها علاقه داریم که ضرایب و مقادیر t متغیرها را آلوده نخواهند کرد؛ بنابراین در مثال بالا، با گنجاندن متغیر کنترلی ضریب هوشی، به کامپیوتر این اجازه را میدهیم تا اثرات ضریب هوشی را از ضریبی که برای اثر تحصیل بر درآمد محاسبه میکند دور نگه دارد.
تصمیمگیری در اینباره که چه متغیرهای کنترلی را بگنجانیم اغلب اوقات دشوار است. تئوری اقتصادی به شما میگوید که- با فرض ثبات سایر شرایط- اگر X رخ میدهد Y نتیجه آن خواهد بود، اما اغلب صحبت کافی نمیکند که چه چیزهایی را در فرض ثبات سایر شرایط حبس میکنیم و بنابراین باید به عنوان متغیر کنترل بالقوه در نظر گرفت. یا اگر که برخی از این متغیرها را مشخص میسازد آن را معمولا فقط با عبارات کلی از قبیل «درآمد» ذکر میکند. آیا منظور از درآمد، فقط درآمد جاری است یا درآمد گذشته نیز هست و اگر بلی تا چه حد به عقب برویم؟ و درباره درآمدهای انتظاری آینده چه میگوییم؟
راهحل به نظر بدیهی میرسد: همه متغیرهای کنترل بالقوه مرتبط و مهم را شامل کنید: اما این توصیه چندین مشکل را به همراه دارد. یکی اینکه برخی از این متغیرها را نمیتوان شامل کرد چون که آنها قابل اندازهگیری نیستند. برای نمونه، در مثال پیشین تحصیل و درآمد، جاهطلبی یک شخص را باید به عنوان متغیر کنترل شامل کرد اما معمولا دادههایی نداریم که آن را اندازهگیری کند.
علاوه بر این اگر یک متغیر کنترل دارای همبستگی مثبت قوی با رگرسوری باشد که شما به آن علاقهمند هستید، پس در یک نمونه کوچک، شامل کردن آن میتواند مقدار t آن رگرسور را بهشدت پایین آورد چون کامپیوتر مقداری از اثرات رگرسوری را که به آن علاقهمند هستید به متغیر کنترل نسبت میدهد. بیشتر اقتصاددانها برای اینکه چنین مشکلی را برطرف کنند پس از تخمین رگرسیون با متغیرهای کنترل بیشمار، همه آنهایی را که از نظر آماری در سطح ۵ درصد معنیدار نیستند حذف میکنند و دوباره رگرسیون را تخمین میزنند و فقط این رگرسیون دوم را گزارش میدهند.
مساله دیگر این است که آزمایش کردن با ترکیباتی از متغیرهای کنترل گوناگون، راه را روی آزمایش کردن تا زمانی که مجموعه متغیرهایی پیدا کنید که نتایج دلخواه و پشتیبانیکننده تئوری شما را بدهد باز میکند- بحث دادهکاوی را که پیشتر آوردیم به خاطر آورید.
برخی اوقات وقتی متغیرهای متفاوتی را شامل میکنید حتی علامت ضریب تغییر میکند. یک مثال کلاسیک این پرسش است که آیا مجازات مرگ جلوی قتل را میگیرد. بیشتر مطالعات نرخ خودکشی در ایالتهای مختلف را روی یک متغیر ساختگی رگرس کردهاند که آیا آن ایالت مجازات اعدام را در کنار چندین متغیر کنترل وضع کند یا خیر. نتایج آنها یکسره تغییر میکند از این حالت که مجازات اعدام عامل بازدارنده قوی خودکشی است تا این حالت که هیچ اثری ندارد یا حتی اثر مثبت بر نرخ خودکشی دارد.
هنگام استفاده از دادههای سری زمانی، خیلی آسان میتوان به خاطر متغیر کنترل مفقودی به اشتباه افتاد. در بیشتر سریهای زمانی مثل جمعیت هند، تولید ملی بلژیک و تعداد بازدیدکنندگان از گالری اوفیزی در فلورانس و ... یک روند به سمت بالا داریم؛ بنابراین همبستگی وجود دارد. خوشبختانه، رگرس کردن تغییرات سال به سال، به جای استفاده از سطح متغیرها، اغلب کافی است تا این روند زمانی مشترک را حذف کند.
در حالی که همه اینها قطعا مسالهساز هستند، به این معنی نیست که باید خود را به دامن ناامیدی پستمدرنیسم بیندازیم و اعلان کنیم به همان اندازه که مجازات اعدام مانع قتل میشود، «درست» است به همان اندازه هم نادرست است یا خودمانیم لکلکها همراه خود نوزاد میآورند و نمیآورند، اما به این معنی هست که باید نگران این باشیم که کدام متغیر کنترل را شامل کنیم و کدامیک را شامل نکنیم. یک روال کار مفید این است که سعی کنیم چندین مجموعه رگرسیونها را امتحان کنیم که شامل متغیرهای کنترل متفاوت میشود تا ببینیم نتایج ما با توجه به برخی انتخابهای تقریبا دلبخواه متغیرهای کنترل چقدر استحکام دارد. فقط در صورتی که تمام این «آزمونهای استحکام» نتایج مشابهی در کل به دست دهد، میتوانیم درباره نتایج احساس اطمینان کنیم.
● پل زهوار دررفته (مغالطه) علت شمردن امر مقدم
اگر نوشتن و تلفظ «همبستگی» به «همرابطهای» تغییر یابد بسیاری از سردرگمیها برطرف میشود. با این تغییر در نوشتن میخواهیم روشن سازیم که همبستگی به این معنی است که دو یا چند متغیر یک رابطه خاص با هم دارند از این قبیل که Y همیشه بالا است وقتی که X بالا باشد. بیشتر فیلسوفان (و فیلسوفان، نگهبانان مفهوم علیت مدنظر ما هستند) و اقتصاددانان (که به علیت بسیار علیتر از فیلسوفان فکر میکنند) توافق دارند که چیزی بیش از چنین همرابطهای نیاز است تا ثبات شود که x و y رابطه علّی با هم دارند. تعیین اینکه دقیقا به چه چیزی نیاز است، یک مساله فلسفی عمیق و فوقالعاده دشوار است. بگذارید از این مبحث رد شویم و در عوض استفاده روزمره این اصطلاح با همه ابهام و گنگ بودن آن را بکار ببریم. این مفهوم گنگ کافی است، زیرا همه آن کاری که میخواهم انجام دهم تقویت توانایی شما برای ایستادگی در برابر ادعاهایی است که صرفا با نشان دادن اینکه همبستگی وجود دارد ثابت میکنند یک رابطه علّی داریم.
اگر دادهها نشان میدهد که x و y همبستگی دارند میتواند به دلایل زیر باشد: (۱) x واقعا باعث y میشود همان طور که ادعا شده است؛ (۲) همزمانی داریم یا به بیان دیگر، نمونه خیلی کوچک است؛ (۳) کوتاهی در گنجاندن متغیرهای کنترلی درست؛ و (۴) y باعث x میشود یا به اصطلاح «علیت معکوس» داریم. حالت نخست که x واقعا علت y است که ادعا هم میشود مشکلی ایجاد نمیکند و بنابراین نیازی به بحث ندارد. حالت دوم را که همزمانی است، میتوان بهسرعت برطرف کرد با اشاره به اینکه اگر از سطح ۵ درصد معنیدار بودن استفاده کنیم و اگر دادهها توزیع نرمال داشته باشند پس در حداکثر ۵ درصد موارد باید انتظار داشت که یک رابطه معنیدار آماری- اما ساختگی- بین x و y پیدا کنیم. من در مطالب بالا به حالت سوم که غیبت متغیرهای کنترل درست است پرداختم؛ اگر z باعث هم x و y میشود، پس رگرس کردن y صرفا روی x منجر به همبستگی ساختگی میشود.
حالت چهارم، علیت معکوس، یک مشکل همه جا حاضر است. بارها و بارها رسانهها گزارشهایی از این قبیل را منتشر میکنند که افرادی که ورزش میکنند تندرستتر هستند، ابدا تعجبی ندارد: شاید نشان میدهد که ورزش مردم را تندرست نگه میدارد یا اینکه بیشتر افراد بیمار نمیتوانند ورزش کنند.
مردان متاهل درآمد بیشتری نسبت به مردان مجرد دارند، پس ازدواج کردن شما را ثروتمندتر میکند. بله به نظر قابل تامل میآید، اما این نکته نیز قابل تامل است که زنان، کمتر احتمال دارد با مردانی ازدواج کنند که درآمد پایینی دارند. کشورهایی که حمایت قوی از حقوق مالیکت میکنند درآمد سرانه بالاتری نسبت به کشورهایی دارند که چنین کاری نمیکنند. آیا نتیجه میگیریم کشورهایی که حقوق مالکیت ضعیف دارند میتوانند با تقویت این حقوق، درآمدهایشان را افزایش دهند یا اینکه نتیجه میگیریم ثروتمند شدن یک کشور را وادار میکند تا از حقوق مالکیت حمایت کند؟ یا اینکه احتمالا یک کمی از هر دو درست است؟ اگر نامزدی که کمکهای انتخاباتی بیشتری دریافت میکند معمولا برنده انتخابات میشود، آیا منظور این است که کمکهای انتخاباتی نتیجه انتخابات را تعیین میکند یا اینکه نامزدهایی که احتمال بیشتری برای برنده شدن دارند کمکهای انتخاباتی بیشتری دریافت میکنند؟ دادهها نشان میدهد که افراد خوشبین خوشحالتر هستند. آیا منظور این است که باورهای خوشبینانه باعث میشود مردم خوشحال شوند یا اینکه خوشحال بودن باعث میشود تا شما بیشتر در معرض این باور باشید که همه چیز خوب است؟ آیا قاعده طلایی، یعنی آن کس که طلا دارد قاعدهها را تعیین میکند یا آن کسی که قاعدهها را تعیین میکند طلاها را به دست میآورد؟ هر وقت با یک همبستگی گزارش شده برخورد کردید باید چنین پرسشی را همیشه بپرسید:«اگر علیتی وجود دارد کدام علت و کدام معلول است؟»
چگونه میتوان گفت که آیا یک همبستگی پیام معتبر علیت را با خود حمل میکند؟ در مواردی که خودمان در بهوجود آوردن تغییرات در یکی از متغیرها دخالت داشتهایم کار آسان است، برای مثال با گرم کردن یک ماده شیمیایی میبینیم آیا آن ماده منفجر خواهد شد و یکی از دلایل مهم که روش آزمایشگاهی، علوم طبیعی را اینقدر کارآمد ساخته است همین است. در شرایطی که خودمان کاری نکردیم نیز میدانیم کدام علت و کدام معلول است، وقتی دخالت توسط عاملی صورت میگیرد که نمیتواند نتیجه متغیری باشد که ما متغیر وابسته در نظر گرفتیم. سقف فرو میریزد چون توفان آمده است: فروریختن سقف باعث توفان نشده است. در علم اقتصاد چنین دخالتهای آشکارا برونزا، اگر چه کاملا غایب نیستند نادر هستند، اما هر جا که بتوان آنها را پیدا کرد قادر به حل علیت معکوس، بسیار بهتر از هر روش دیگری هستیم. برای مثال، همبستگی روشنی بین تعداد سالهای تحصیل و تندرستی وجود دارد، اما میتواند به این خاطر باشد که تحصیلات مردم را وا میدارد تا سبک زندگی سالمتری برگزینند یا اینکه دانشآموزان تندرست مدت زمان طولانی نسبت به دانشآموزان بیمار در مدرسه میمانند. راهحل چیست: به ایالتهایی نگاه کنید که با بالا بردن سنی که دانشآموزان میتوانند مدرسه را ترک کنند در این فرآیند دخالت کردند و سپس ببینید آیا تندرستی افزایش نیافت. اگر تندرستی افزایش یافته است پس میتوان گفت تحصیل باعث افزایش تندرستی میشود.
سایر روشهای برقراری علیت، پیچیدهتر هستند. یک پاسخ که اغلب آزمون شده است اتکا به این اصل است که علت مقدم بر معلوم است. فرض کنید تغییر عرضه پول و سطح قیمت همبستگی دارند و تغییر عرضه پول زودتر از تغییر سطح قیمت باشد. پس، تفسیر سرراست این است که تغییر عرضه پول، علت تورم است.
اما سرراست بودن، همیشه به معنی درست بودن نیست. برای اینکه چنین آزمون زمانبندی معتبر باشد متغیرها باید به درستی تعریف شوند. برای مثال، تئوری اقتصادی به ما میگوید، یا چنین به نظر میرسد که به ما میگوید وقتی فدرال رزرو، نرخ بهره وجوه فدرال (نرخ بهرهای که فدرال رزرو کنترل میکند) را افزایش میدهد سایر نرخهای بهره نیز باید افزایش یابد، اما فرض کنید مشاهده میشود این نرخها پیش از افزایش نرخ بهره وجوه فدرال افزایش مییابند. آیا منظور این است که افزایش آنها باعث شد تا فدرال رزرو نرخ بهره وجوه را افزایش دهد؟ خیر، تبیین محتملتر این است که بازار پیشبینی کرد فدرال رزرو میخواهد چکار کند و نرخهای بهره را درست در آن زمان افزایش داد. متغیری که باید دنبالش بگردیم اقدام فدرال رزرو نیست، بلکه پیشبینی بازار از آن اقدام است.
یا فرض کنید مشاهده میشود عرضه پول زودتر از تولید افزایش نمییابد، بلکه در حدود همان زمان افزایش مییابد. آیا به این معنی است که تولید تاثیر زیادی از سیاست پولی نمیپذیرد؟ دوباره نه لزوما، چون آنچه که میتواند بر تولید تاثیر گذارد سطح (میزان) عرضه پول نیست؛ بلکه نرخ تغییر آن است و نرخ تغییر عرضه پول یک سری متحرک هموار شده دارای قلهها و درههایی است که در سطح آن سری دیده نمیشود. چنین مسالههایی کار را بغرنج میکند.
مشکل دیگر در آزمون ساده زمانبندی این است که حتی اگر قلهها و درههای هر سری آشکارا مرزبندی شوند، معمولا دشوار است که ببینیم آیا یک قله خاص در یک سری باید با قله قبلی یا بعدی در سایر سریها مطابقت یابد. این مشکل وجود نداشت اگر ما میدانستیم مثلا شش ماه زمان میبرد تا یک متغیر بر متغیر دیگر تاثیر گذارد، اما تئوری ما معمولا اینقدر خاص نیست و حتی ممکن است طوری بیان شود که وقفه از موردی به مورد دیگر کاملا تغییر کند. اگر این طور باشد پس در حالی که کاملا درست نیست که بگوییم در مطابقت دادن قلهها و درههای دو سری هر چیزی امکان دارد، چیزهای زیادی بیش از آنچه دوست داریم امکان وقوع دارد. با همه این احوال، یک نگاه ساده به پیامدهای قلهها و درهها احتمالا در غالب اوقات (و به درستی) به عنوان یک تقریب سرانگشتی استفاده میشود
یک واکنش موشکافانه به مساله علیت «آزمون علیت گرنجر» است (که از نام کلایو گرنجر برنده جایزه نوبل گرفته شده است.) در این آزمون، رویداد x، علت رویداد دیگر y دانسته میشود اگر وقوع x بسیار محتمل سازد که متعاقب آن y نیز رخ خواهد داد، (در حالیکه در همان زمان با وقوع y احتمال رخ دادن x وجود نداشته باشد). مشخصتر بگوییم عواملی که رفتار یک متغیر اقتصادی را تعیین میکنند معمولا از فصلی به فصل دیگر (یا حتی سال) تقریبا پایدار میمانند به طوری که رگرس کردن یک متغیر روی مقادیر گذشته آن اغلب اجازه میدهد تا بیشتر رفتار مشاهده آن در فصل بعدی را پیشبینی کنیم. اکنون فرض کنید وقتی مثلا نرخ تورم را روی مقادیر گذشته آن در چند فصل قبل و نیز روی نرخ رشد پول در دوره پیش رگرس میکنید یک ضریب رگرسیون معنیدار و چشمگیر برای نرخ رشد پول به دست میآورید، اما وقتی نرخ رشد پول را روی مقادیر گذشته آن و روی نرخ تورم گذشته رگرس میکنید، ضریب نرخ تورم معنیدار نبوده یا علامت اشتباهی دارد. گرنجر استدلال میکند که نخستین این یافتهها با این فرضیه سازگار است که تغییرات در نرخ رشد پول باعث تغییرات در نرخ تورم میشود در حالی که دومی با این فرضیه ناسازگار است که تغییر نرخ تورم باعث تغییر در نرخ رشد پول میشود. بنابراین همبستگی مشاهده شده نرخ رشد پول و نرخ تورم باید اینگونه تفسیر شود که اولی باعث دومی میشود، اما اعتبار این تفسیر از علیت هنوز مناقشهبرانگیز است. بهعلاوه، کاربرد موفقیتآمیز آزمون گرنجر مستلزم این است که x با وقفه در یک رگرسیون معنیدار باشد، در حالی که y با وقفه با علامت درست در رگرسیون دیگر معنیدار نیست. اگر اینطور نباشد، پس آزمون گرنجر بیآزمون گرنجر.
آزمونهای علیت گرنجر مثل سایر آزمونهای زمانبندی، با این مشکل مواجهند که بیشتر سری دادههای ما به حد کافی معین و محدود شده زمانی نیستند؛ اگر چه دادههای ساعتی تغییر قیمت سهام را داریم و میتوان دادههای دقیقه به دقیقه از نرخ ارز را به دست آورد، برخی سریها از قبیل تولید صنعتی یا بیکاری فقط ماهانه در دسترس هستند و دادههای GDP فقط فصلی منتشر میشوند؛ بنابراین برخی اوقات ما نمیتوانیم بگوییم کدام متغیر اول حرکت کرد.
● سه مشکل دیگر
در اینجا سه مشکل کوچکتر؛ اما هنوز مهم را آوردهایم: یکی اینکه با مجذور کردن انحرافات بین مقادیر پیشبینی شده و واقعی y که در محاسبهR۲ صورت میگیرد، اهمیت چند انحراف بزرگ، نسبت به انحرافات کوچک را بزرگ میکند. برای مثال انحراف ۵ و انحراف ۷ دارای میانگین ۶ است همانطور که انحراف ۲ و انحراف ۱۰ میانگین ۶ دارند، اما ریشه دوم میانگین انحراف مجذور شده در مورد اول ۱/۶ و در مورد دوم ۲/۷ است. برای اینکه اثر یک مشاهده پرت را نشان دهیم یک مشاهده پرت را به ۶۳ مشاهده در شکل ۱ اضافه کردیم (گوشه جنوب شرقی)، از ۶۸/۰ به ۴۰/۰ افت میکند. در شکلی دیگر (بر اساس مجموعه متفاوتی از ۳۰ مشاهده) مقدار R۲ = ۴۷/۰، ضریب رگرسیون ۴۶/۰ و مقدار t = ۲/۵ است، اما کل همبستگی از دو مشاهده پرت ناشی میشود. بدون وجود آنها،R۲ به صفر میرسد. کادر ۴ بحث میکند که با متغیرهای پرت چکار کنیم. دوم یک نکته پردردسر وجود دارد: در شکل ۱ هفت مشاهده آخری در گوشه شمال شرقی یک رابطه منفی بین دو متغیر x و y را نشان میدهند به جای رابطه مثبتی که در کل شکل دیده میشود. آیا این نتیجه صرفا به خاطر خطای نمونهگیری است- که اگر فقط ۷ مشاهده داشته باشیم چنین اتفاقی میافتد- یا اینکه دادهها به ما میگوید رابطه مثبت بین x و y برای مقادیر بسیار بالای x و y برقرار نیست؟ بدون انجام تحقیقات بیشتر چیزی نمیتوان گفت، اما یک چیز روشن است: باید با دقت به نمودار پراکنش نگاه کرد.
سوم، یکی از ناامیدکنندهترین مسائل در علم اقتصاد این است که مدلهایی که دادههای گذشته را به خوبی برازش میکردند اغلب موفق به پیشبینی خوب آینده نمیشوند. دلیل صرفا این نیست که همانطور که بحث شد گذشته آینده نیست، بلکه احتمال دارد خوبی برازش بهدست آمده از دادههای گذشته، نتیجه دادهکاوی باشد.
سرانجام به صورت خودکار فرض نکنید تبیین (یعنی تئوری) ارائه شده توسط معادله رگرسیون با بالاترینR۲ و بهترین مقدار t لزوما بهترین تبیین است. خوبی برازش فقط یکی از چندین معیار در انتخاب بین تئوریها است. تعمیمپذیری، فایدهمندی، امکان ردیابی و مرتبط بودن با سایر تئوریها نیز اهمیت دارد. برای مثال فرض کنید بتوان افزایش دستمزد آتی را با یک معادله رگرسیون که نرخ بیکاری را به عنوان رگرسور استفاده میکند بهتر از رگرسیونی پیشبینی کرد که افزایش دستمزد در هشت فصل قبل را به عنوان رگرسور در نظر میگیرد. قطعا اولی تبیین عمیقتر و معنیدارتری از دومی ارائه میدهد.
۶) نتیجهگیری
بخش زیادی از مطالبی که در این جا آوردیم به ما هشدار میداد که چگونه هنگام خواندن استدلالی بر اساس آمار اقتصادی حواسمان جمع باشد. خوشبختانه چنین خواندن انتقادی معمولا نیازمند هیچ دانش زیادی از اقتصاد و آمار نیست. آنچه نیاز است اقتباس یک گرایش انتقادی به جای سر فرود آوردن خاضعانه در برابر آمارهای تعارف شده است. رسانهها به ما میگویند همبستگی وجود دارد، اما نه فضای نشریه اجازه میدهد و نه رغبتی هست تا چنین «جزئیاتی» مثل متغیرهای کنترل مورد استفاده بحث شوند. در اینباره هیچ کاری نمیتوان انجام داد مگر اینکه زمان کافی برای یافتن منبع اصلی داشته باشیم، اما میتوان پرسید آیا همبستگی پیشنهادی را باید به صورت رابطه علی دید و اگر اینطور است جهت علیت به کدام طرف است.
به طور کلی با توجه به اطلاعات ناقصی که رسانهها درباره جزئیات مطالعات آماری گزارش شده به مخاطبان خود میدهند، معقول است که حداقل مقداری وزن برای عوامل انسانی قائل شویم: این نویسندگان احتمال دارد چه سوگیریهایی داشته باشند، با چه تنبیهی، در صورت وجود، برحسب اعتبار از دست رفته (که برای افراد دانشگاهی و کادر موسسات پژوهشی میتواند بسیار گران تمام شود) مواجه میشوند اگر خطا کنند؟ آیا هیچ عبارت گمراهکننده یا سهلانگارانهای از این نویسندگان در گذشته دیدهاید؟ آیا این بررسی در نشریهای منتشر شده است که اهل فن به آن ارجاع میدهند؟
برخی اوقات تنها راهحل، تایید نادانی و برخورد محتاطانه با اطلاعات در دسترس است. نه اینکه آن را صرفا به عنوان یک «واقعیت» ببینیم چون که به شکل یک «عدد» درآمده است. این عبارت که کسری بودجه دولت طی پنج سال آینده ۳/۳۰۱ میلیارد دلار خواهد شد به همان اندازهای «غیر علمی» است که بگوییم کسری بودجه زیاد خواهد بود.
برای اینکه چنین نگاه توام با شک و تردیدی پیدا کنید در فصول گذشته دامهای بالقوه بسیاری را پوشش دادیم که احتمال دارد برخی خوانندگان با خود فکر کنند در علم اقتصاد، نتایج آماری را هرگز نباید جدی گرفت. این فکر اشتباهی است. جایگزین اتکا کردن به آمار اقتصادی، کور شدن اشتهای علمی است: اتکا به تاکیدات صرف، حکایات، درسهایی از یک یا چند رویداد مهم نادر یا به تئوریسازی آزمون نشده.
بهعلاوه، آمارهای مشکوک در علوم طبیعی نیز ناشناخته نیستند و در عین حال این علوم پیشرفتهای خیرهکنندهای کردهاند. همچنین همان طور که در فصل بعدی با مثالهایی مشخص نشان خواهیم داد، به رغم مشکلات بیشماری که در این فصل و فصول قبلی بحث شد، تحلیل اقتصادسنجی قابلیت ارائه دانشهای ارزشمندی به ما دارد. سرانجام بحث انتقادی استدلال شفاهی و حقههای خطابههای آن نیز میتواند این تاثیر را بر جا گذارد که آنها را هم نباید جدی گرفت. «هشدار سخنران یا شنونده باید عاقل باشد» در هر جایی و نه فقط در کارهای اقتصاد سنجی کاربرد دارد، اما آنچه این عبارت معنی میدهد «خواننده آگاه باشد» است نه اینکه «خواندن را متوقف کند.»
● کادر۱- ضریب تعیین و ضریب همبستگی
برای محاسبهR۲، دو حدس درباره مقدار هر کدام از yها مقایسه میشود. یکی حدسی که شما میزنید اگر اصلا هیچ شناختی درباره رابطه x و y نداشتید و دیگری حدسی است که شما میزنید وقتی معادله رگرسیونی دارید که x را به y در دسترس ارتباط میدهد و مقادیر هر کدام از xها را میدانید. برای مثال، اگر میخواهید مخارج مصرف سالانه یک خانواده خاص را حدس بزنید که هیچ چیز درباره آن نمیدانید، بهترین کاری که میتوانید انجام دهید استفاده از میانگین مخارجی همه خانوادهها است. اکنون فرض میکنیم درآمد خانواده به شما گفته شده است و نیز معادله رگرسیون را دارید:
مخارج مصرفی = (۰۰۰/۲۰) + (۸/۰) درآمد است. سپس شما با این اطلاعات میتوانید مصرف خانواده را تخمین بزنید.
در این مورد و همچنین موردی که معادله رگرسیون را در اختیار نداریم و فقط میانگین مخارج مصرفی همه خانوادهها را استفاده میکنیم، تخمین به دست آمده مقداری خطا خواهد داشت و اندازه نسبی خطا در این دو مورد به ما میگوید که معادله رگرسیون چقدر توانسته است تخمین ما را بهبود ببخشد. بنابراین میتوان از نسبتی استفاده کرد که در صورت آن، میزان خطا باشد وقتی معادله را داریم و در مخرج آن، میزان خطا باشد وقتی معادله را نداریم. اگر معادله یک برازش کامل باشد خطای ما وقتی معادله را استفاده میکنیم صفر خواهد بود و نسبت آنها ۱ خواهد شد، اما اینکه بخواهیم از نسبتی استفاده کنیم که خوبی برازش معادله رگرسیون را با پایین بودن آن به نشانه بهتر بودن معادله نشان دهد چندان جالب به نظر نمیرسد پس یک کلک میزنیم که سنجه همبستگی را نه با نسبت بالا بلکه با ۱ منهای آن نسبت بیان میکنیم. پس بیدرنگ میتوان نتیجه گرفت: اکنون همبستگی بهتر زمانی است که سنجه همبستگی بالاتر باشد. به یک گام بیشتر نیاز داریم. به دلایل فنی، بهتر است خطاهای میانگین که با استفاده و بدون استفاده از معادله به دست آوردیم را مقایسه نکنیم بلکه در عوض میانگین مجذور خطاها را مقایسه کنیم که این همان R۲ است.
● کادر ۲- اندازهگیری روندها
یکی از کاربردهای رایج رگرسیون، یافتن روند یک سری از قبیل GDP است. تمام کاری که باید بکنید واگذاری اعداد پشت سرهم (مثلا ۱، ۲، ۳، .... n) به هر کدام از مشاهدات پیدرپی (مثلا سالانه) و سپس رگرس کردن متغیر y روی این اعداد است. اندازهگیری روندها نه فقط برای پیشبینی مفید است، بلکه همچنین برای نشان دادن اینکه چگونه تغییر متغیر طی یک دوره خاص را با تغییر معمولی آن مقایسه کنیم. برای مثال معنیدار ساختن یک گزارش به این شیوه آسانتر است که «اشتغال در ماه گذشته، اندکی بیش از روند خود رشد کرد» تا اینکه گزارش را چنین تفسیر کنیم که «میزان اشتغال ۱۱۰ هزار تا رشد کرد». خواننده نمیداند آیا ۱۱۰ هزار شغل، افزایش «بزرگ» یا «کوچکی» است.
روش دیگر شنیدن صدای آرام اما استوار تغییر بلندمدت از طریق حرکات پیاپی کوتاه مدت، برازش یک میانگین متحرک روی دادهها است. ایده اساسی این است که ما فهم بهتری در مورد برخی دادهها، مثلا قیمت سهام به دست میآوریم اگر صرفا به مقدار جاری آنها نگاه نکنیم بلکه به مقدار میانگین آنها طی یک مدت زمان نگاه کنیم. بنابراین یک دوره با طول زمانی معین (اغلب به دلخواه خود) مثلا پنج سال انتخاب کنید و میانگین را برای این پنج سال به دست آورید و این میانگین را در سال وسط دوره پنج ساله نقطهگذاری کنید. سپس سال اول را حذف کرده و یک سال به انتها میافزاییم و این را به صورت نقطهای برای سال بعد میگذاریم و الی آخر. چنین میانگین متحرکی بیشتر نوسانات دوره به دوره را حذف کرده، اما به خشکی روند خط راست نیست.
اینجا دو هشدار درباره روندها میدهیم. نخست، ارزش ضریب روند را برخی اوقات میتوان با انتخاب تاریخ شروع یا پایان خاص دستکاری کرد. اگر با سالی شروع کنیم که متغیر به نحو غیرعادی پایین بوده است نرخ رشد سریعتری به دست میآوریم نسبت به حالتی که یک سال با بالا بودن غیرعادی متغیر را انتخاب کنیم. دوم اینکه روند، سرنوشت محتوم نیست. به هشدار پیشگویان بدبین یا وعدههای شتابزده افراد خیالپرداز که روندهای جاری را برای آینده پیشبینی میکنند اعتنایی نکنید. اگر بازار سهام در سه سال گذشته هر سال ۳۰ درصد رشد کرده است قطعا برای ده سال آینده ادامه نخواهد یافت.
در اینباره متاسفم.
بدبختانه، در حالی که پیشبینی آنچه اتفاق خواهد افتاد یا تحلیل عوامل زیربنایی آن کاری مشکل است، پیشبینی یک روند آسان بوده و اغلب به نتیجهگیری شگرف و بنابراین با ارزشی منجر میشود، به خصوص اگر خوانندگان این شرط را فراموش کنند: «اگر روندهای جاری ادامه یابد.» واکنش مناسب به شیفتگان روند این است که بگوییم بسیار زودتر از آن زمانی که پیشبینیها به آزمون گذاشته شود همه ما مردهایم یا به وسیله یک گربه غولآسا بلعیده شدهایم. یک بچه گربه در همسایگی ما هست که جثهاش اکنون دو برابر هفته قبل شده است. این روند را برای پنج سال آینده پیشبینی کنید.
● کادر۳- استفاده از رگرسیون برای ردیابی تبعیض جنسیت
یک شیوه استاندارد برای ردیابی تبعیض شغلی، استفاده از تحلیل رگرسیون برای تعیین این است که آیا نژاد یا جنسیت شخص، به تبیین حقوق وی نسبت به حقوق سایر کارکنان با شایستگیهای مشابه کمک میکند. بیایید ببینیم چگونه آزمون تعیین تبعیض علیه اساتید زن را انجام میدهیم. نخست درباره همه متغیرهایی که حقوق اساتید را تعیین میکنند فکر میکنیم. سپس معادلهای مثل زیر را مینویسیم:
y= a +bx۱ +cx۲ +dx۳ +ex۴ +fx۵ +gx۶ +hx۷
در اینجا y حقوق هر پروفسور در نمونه، a عدد ثابت، X۱ سنجه کیفیت دانشگاهی است که استاد مدرک دکتری خود را گرفته است، X۲تعداد سالهای پس از گرفتن مدرک دکتری است، X۳ رشته تحصیلی استاد، X۴ ارزیابیهای عملکرد تدریس وی، X۵ شاخص نشریات، X۶جنسیت و X۷ همه متغیرهای دیگری است که باید شامل میشد؛ اما نادیده گرفته شده است چون که شناخته شده نیستند یا قابل اندازهگیری نیستند؛ معنیدار بودن آماری و محتوایی g خواهد گفت که آیا تبعیض جنسی وجود دارد و چقدر بزرگ است.
هنگام برازش این معادله به دادهها، متغیر اسرارآمیزX۷ البته باید حذف شود. اگر و فقط اگر همبستگی مثبت یا منفی با X۶ متغیر جنسیت نداشته باشد یا اگرX۷ اثر اندکی بر حقوق اساتید داشته باشد، g یک تخمین بدون سوگیری از دامنه تبعیض جنسیتی خواهد بود. چنین برمیآید که این مطالعات قابلیت اتکای بالایی ندارند؛ اما آیا روشهای بهتری برای پاسخ دادن به این پرسش وجود دارد؟
● کادر۴- با مشاهدات پرت چکار کنیم؟
یک موضع افراطی این است که چون مشاهدات پرت با بقیه دادهها همخوانی ندارند باید اشتباهی در رابطه با آنها شده باشد؛ بنابراین میتوان آنها را بدون حتی گفتن به خواننده کنار گذاشت. برای اینکه دفاع قوی از این ادعا بشود، فرض کنید مجموعه دادههای ساعتی کارگران منسوجات را داریم و در جلوی یکی از مشاهدات عدد ۱ میلیون دلار نوشته شده است، اما بیشتر مشاهدات پرت ظاهرا بیمصرف نیستند و کنار گذاشتن مشاهدات پرت میتواند به کنار گذاشتن مشاهداتی تنزل نماید که از فرضیه پژوهشگر پشتیبانی نمیکنند. اگر کمترین تردید درباره توجیه برای کنار گذاشتن یک مشاهده پرت داریم، به خوانندگان باید گفته شود که آن را کنار گذاشتیم و چرا.
موضع افراطی دیگر این است که بگوییم «خب، این آن چیزی است که دادهها نشان میدهند و همین که هست، اما این کار غیرواقعبینانه است. وقتی یک مشاهده پرت دارید به درستی احساس میشود که باید آن را بررسی کرد. از این گذشته احتمال دارد که آن به خاطر خطای در ثبت اعداد باشد. یا احتمال دارد که عددی واقعی اما یک مورد خاص باشد. برای مثال اگر متغیر وابسته ما، تعداد سفرهای هوایی باشد، مشاهده پرت مثلا بیانگر اعتصاب در یک شرکت مهم هواپیمایی است. اگر بتوان دفاع معقول کرد که مشاهده پرت مورد خاصی است، پس میتوان نتایج رگرسیون را با و بدون آن گزارش داد. تکنیکهای ریاضی برای تشخیص مشاهدات پرت وجود دارد، اما حتی با اینحال اینکه کجا خط را بکشیم گاهی اوقات یک مساله پیچیده است. چنین وابستهبودنی به قضاوت شخصی، عمل «غیرعلمی» نیست.
توماس مایر
مترجم: جعفر خیرخواهان
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست