این بخش ها را در مورد همبستگی بخوانید. شما تفسیر و محاسبه ضریب همبستگی ، نحوه آزمایش اهمیت آن و رابطه بین همبستگی و علیت را یاد خواهید گرفت.
آزمایش اهمیت ضریب همبستگی
ضریب همبستگی ، در مورد قدرت رابطه خطی بین و. با این حال ، قابلیت اطمینان مدل خطی نیز بستگی به تعداد نقاط داده مشاهده شده در نمونه دارد. ما باید به هر دو مقدار ضریب همبستگی و اندازه نمونه ، با هم نگاه کنیم.
ما یک آزمون فرضیه از "اهمیت ضریب همبستگی" را انجام می دهیم تا تصمیم بگیریم که آیا رابطه خطی در داده های نمونه به اندازه کافی قوی است که می تواند برای مدل سازی رابطه در جمعیت استفاده کند.
از داده های نمونه برای محاسبه ، ضریب همبستگی برای نمونه استفاده می شود. اگر برای کل جمعیت داده داشتیم ، می توانستیم ضریب همبستگی جمعیت را پیدا کنیم. اما از آنجا که ما فقط داده های نمونه داریم ، نمی توانیم ضریب همبستگی جمعیت را محاسبه کنیم. ضریب همبستگی نمونه ، برآورد ما از ضریب همبستگی جمعیت ناشناخته است.
نماد ضریب همبستگی جمعیت ، حرف یونانی "Rho" است.= ضریب همبستگی جمعیت (ناشناخته) = ضریب همبستگی نمونه (شناخته شده ؛ از داده های نمونه محاسبه شده است)
آزمون فرضیه به ما امکان می دهد تصمیم بگیریم که آیا ارزش همبستگی جمعیت "نزدیک به 0" است یا "به طور قابل توجهی با 0" متفاوت است. ما این را بر اساس ضریب همبستگی نمونه و اندازه نمونه تصمیم می گیریم.
اگر آزمون نتیجه بگیرد که ضریب همبستگی با 0 تفاوت معنی داری دارد ، ما می گوییم که ضریب همبستگی "قابل توجه" است.
- نتیجه گیری: "شواهد کافی وجود دارد که نتیجه بگیریم که رابطه خطی قابل توجهی بین وجود دارد و به دلیل اینکه ضریب همبستگی با 0" تفاوت معنی داری دارد ".
- نتیجه گیری به این معنی است: رابطه خطی قابل توجهی بین و. ما می توانیم از خط رگرسیون برای الگوبرداری از رابطه خطی بین و در جمعیت استفاده کنیم.
اگر آزمون نتیجه بگیرد که ضریب همبستگی تفاوت معنی داری با 0 ندارد (نزدیک به 0 است) ، ما می گوییم که ضریب همبستگی "قابل توجه" نیست.
- نتیجه گیری: "شواهد کافی وجود ندارد که نتیجه بگیریم که رابطه خطی قابل توجهی بین وجود دارد و زیرا ضریب همبستگی تفاوت معنی داری با 0 ندارد".
- نتیجه گیری به چه معناست: رابطه خطی معناداری بین و وجود ندارد. بنابراین ما نمی توانیم از خط رگرسیون برای مدل سازی یک رابطه خطی بین و در جمعیت استفاده کنیم.
- اگر معنی دار باشد و نمودار پراکندگی روند خطی را نشان دهد، می توان از خط برای پیش بینی مقدار برای مقادیری که در دامنه مقادیر مشاهده شده هستند استفاده کرد.
- اگر معنی دار نیست یا اگر نمودار پراکندگی روند خطی را نشان نمی دهد، خط نباید برای پیش بینی استفاده شود.
- اگر معنی دار باشد و نمودار پراکندگی روند خطی را نشان دهد، خط ممکن است برای پیش بینی خارج از دامنه مقادیر مشاهده شده در داده ها مناسب یا قابل اعتماد نباشد.
انجام آزمون فرضیه
تنظیم فرضیه ها:
- فرضیه صفر:
- فرضیه جایگزین:
منظور از فرضیه ها در کلمات:
- فرضیه صفر ضریب همبستگی جمعیت تفاوت معنی داری با 0 ندارد. رابطه خطی (همبستگی) معناداری بین و در جامعه وجود ندارد.
- فرضیه جایگزین ضریب همبستگی جمعیت به طور قابل توجهی با 0 متفاوت است. یک رابطه خطی (همبستگی) قابل توجهی بین و در جامعه وجود دارد.
نتیجه گیری:
دو روش برای تصمیم گیری وجود دارد. هر دو روش معادل هستند و نتیجه یکسانی دارند.
روش 1: با استفاده از p-value
روش 2: استفاده از جدول مقادیر بحرانی
در این فصل از این کتاب درسی، ما همیشه از سطح معناداری 5% استفاده خواهیم کرد.
توجه: با استفاده از روش p-value، می توانید هر سطح معنی داری مناسبی را که می خواهید انتخاب کنید. شما محدود به استفاده نیستید. اما جدول مقادیر بحرانی ارائه شده در این کتاب درسی فرض می کند که از سطح معنی داری 5% استفاده می کنیم.(اگر بخواهیم در روش ارزش بحرانی از سطح معناداری متفاوت از 5% استفاده کنیم، به جداول متفاوتی از مقادیر بحرانی نیاز داریم که در این کتاب درسی ارائه نشده است).
روش 1: استفاده از مقدار p برای تصمیم گیری
آزمون t رگرسیون خطی LinRegTTEST در ماشین حساب های TI-83+ یا TI-84+ مقدار p را محاسبه می کند.
در صفحه ورودی LinRegTTEST، در خط فرمان برای یا، "≠ 0" را برجسته کنید
صفحه خروجی مقدار p را در خطی که " " خوانده می شود نشان می دهد.
(بیشتر نرم افزارهای آماری کامپیوتری می توانند مقدار p را محاسبه کنند.)
اگر مقدار p کمتر از سطح معناداری ( ):
- تصمیم: فرضیه صفر را رد کنید.
- نتیجه گیری: شواهد کافی برای این نتیجه وجود دارد که رابطه خطی معناداری بین و به دلیل تفاوت معنی دار ضریب همبستگی با 0 وجود دارد.
اگر مقدار p کمتر از سطح معنی داری نباشد ( )
- تصمیم: فرضیه صفر را رد نکنید.
- نتیجهگیری: شواهد کافی برای نتیجهگیری وجود رابطه خطی معنادار بین و به دلیل عدم تفاوت معنیدار ضریب همبستگی با صفر وجود ندارد.
نکات محاسبه:
شما از فناوری برای محاسبه مقدار p استفاده خواهید کرد. در زیر محاسبات برای محاسبه آمار آزمون و مقدار p توضیح داده شده است:
مقدار p با استفاده از توزیع - با درجه آزادی محاسبه می شود.
فرمول برای آمار آزمون است. مقدار آمار آزمون، در خروجی کامپیوتر یا ماشین حساب همراه با مقدار p نشان داده می شود. آماره آزمون دارای علامتی مشابه با ضریب همبستگی است. p-value ناحیه ترکیب شده در هر دو دم است.
یک راه جایگزین برای محاسبه p-value ( ) ارائه شده توسط LinRegTTest دستور 2*tcdf(abs(t), 10^99, n-2) در 2nd DISTR است.
آزمون سوم در مقابل امتحان نهایی مثال: روش مقدار p
- نمونه امتحان سوم / امتحان نهایی را در نظر بگیرید.
- خط بهترین تناسب این است: با و نقاط داده وجود دارد.
- آیا می توان از خط رگرسیون برای پیش بینی استفاده کرد؟با توجه به نمره امتحان سوم (مقدار)، آیا می توانیم از خط برای پیش بینی نمره امتحان نهایی (مقدار پیش بینی شده) استفاده کنیم؟
مقدار p، 0. 026، کمتر از سطح معنی داری است
تصمیم: رد فرضیه صفر هو
نتیجهگیری: شواهد کافی برای این نتیجه وجود دارد که رابطه خطی معنیداری بین و به دلیل تفاوت معنیدار ضریب همبستگی با صفر وجود دارد.
از آنجایی که نمودار پراکندگی یک روند خطی را نشان می دهد، می توان از خط رگرسیون برای پیش بینی نمرات امتحان نهایی استفاده کرد.
روش 2: استفاده از جدول مقادیر بحرانی برای تصمیم گیری
95% مقادیر بحرانی جدول ضریب همبستگی نمونه در پایان این فصل (قبل از خلاصه) ممکن است برای اینکه به شما ایده خوبی در مورد معنی دار بودن یا نبودن مقدار محاسبه شده ارائه دهد. با مقدار بحرانی مناسب در جدول مقایسه کنید. اگر بین مقادیر بحرانی مثبت و منفی نباشد، ضریب همبستگی معنادار است. اگر مهم است، ممکن است بخواهید از خط برای پیش بینی استفاده کنید.
Suppose you computed using data points. . The critical values associated with are -0.632 and + 0.632. If negative critical value or positive critical value, then is significant. Since and 0.801 >0. 632 قابل توجه است و ممکن است از خط برای پیش بینی استفاده شود. اگر این مثال را روی یک خط عددی مشاهده کنید، به شما کمک خواهد کرد.
شکل 1. بین 632/0- و 632/0+ معنی دار نیست.. بنابراین، قابل توجه است.
فرض کنید با 14 نقطه داده محاسبه کرده اید.. مقادیر بحران ی-0. 532 و 0. 532 هستند. از آنجایی که 0. 624- معنی دار است و خط ممکن است برای پیش بینی استفاده شود.
شکل 2. . بنابراین، قابل توجه است.
فرض کنید شما محاسبه کرده اید و .. مقادیر بحران ی-0. 811 و 0. 811 هستند. از آنجایی که 0. 811- معنی دار نیست و خط نباید برای پیش بینی استفاده شود.
شکل 3. . بنابراین قابل توجه نیست.
THIRD EXAM vs FINAL EXAM EXAMPLE: روش ارزش بحرانی
- نمونه امتحان سوم / امتحان نهایی را در نظر بگیرید.
- خط بهترین تناسب عبارت است از:
- با و نقاط داده وجود دارد.
- آیا می توان از خط رگرسیون برای پیش بینی استفاده کرد؟با توجه به نمره امتحان سوم (مقدار)، آیا می توانیم از خط برای پیش بینی نمره امتحان نهایی (مقدار پیش بینی شده) استفاده کنیم؟
از جدول "95% Critical Value" برای با استفاده کنید
مقادیر بحران ی-0. 602 و +0. 602 هستند
Since 0.6631>0. 602 قابل توجه است.
نتیجهگیری: شواهد کافی برای این نتیجه وجود دارد که رابطه خطی معنیداری بین و به دلیل تفاوت معنیدار ضریب همبستگی با صفر وجود دارد.
از آنجایی که نمودار پراکندگی یک روند خطی را نشان می دهد، می توان از خط رگرسیون برای پیش بینی نمرات امتحان نهایی استفاده کرد.
مثالهای تمرینی اضافی با استفاده از ارزشهای بحرانی
فرض کنید ضرایب همبستگی زیر را محاسبه کرده اید. با استفاده از جدول انتهای فصل، مشخص کنید که آیا مهم است یا خیر و خط بهترین تناسب مرتبط با هر کدام را می توان برای پیش بینی یک مقدار استفاده کرد. اگر کمک کرد، یک خط عددی بکشید.
-
و حجم نمونه، 19 است. مقدار بحران ی-0. 456 است. 0. 567- قابل توجه است.
مفروضات در آزمون اهمیت ضریب همبستگی
آزمون معنی داری ضریب همبستگی مستلزم آن است که مفروضات خاصی در مورد داده ها برآورده شوند. فرض این آزمون این است که داده ها نمونه ای از نقاط مشاهده شده است که از یک جمعیت بزرگتر گرفته شده است. ما کل جمعیت را بررسی نکردهایم، زیرا انجام این کار امکانپذیر یا امکانپذیر نیست. ما در حال بررسی نمونه هستیم تا نتیجه گیری کنیم که آیا رابطه خطی که بین و در داده های نمونه می بینیم شواهد کافی قوی ارائه می دهد تا بتوانیم نتیجه بگیریم که یک رابطه خطی بین و در جامعه وجود دارد.
معادله خط رگرسیون که از داده های نمونه محاسبه می کنیم بهترین خط مناسب را برای نمونه خاص ما ارائه می دهد. ما می خواهیم از این بهترین خط مناسب برای نمونه به عنوان برآورد بهترین خط مناسب برای جمعیت استفاده کنیم. بررسی پراکندگی و آزمایش اهمیت ضریب همبستگی به ما کمک می کند تا تعیین کنیم که آیا مناسب انجام این کار است یا خیر.
فرضیات اساسی در آزمون اهمیت عبارتند از:
- یک رابطه خطی در جمعیت وجود دارد که مقدار متوسط برای مقادیر مختلف را مدل می کند. به عبارت دیگر ، مقدار مورد انتظار برای هر مقدار خاص بر روی یک خط مستقیم در جمعیت نهفته است.(ما معادله خط را برای جمعیت نمی دانیم. خط رگرسیون ما از نمونه بهترین تخمین ما از این خط در جمعیت است).
- مقادیر برای هر مقدار خاص به طور معمول در مورد خط توزیع می شود. این بدان معنی است که مقادیر بیشتری پراکنده تر از خط پراکنده تر از پراکنده شدن دورتر هستند. فرض (1) در بالا دلالت بر این دارد که این توزیع های عادی بر روی خط متمرکز شده اند: وسیله این توزیع های عادی مقادیر بر روی خط نهفته است.
- انحراف استاندارد از مقادیر جمعیت در مورد خط برای هر مقدار برابر است. به عبارت دیگر ، هر یک از این توزیع های عادی مقادیر دارای یک شکل یکسان هستند و در مورد خط پخش می شوند.
- خطاهای باقیمانده مستقل هستند (بدون الگوی).
شکل 4. مقادیر برای هر مقدار به طور معمول در مورد خط با همان انحراف استاندارد توزیع می شود. برای هر مقدار ، میانگین مقادیر در خط رگرسیون نهفته است. مقادیر بیشتر در نزدیکی خط قرار دارند تا اینکه دورتر از خط پراکنده باشند.