فهرست مطالب

فصل اول:تعاریف و مقدمات اولیه

در این فصل تعاریف و مقدمات اولیه برای مدل­های خطی، مدل­های خطی با خطای اندازه­گیری، برآوردگرهای استوار به­ویژه برآورد M، آنالیز بقا، برآوردگر کاپلان مایر، داده­های سانسورشده و انواع سانسور ارائه می­شود.

1-1- مدل خطی

یکی از کاربردی­ترین­­ روش­ها برای تحلیل داده­ها در بین ابزارهای آماری، تحلیل رگرسیونی است. تحلیل رگرسیونی،روشی کارآمد برای بررسی و مدل­سازی ارتباط بین متغیرها است که از این مدل های رگرسیونی در توصیف داده­ها، برآورد پارامترهای مجهول، پیش­گویی و کنترل استفاده می شود.در بیشتر موارد، پاسخ یک آزمایش به چندین متغیر مستقل مثلا k متغیر مستقل، وابسته است. در این صورت یک مدل خطی رابطه­ای به صورت زیر را در نظر می­گیرد:که n اندازه نمونه می­باشد. متغیرهای  را متغیرهای توضیحی و متغیر تصادفی قابل مشاهده y را متغیر پاسخ می­نامند.   متغیر تصادفی غیرقابل مشاهده  متغیر خطا تلقی می­شود، بدین معنی که به عنوان متغیری تصادفی، انداره ناتوانی مدل در برازش دقیق داده­ها را اندازه­گیری می­کند. این خطا ممکن است به دلیل عدم حضور برخی از متغیر­های مؤثر، خطاها­ی تصافی مربوط به مشاهدات و اندازه­گیری­ها و غیره صورت پذیرد.همچنین فرض می­شود که خطا­ها دارای توزیع نرمال با میانگین صفر و واریانس نامعلوم  و ناهمبسته باشند.   پارامترها­ی  و  مجهول هستند و باید با استفاده از داده­ها برآورد شوند. فرض می­­شودداده­ها عبارتند از  که در آن  پاسخ متناظر با k سطح از متغیرها­ی مستقل  است. یعنی بنابر معادله (1.1.1) می­توان نوشت:آن­گاه هدف ما به دست آوردن برآوردها­ی برای به ترتیب به نام­های  و در نتیجه به دست آوردن رابطه زیر است.که در آن  نشان دهنده مقدار برآورد شده y به ازای مقادیر  است. در این صورت معادله (3.1.1) به عنوان معادله پیش بینی کننده می­تواند مورد استفاده قرار گیرد.   معمول­ترین روش در برآورد پارامترهای یک مدل خطی، استفاده از روش “کمترین مربعات معمول (OLS)” است که روشی بسیار سودمند و کارا است.پایه و اساس روش کمترین مربعات به  Gaussو  Legendreباز می­گردد. این روش (و تعمیم­های آن ) به دلیل راحتی محاسبات و جواب­های بسته مبتنی برآن مورد توجه بسیاری از آماردانان است.

اگر بخواهیم رابطه میان دو متغیر را بررسی نمائیم، روش معمول استفاده از یک مدل رگرسیونی است. برای قابل شناسایی بودن مدل، لازم است فرضیاتی در نظربگیریم، و اگر هر یک از این فرضیات برقرار نباشد نتایج حاصله  اعتبار نخواهند داشت. از جمله فرض­های هر مدل رگرسیونی عدم وابستگی بین متغیرهای خطا و متغیرهای مستقل مدل می­باشد. تحت این فرض، به­راحتی  و با استفاده از روش­های موجود ، می­توان مدل را کاملا تجزیه و تحلیل و پارامترهای آن را برآورد نمود.اما در بسیاری از مواقع این فرض برقرار نبوده و بین متغیرهای خطا و متغیرهای مستقل وابستگی وجود دارد. این مشکل زمانی به وجود می­آید که متغیر مستقل را فقط با خطا بتوان مشاهده نمود. در این صورت در مدل یک متغیر خطای دیگر نیز ظاهر می­شود. این مدل­ها را مدل­های رگرسیونی با خطا در متغیرها می­نامند.مهمترین مشکل این مدل­ها این است که از روش­های از قبیل حداقل مربعات و ماکزیمم درستنمایی مستقیما نمی­توان استفاده نمود و برآوردهای مناسب برای مدل وجود نخواهند داشت، مگر آن­که فرضیاتی بر مدل اضافه شود. اما در عمل بسیاری از این فرضیات کاربردی ندارند. اما بهرحال روش­های مختلفی برای تجزیه و تحلیل این مدل­ها موجود می­باشد. برخی فقط جنبه تئوری دارند و برخی دیگر از جنبه عملی کاربردهای بسیاری دارند.مدل رگرسیونی زیر را در نظر بگیرید:

معمول­ترین روش برازش یک خط به داده­ها، حداقل مربعات است. همانطور که می­دانیم در این روش خطی را که مجموع مربعات فواصل عمودی نقاط از خط را مینیمم می­کند به عنوان بهترین خط به داده­ها برازش می­­دهیم. در توجیه انتخاب این خط فرض می­شود که انحراف مشاهدات از خط به دلیل تغییرات تصادفی توضیح داده نشده­ی متغیر Y است. واضح است که اگر احساس شود انحراف نقاط از خط به دلیل تغییرات  X است، روش مناسب این است که خط رگرسیون X روی Y را به داده­ها برازش دهیم که این خط مجموعه مربعات فواصل افقی را مینیمم می­کند. بنابراین برآوردگرهای حداقل مربعات نمی­توانند برآوردگرهای مناسبی برای مدل­های خطای اندازه­گیری باشند، زیرا این برآوردگرهای خطا تصادفی مربوط به متغیر مستقل X را در نظر نمی­گیرند. روشی که معمولا در مدل­های خطای انداز­گیری برای برآورد کردن پارامترها استفاده می­شود، روش درستنمایی ماکزیمم است. در این روش به جای مینیمم کردن مجموع فواصل عمودی و افقی، مجموع مربعات فواصل عمود بر خط رگرسیون را مینیمم می­کنیم.

   1.1 مدل خطی……………………………………………………………………………………………. 1

2.1 انواع برآوردگرهای استوار……………………………………………………………………………. 5

1.2.1 برآورد M…………………ا………………………………………………………………………… 5

3.1 آنالیز بقا……………………………………………………………………………………………….. 6

1.3.1 برآوردگر کاپلان مایر……………………………………………………………………………… 7

2.3.1 سانسور…………………………………………………………………………………………. 9

4.1 مدل رگرسیون خطی با خطای اندازه­گیری……………………………………………………… 14

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فصل دوم : دادها­ی سانسور شده از راست و مدل های رگرسیونی

Koul و همکارانش در سال 1981 مدل­های رگرسیونی با داده­های تصادفی سانسور شده از راست را ارائه دادند و آنها از استنباط در این مدل­ها نشان دادند که برآوردگر حاصل سازگار بوده و در حالت مجانبی دارای توزیع نرمال است. در این فصل، تمام اصلاحات و تعمیم­های این روش را که تا کنون انجام شده بررسی می­کنیم. برای پیشبرد این روش ها، بررسی تعمیمی از باقیمانده­ها در مدل­هایی که شامل داده­های سانسور شده هستند، پیشنهاد گردیده است. تشخیص مدل با استفاده از آنالیز باقیمانده­ها با دو مثال نشان داده می شود.

2-1- مقدمه و تاریخچه: داده­های سانسورشده و مدل های رگرسیونی

   مدل رگرسیون خطی و تعمیم­های مختلف آن مسلماً مهمترین و با سابقه­ترین ابزار آماری­اند و به صورت گسترده­ای در تمام زمینه­های کاربردی به کار می­روند. در سال­های گذشته ایده­ی استفاده از یک مدل رگرسیونی نیمه پارامتری با داده­های سانسورشده بسیار مورد توجه قرار گرفته است، اما تحلیل آماری آن ساده نیست.   برخی تحقیقات اولیه در این زمینه متعلق به،Miller در سال 1976،  Buckely و James در سال 1979 می­باشد. اما روش Miller در بسیاری از موارد عملکرد ضعیفی دارد و روش Buckely و James به تکرار نیاز دارد که ممکن است مسئله عدم همگرایی را به همراه داشته باشد. به علاوه، هر دو روش در اثبات دقیق سازگاری دچار ضعف هستند. سپس مقاله Koul و همکارانش در سال 1981 که از این پس با نام اختصاری KSV نوشته می­شود، ارائه شد. آنها در مقاله خود یک روش برآوردیابی ساده شبیه روش حداقل مربعات در مدل رگرسیونی سانسور شده پیشنهاد کرده و اثبات دقیقی برای سازگاری و توزیع مجانبی نرمال برآوردگرهای حاصله ارائه دادند.

وقتی که  برآوردگر کاپلان مایر توزیع متغیرهای سانسورکننده­ای است که تنها بر پایه مشاهدات، از طبق­ای که i-امین مشاهده به آن تعلق دارد، محاسبه می­شود. (که از این پس  اشاره به این طبقه دارد. ) با این اصلاح ، برآوردگر پارامتر همچنان بر اساس معادله (4.2.2) محاسبه می­شود.تذکر.لازم به ذکر است که برای تبدیل Leurgan در معادله (3.1.2) نیز طبقه­بندی برآوردگری با واریانس مجانبی کمتر به دست می­دهد.نتیجه نسبتاً شگفت انگیز این است که حتی اگر زمان­های سانسور­کننده­ی ، مستقل و هم­توزیع با توزیع مشترک G در طبقات باشند، از طبقه بندی بالا هنوز هم برآوردگری با واریانس مجانبی کم­تر حاصل خواهد شد. Fygenson و Zhou، این نوع طبقه بندی را، طبقه بندی مصنوعی نامیده اند.

2-3-2-2- برآورد M

نقص دیگر برآوردگر KSV این است که وقتی  کم است، i-امین مشاهده سانسورنشده،  بزرگ می شود و منجر به مسئله عدم استواری می­گردد.سوال جالب این است که ببینیم چگونه می­توان برآوردگر KSV را به برآورد M در مدل خطی، تعمیم داد: برآوردگرهای حداقل مربعات به وسیله مینیمم کردن مجموع مربعات باقیمانده ها محاسبه می­شوند. وقتی این مربعات را با یک معیار دیگر برای اندازه­گیری اختلاف، جایگزین کنیم، به برآوردگر M مربوط بهHuber در سال 1973 که ویژگی استواری دارد، دست پیدا می­کنیم.

   1.2 مقدمه و تاریخچه…………………………………………………………………………………. 21

2.2 برآوردگر Susarla _Van Ryzin_ Koul………ا………………………………………………… 22

1.2.2 مزایایی و معایب برآوردگر KSV…….ا……………………………………………………… 24

3.2 اصلاحات و تعمیم های برآوردگر KSV………ا……………………………………………….. 25

1.3.2 تبدیل های دیگر…………………………………………………………………………….. 25

2.3.2 اصلاحات برآوردگر KSV………ا…………………………………………………………….. 26

1.2.3.2 طبقه بندی……………………………………………………………………………….. 26

2.2.3.2 برآورد M……………………..ا…………………………………………………………. 27

4.2 تحلیل باقیمانده………………………………………………………………………………….. 29

5.2 مثال……………………………………………………………………………………………… 30

فصل سوم : برآورد مدل مدل های خطی خطا با داده های سانسور شده

در این فصل، مدل­های خطی سانسور شده با خطای اندازه گیری در متغیرهای مستقل را بررسی می­کنیم. ثابت می­شود که برآوردگر پارامترهای مجهول مدل در حالت مجانبی دارای توزیع نرمال است. آماره لگاریتم نسبت درستنمایی تجربی و آماره لگاریتم نسبت درستنمایی تجربی اصلاح­شده برای پارامترهای مجهول، در مدل پیشنهاد گردیده و ثابت خواهد شد که آماره ارائه شده، تحت شرایط ضعیفی در حالت مجانبی دارای توزیع کای اسکور است، بر این اساس، برای ساخت ناحیه اطمینان پارامتر مورد نظر استفاده می­شود.

3-1- مقدمه

همانگونه که در فصل اول ذکر شد، یک مدل خطی پرکاربرد در مدل­های رگرسیونی، مدل­هایی با خطای اندازه گیری در متغیرهای مستقل، می باشد. این مدل ها می­توانند بطور قابل توجهی استنباط­های آماری و برآوردهای پارامترها را تحت تاثیر قرار دهند. این مدل­های خطی بیش­تر در علوم پزشکی، کشاورزی، مدیریت و اقتصاد کاربرد دارند. مثلا در پزشکی، متغیرهایی مانند فشار خون، آهنگ نبض، درجه حرارت و غلظت خون، و در کشاورزی، متغیرهای مثل میزان باران، میزان نیتروژن خاک، درجه هجوم آفت­ها و… . همچنین متغیرهایی وجود دارند که در علم مدیریت، علوم اجتماعی و دیگر رشته­های مربوط نمی­توانند مستقیما اندازه­گیری شوند.

همان طور که همه ما می دانیم، اندازه­گیری دقیق متغیّرهای مورد نظر به دلیل تاثیر انواع مختلف عوامل از جمله: خطای نمونه گیری، خطای ابزار، خطای ثبت و… دشوار است. در نتیجه برخی از انحراف­ها ممکن است در اندازه گیری متغیّر دیده شود.علت ایجاد خطای اندازه­گیری موجود در متغیرها، می­تواند موارد زیر باشد:

الف. خطاهای اندازه­گیری ایجاد شده به وسیله دستگاه­های اندازه­گیری مانند وسایل اندازه­گیری در پزشکی و آزمایشگاه­ها

ب. خطای اندازه­گیری ایجاد شده به وسیله خطاهای شمارشی پواسن

ج. خطاهای اندازه­گیری ایجاد شده به دلیل برازش دادن یک مدل پارامتری به مشاهدات

د. به دلیل استفاده از مقادیر مشاهده به عنوان نماینده­هایی از مقادیر غیر قابل مشاهده، مانند استفاده از پراکندگی سرعت ستاره­ها برای اندازه­گیری توده سیاه چال­ها و استفاده از جریان کهکشان برای اندازه­گیری سرعت ستارگان.

ه. بعضی منابع تولید اطلاعات دارای تغییرات ذاتی هستند که حتی با بهترین وسایل اندازه­گیری نمی­توان به اندازه واقعی پی برد (مانند استفاده از تلسکوپ­هایی که با امکانات زیاد مقادیر واقعی را به خوبی نمی­توانند اندازه­گیری کنند).

نکته: در بیش­تر نتایج تئوری ناهمبسته بودن متغیرها به تنهایی در حل مسئله کمک چندانی به پیش­برد مسئله ندارد، بلکه نیازمند مستقل بودن متغیرها می­باشد. غالبا توزیع خطاهای  نرمال در نظر گرفته می­شود. در نتیجه موضوع ناهمبستگی، تبدیل به استقلال می شود.در سال­های اخیر، مدل­های EV (errors-in-varibles) در متون آماری مورد توجه بسیاری قرار گرفته است. برخی کارهای مرتبط اخیر عبارتند از: Ling و همکارانش در سال­های 2007-1999، Cui وChen  در سال 2003، Liu و همکارانش در سال 2005،Yu  و Wang در سال 2007، Liu و Xue در سال 2008. مدل خطیEV (1.1.3) توسط Cui و Chen در سال 2003 ارائه شده است، آنها با توجه به درستنمایی تجربی بر پایه ی داده­های پاسخ گم شده، برای پارامتر نامعلوم  ناحیه اطمینان به دست آوردند. و Liu و Xue در سال 2008 بحث برآورد مدل خطی EV (1.1.3) را مطرح کردند.با استفاده از مدل­های رگرسیون خطی معرفی شده، دوآماره نسبت لگاریتم درستنمایی تجربی و نسبت لگاریتم درستنمایی تجربی اصلاح­شده برای پارامتر مجهول پیشنهاد شده­اند که می­توانند در ساختن ناحیه اطمینان، مورد استفاده قرار گیرند.در دهه اخیر نیز آنالیز داده­های سانسور شده موضوع داغی در مباحث آماری بوده است. از جمله کارهای انجام شده در این زمینه، Qin و Jing در سال 1992، Wangدر سال­های 2002-2000 و Liu و همکارانش در سال 2009 را می توان نام برد.در این پایان نامه مدل رگرسیون خطی با داده­های سانسور شده  با وجود خطا در متغیرهای مستقل را بررسی می کنیم. در این زمینه نیز Qin و Jing  (a2001) تحقیقاتی انجام داده­اند.

   1.3 مقدمه……………………………………………………………………………………………… 37

2.3 . مدل رگرسیون خطی با داده­های سانسور شده  با وجود خطا در متغیرهای مستقل…… 40

1.2.3 اصلاح روش حداقل مربعات………………………………………………………………….. 41

2.2.3 روش درستنمایی تجربی وساخت فاصله اطمینان……………………………………… 45

4.3 اثبات قضایا…………………………………………………………………………………… 50

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

 فصل چهارم :مطالعات شبیه سازی

بر اساس مطالعات شبیه سازی شده عملکرد روش درستنمایی تجربی اصلاح­ شده و روش نرمال تقریبی را بررسی می­نمائیم. بوسیله این شبیه­سازی­ها، ما در روش درستنمایی تجربی اصلاح­شده پیشنهادی، از لحاظ دقت پوشش و طول متوسط فواصل اطمینان برتری­هایی را مشاهده کردیم. با وجود این، احتمالات پوششی که از رابطه (7.2.3) بدست آمده است اغلب از سطح اسمی  کمتر است. که این مطلب همچنین در مدل خطی سانسور شده که توسط Jing و Qin در سال 2001 مطرح شد، نشان داده شده است.

4-1. مثال

ما مدل (1.2.3) را مورد بررسی قرار داده­ایم. ابتدا نمونه­های  با  و  را تولید کردیم، که در آن­ها  از توزیع نرمال با میانگین 2 و واریانس 1 شبیه­سازی شده است. و خطاهای مدل  از توزیع نرمال با میانگین  و واریانس  و خطاهای اندازه­گیری  از توزیع نرمال با میانگین  و واریانس  است. متغیر سانسور کننده  از یک توزیع نرمال تولید شده است. (توزیع  از توزیع نرمالی که نزدیک به توزیع پاسخ­های  باشد تولید شده است).

ما  نمونه تصادفی مونت کارلو به اندازه  تولید کرده ایم. نسبت سانسور  مطابق با میانگین­های متفاوت  به ترتیب تقریبا  هستند. نتایج شبیه­سازی در جدول 1.4 آمده اند.

همانطور که درجدول مشاهده می­کنیم در نمونه 30 تایی بر ای نسبت سانسور 0.1 برآورد  در روش NA برابر می­شود با  و احتمال پوشش آن برابر با 0.706 شده است. که با توجه به اینکه  است احتمال پوشش منطقی می­باشد. به همین ترتیب با افزایش نمونه در همان سطح سانسور 0.1 انتظار داریم نتایج بهتر شود که با توجه به جدول می بینیم که مقدار  است و افزایش نمونه موثر می­باشد. و در نسبت سانسور 0.3، همانطور که می بینید برابر با  می­باشد یعنی با افزایش سانسور دقت  کاهش می­یابد. و احتمال پوشش به 0.719 افزایش یافته است.

توجه داشته باشید که متغیر پاسخ  سانسور شده است. و محاسبه نسبت لگاریتم درستنمایی تجربی ساده نیست. بنابراین برای بدست آوردن آن از بسته­های نرم افزاری آماده در نرم افزار R  استفاده می کنیم.

نتیجه گیری:

از جداول زیر می­توانیم نتایج زیر را بدست آوریم. اول اینکه عملکرد  بهتر از  است. چون میانگین طول فواصل اطمینان آن بطور یکنواخت کوتاهتر است و احتمال پوشش آن در مقایسه با  بیشتر است. دوم اینکه، برای هر نسبت سانسور همه میانگین طول­ها نزولی هستند و احتمالات پوشش صعودی­اند. و سوم اینکه مشخص است که نسبت سانسور همچنین بر طول فاصله اطمینان و احتمال پوشش اثرگذار است. بطور کلی، برای هر اندازه نمونه ثابت، با افزایش نسبت سانسور طول فاصله اطمینان افزایش پیدا می­کند و احتمال پوشش کاهش می­یابد. در نهایت احتمالات پوشش به دست آمده توسط  اغلب از مقدار اسمی  کمتر است که این مطلب همچنین سازگار با نتایج شبیه سازی نشان داده شده در مدل خطای سانسور شده توسط Qin و Jingدر سال 2001 می­باشد.

   1.4 حالت یک بعدی……………………………………………………………………………….. 6

   برآوردگر کاپلان مایر با وجود داده­های سانسور شده…………………………………………… 66

   نسبت لگاریتم درستنمایی تجربی………………………………………………………………… 67

   معرفی نمادهای  ­و …………………………………………………………………………………. 70

واژه نامه انگلیسی­-فارسی…………………………………………………………………………. 72

وژه نامه فارسی-انگلیسی…………………………………………………………………………. 77

مراجع…………………………………………………………………………………………………… 82

 

Abstract

In order to estimate parameters using regression models, two approaches will be implemented: Least Squares Error (LSE) and Maximum Likelihood Estimation (MLE). The objective of this thesis is to estimate parameters of regression models including censored data from right side; and also, the linear EV (Error-in-Variable) models. In other words, the extension of the above methods is used in this research.Koul et al. (1981) proposed a new method of inference in regression models with randomly right censored data. They obtained the parameter estimator for the proposed model. Estention and modification of this approach are studied. Also, Liu & Xue (2008) introduced linear regression model with error-in-variable and the asymptotically parameter estimator.Also, in this research parameters estimation in linear EV regression model with right censored data are studied. In fact two methods for estimating parameters and construct the confidence regions parameter of interest are used. As an application, an example is presented to compare the results. In this work, in addition to studying these methods, modifications and extensions of them are studied.



بلافاصله بعد از پرداخت به ایمیلی که در مرحله بعد وارد میکنید ارسال میشود.


فایل pdf غیر قابل ویرایش

قیمت25000تومان

خرید فایل word

قیمت35000تومان

350,000RIAL – اضافه‌کردن به سبدخرید