فهرست مطالب
فصل اول:تعاریف و مقدمات اولیه
در این فصل تعاریف و مقدمات اولیه برای مدلهای خطی، مدلهای خطی با خطای اندازهگیری، برآوردگرهای استوار بهویژه برآورد M، آنالیز بقا، برآوردگر کاپلان مایر، دادههای سانسورشده و انواع سانسور ارائه میشود.
1-1- مدل خطی
یکی از کاربردیترین روشها برای تحلیل دادهها در بین ابزارهای آماری، تحلیل رگرسیونی است. تحلیل رگرسیونی،روشی کارآمد برای بررسی و مدلسازی ارتباط بین متغیرها است که از این مدل های رگرسیونی در توصیف دادهها، برآورد پارامترهای مجهول، پیشگویی و کنترل استفاده می شود.در بیشتر موارد، پاسخ یک آزمایش به چندین متغیر مستقل مثلا k متغیر مستقل، وابسته است. در این صورت یک مدل خطی رابطهای به صورت زیر را در نظر میگیرد:که n اندازه نمونه میباشد. متغیرهای را متغیرهای توضیحی و متغیر تصادفی قابل مشاهده y را متغیر پاسخ مینامند. متغیر تصادفی غیرقابل مشاهده متغیر خطا تلقی میشود، بدین معنی که به عنوان متغیری تصادفی، انداره ناتوانی مدل در برازش دقیق دادهها را اندازهگیری میکند. این خطا ممکن است به دلیل عدم حضور برخی از متغیرهای مؤثر، خطاهای تصافی مربوط به مشاهدات و اندازهگیریها و غیره صورت پذیرد.همچنین فرض میشود که خطاها دارای توزیع نرمال با میانگین صفر و واریانس نامعلوم و ناهمبسته باشند. پارامترهای و مجهول هستند و باید با استفاده از دادهها برآورد شوند. فرض میشوددادهها عبارتند از که در آن پاسخ متناظر با k سطح از متغیرهای مستقل است. یعنی بنابر معادله (1.1.1) میتوان نوشت:آنگاه هدف ما به دست آوردن برآوردهای برای به ترتیب به نامهای و در نتیجه به دست آوردن رابطه زیر است.که در آن نشان دهنده مقدار برآورد شده y به ازای مقادیر است. در این صورت معادله (3.1.1) به عنوان معادله پیش بینی کننده میتواند مورد استفاده قرار گیرد. معمولترین روش در برآورد پارامترهای یک مدل خطی، استفاده از روش “کمترین مربعات معمول (OLS)” است که روشی بسیار سودمند و کارا است.پایه و اساس روش کمترین مربعات به Gaussو Legendreباز میگردد. این روش (و تعمیمهای آن ) به دلیل راحتی محاسبات و جوابهای بسته مبتنی برآن مورد توجه بسیاری از آماردانان است.
اگر بخواهیم رابطه میان دو متغیر را بررسی نمائیم، روش معمول استفاده از یک مدل رگرسیونی است. برای قابل شناسایی بودن مدل، لازم است فرضیاتی در نظربگیریم، و اگر هر یک از این فرضیات برقرار نباشد نتایج حاصله اعتبار نخواهند داشت. از جمله فرضهای هر مدل رگرسیونی عدم وابستگی بین متغیرهای خطا و متغیرهای مستقل مدل میباشد. تحت این فرض، بهراحتی و با استفاده از روشهای موجود ، میتوان مدل را کاملا تجزیه و تحلیل و پارامترهای آن را برآورد نمود.اما در بسیاری از مواقع این فرض برقرار نبوده و بین متغیرهای خطا و متغیرهای مستقل وابستگی وجود دارد. این مشکل زمانی به وجود میآید که متغیر مستقل را فقط با خطا بتوان مشاهده نمود. در این صورت در مدل یک متغیر خطای دیگر نیز ظاهر میشود. این مدلها را مدلهای رگرسیونی با خطا در متغیرها مینامند.مهمترین مشکل این مدلها این است که از روشهای از قبیل حداقل مربعات و ماکزیمم درستنمایی مستقیما نمیتوان استفاده نمود و برآوردهای مناسب برای مدل وجود نخواهند داشت، مگر آنکه فرضیاتی بر مدل اضافه شود. اما در عمل بسیاری از این فرضیات کاربردی ندارند. اما بهرحال روشهای مختلفی برای تجزیه و تحلیل این مدلها موجود میباشد. برخی فقط جنبه تئوری دارند و برخی دیگر از جنبه عملی کاربردهای بسیاری دارند.مدل رگرسیونی زیر را در نظر بگیرید:
معمولترین روش برازش یک خط به دادهها، حداقل مربعات است. همانطور که میدانیم در این روش خطی را که مجموع مربعات فواصل عمودی نقاط از خط را مینیمم میکند به عنوان بهترین خط به دادهها برازش میدهیم. در توجیه انتخاب این خط فرض میشود که انحراف مشاهدات از خط به دلیل تغییرات تصادفی توضیح داده نشدهی متغیر Y است. واضح است که اگر احساس شود انحراف نقاط از خط به دلیل تغییرات X است، روش مناسب این است که خط رگرسیون X روی Y را به دادهها برازش دهیم که این خط مجموعه مربعات فواصل افقی را مینیمم میکند. بنابراین برآوردگرهای حداقل مربعات نمیتوانند برآوردگرهای مناسبی برای مدلهای خطای اندازهگیری باشند، زیرا این برآوردگرهای خطا تصادفی مربوط به متغیر مستقل X را در نظر نمیگیرند. روشی که معمولا در مدلهای خطای اندازگیری برای برآورد کردن پارامترها استفاده میشود، روش درستنمایی ماکزیمم است. در این روش به جای مینیمم کردن مجموع فواصل عمودی و افقی، مجموع مربعات فواصل عمود بر خط رگرسیون را مینیمم میکنیم.
1.1 مدل خطی……………………………………………………………………………………………. 1
2.1 انواع برآوردگرهای استوار……………………………………………………………………………. 5
1.2.1 برآورد M…………………ا………………………………………………………………………… 5
3.1 آنالیز بقا……………………………………………………………………………………………….. 6
1.3.1 برآوردگر کاپلان مایر……………………………………………………………………………… 7
2.3.1 سانسور…………………………………………………………………………………………. 9
4.1 مدل رگرسیون خطی با خطای اندازهگیری……………………………………………………… 14
برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید
فصل دوم : دادهای سانسور شده از راست و مدل های رگرسیونی
Koul و همکارانش در سال 1981 مدلهای رگرسیونی با دادههای تصادفی سانسور شده از راست را ارائه دادند و آنها از استنباط در این مدلها نشان دادند که برآوردگر حاصل سازگار بوده و در حالت مجانبی دارای توزیع نرمال است. در این فصل، تمام اصلاحات و تعمیمهای این روش را که تا کنون انجام شده بررسی میکنیم. برای پیشبرد این روش ها، بررسی تعمیمی از باقیماندهها در مدلهایی که شامل دادههای سانسور شده هستند، پیشنهاد گردیده است. تشخیص مدل با استفاده از آنالیز باقیماندهها با دو مثال نشان داده می شود.
2-1- مقدمه و تاریخچه: دادههای سانسورشده و مدل های رگرسیونی
مدل رگرسیون خطی و تعمیمهای مختلف آن مسلماً مهمترین و با سابقهترین ابزار آماریاند و به صورت گستردهای در تمام زمینههای کاربردی به کار میروند. در سالهای گذشته ایدهی استفاده از یک مدل رگرسیونی نیمه پارامتری با دادههای سانسورشده بسیار مورد توجه قرار گرفته است، اما تحلیل آماری آن ساده نیست. برخی تحقیقات اولیه در این زمینه متعلق به،Miller در سال 1976، Buckely و James در سال 1979 میباشد. اما روش Miller در بسیاری از موارد عملکرد ضعیفی دارد و روش Buckely و James به تکرار نیاز دارد که ممکن است مسئله عدم همگرایی را به همراه داشته باشد. به علاوه، هر دو روش در اثبات دقیق سازگاری دچار ضعف هستند. سپس مقاله Koul و همکارانش در سال 1981 که از این پس با نام اختصاری KSV نوشته میشود، ارائه شد. آنها در مقاله خود یک روش برآوردیابی ساده شبیه روش حداقل مربعات در مدل رگرسیونی سانسور شده پیشنهاد کرده و اثبات دقیقی برای سازگاری و توزیع مجانبی نرمال برآوردگرهای حاصله ارائه دادند.
وقتی که برآوردگر کاپلان مایر توزیع متغیرهای سانسورکنندهای است که تنها بر پایه مشاهدات، از طبقای که i-امین مشاهده به آن تعلق دارد، محاسبه میشود. (که از این پس اشاره به این طبقه دارد. ) با این اصلاح ، برآوردگر پارامتر همچنان بر اساس معادله (4.2.2) محاسبه میشود.تذکر.لازم به ذکر است که برای تبدیل Leurgan در معادله (3.1.2) نیز طبقهبندی برآوردگری با واریانس مجانبی کمتر به دست میدهد.نتیجه نسبتاً شگفت انگیز این است که حتی اگر زمانهای سانسورکنندهی ، مستقل و همتوزیع با توزیع مشترک G در طبقات باشند، از طبقه بندی بالا هنوز هم برآوردگری با واریانس مجانبی کمتر حاصل خواهد شد. Fygenson و Zhou، این نوع طبقه بندی را، طبقه بندی مصنوعی نامیده اند.
2-3-2-2- برآورد M
نقص دیگر برآوردگر KSV این است که وقتی کم است، i-امین مشاهده سانسورنشده، بزرگ می شود و منجر به مسئله عدم استواری میگردد.سوال جالب این است که ببینیم چگونه میتوان برآوردگر KSV را به برآورد M در مدل خطی، تعمیم داد: برآوردگرهای حداقل مربعات به وسیله مینیمم کردن مجموع مربعات باقیمانده ها محاسبه میشوند. وقتی این مربعات را با یک معیار دیگر برای اندازهگیری اختلاف، جایگزین کنیم، به برآوردگر M مربوط بهHuber در سال 1973 که ویژگی استواری دارد، دست پیدا میکنیم.
1.2 مقدمه و تاریخچه…………………………………………………………………………………. 21
2.2 برآوردگر Susarla _Van Ryzin_ Koul………ا………………………………………………… 22
1.2.2 مزایایی و معایب برآوردگر KSV…….ا……………………………………………………… 24
3.2 اصلاحات و تعمیم های برآوردگر KSV………ا……………………………………………….. 25
1.3.2 تبدیل های دیگر…………………………………………………………………………….. 25
2.3.2 اصلاحات برآوردگر KSV………ا…………………………………………………………….. 26
1.2.3.2 طبقه بندی……………………………………………………………………………….. 26
2.2.3.2 برآورد M……………………..ا…………………………………………………………. 27
4.2 تحلیل باقیمانده………………………………………………………………………………….. 29
5.2 مثال……………………………………………………………………………………………… 30
فصل سوم : برآورد مدل مدل های خطی خطا با داده های سانسور شده
در این فصل، مدلهای خطی سانسور شده با خطای اندازه گیری در متغیرهای مستقل را بررسی میکنیم. ثابت میشود که برآوردگر پارامترهای مجهول مدل در حالت مجانبی دارای توزیع نرمال است. آماره لگاریتم نسبت درستنمایی تجربی و آماره لگاریتم نسبت درستنمایی تجربی اصلاحشده برای پارامترهای مجهول، در مدل پیشنهاد گردیده و ثابت خواهد شد که آماره ارائه شده، تحت شرایط ضعیفی در حالت مجانبی دارای توزیع کای اسکور است، بر این اساس، برای ساخت ناحیه اطمینان پارامتر مورد نظر استفاده میشود.
3-1- مقدمه
همانگونه که در فصل اول ذکر شد، یک مدل خطی پرکاربرد در مدلهای رگرسیونی، مدلهایی با خطای اندازه گیری در متغیرهای مستقل، می باشد. این مدل ها میتوانند بطور قابل توجهی استنباطهای آماری و برآوردهای پارامترها را تحت تاثیر قرار دهند. این مدلهای خطی بیشتر در علوم پزشکی، کشاورزی، مدیریت و اقتصاد کاربرد دارند. مثلا در پزشکی، متغیرهایی مانند فشار خون، آهنگ نبض، درجه حرارت و غلظت خون، و در کشاورزی، متغیرهای مثل میزان باران، میزان نیتروژن خاک، درجه هجوم آفتها و… . همچنین متغیرهایی وجود دارند که در علم مدیریت، علوم اجتماعی و دیگر رشتههای مربوط نمیتوانند مستقیما اندازهگیری شوند.
همان طور که همه ما می دانیم، اندازهگیری دقیق متغیّرهای مورد نظر به دلیل تاثیر انواع مختلف عوامل از جمله: خطای نمونه گیری، خطای ابزار، خطای ثبت و… دشوار است. در نتیجه برخی از انحرافها ممکن است در اندازه گیری متغیّر دیده شود.علت ایجاد خطای اندازهگیری موجود در متغیرها، میتواند موارد زیر باشد:
الف. خطاهای اندازهگیری ایجاد شده به وسیله دستگاههای اندازهگیری مانند وسایل اندازهگیری در پزشکی و آزمایشگاهها
ب. خطای اندازهگیری ایجاد شده به وسیله خطاهای شمارشی پواسن
ج. خطاهای اندازهگیری ایجاد شده به دلیل برازش دادن یک مدل پارامتری به مشاهدات
د. به دلیل استفاده از مقادیر مشاهده به عنوان نمایندههایی از مقادیر غیر قابل مشاهده، مانند استفاده از پراکندگی سرعت ستارهها برای اندازهگیری توده سیاه چالها و استفاده از جریان کهکشان برای اندازهگیری سرعت ستارگان.
ه. بعضی منابع تولید اطلاعات دارای تغییرات ذاتی هستند که حتی با بهترین وسایل اندازهگیری نمیتوان به اندازه واقعی پی برد (مانند استفاده از تلسکوپهایی که با امکانات زیاد مقادیر واقعی را به خوبی نمیتوانند اندازهگیری کنند).
نکته: در بیشتر نتایج تئوری ناهمبسته بودن متغیرها به تنهایی در حل مسئله کمک چندانی به پیشبرد مسئله ندارد، بلکه نیازمند مستقل بودن متغیرها میباشد. غالبا توزیع خطاهای نرمال در نظر گرفته میشود. در نتیجه موضوع ناهمبستگی، تبدیل به استقلال می شود.در سالهای اخیر، مدلهای EV (errors-in-varibles) در متون آماری مورد توجه بسیاری قرار گرفته است. برخی کارهای مرتبط اخیر عبارتند از: Ling و همکارانش در سالهای 2007-1999، Cui وChen در سال 2003، Liu و همکارانش در سال 2005،Yu و Wang در سال 2007، Liu و Xue در سال 2008. مدل خطیEV (1.1.3) توسط Cui و Chen در سال 2003 ارائه شده است، آنها با توجه به درستنمایی تجربی بر پایه ی دادههای پاسخ گم شده، برای پارامتر نامعلوم ناحیه اطمینان به دست آوردند. و Liu و Xue در سال 2008 بحث برآورد مدل خطی EV (1.1.3) را مطرح کردند.با استفاده از مدلهای رگرسیون خطی معرفی شده، دوآماره نسبت لگاریتم درستنمایی تجربی و نسبت لگاریتم درستنمایی تجربی اصلاحشده برای پارامتر مجهول پیشنهاد شدهاند که میتوانند در ساختن ناحیه اطمینان، مورد استفاده قرار گیرند.در دهه اخیر نیز آنالیز دادههای سانسور شده موضوع داغی در مباحث آماری بوده است. از جمله کارهای انجام شده در این زمینه، Qin و Jing در سال 1992، Wangدر سالهای 2002-2000 و Liu و همکارانش در سال 2009 را می توان نام برد.در این پایان نامه مدل رگرسیون خطی با دادههای سانسور شده با وجود خطا در متغیرهای مستقل را بررسی می کنیم. در این زمینه نیز Qin و Jing (a2001) تحقیقاتی انجام دادهاند.
1.3 مقدمه……………………………………………………………………………………………… 37
2.3 . مدل رگرسیون خطی با دادههای سانسور شده با وجود خطا در متغیرهای مستقل…… 40
1.2.3 اصلاح روش حداقل مربعات………………………………………………………………….. 41
2.2.3 روش درستنمایی تجربی وساخت فاصله اطمینان……………………………………… 45
4.3 اثبات قضایا…………………………………………………………………………………… 50
برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید
فصل چهارم :مطالعات شبیه سازی
بر اساس مطالعات شبیه سازی شده عملکرد روش درستنمایی تجربی اصلاح شده و روش نرمال تقریبی را بررسی مینمائیم. بوسیله این شبیهسازیها، ما در روش درستنمایی تجربی اصلاحشده پیشنهادی، از لحاظ دقت پوشش و طول متوسط فواصل اطمینان برتریهایی را مشاهده کردیم. با وجود این، احتمالات پوششی که از رابطه (7.2.3) بدست آمده است اغلب از سطح اسمی کمتر است. که این مطلب همچنین در مدل خطی سانسور شده که توسط Jing و Qin در سال 2001 مطرح شد، نشان داده شده است.
4-1. مثال
ما مدل (1.2.3) را مورد بررسی قرار دادهایم. ابتدا نمونههای با و را تولید کردیم، که در آنها از توزیع نرمال با میانگین 2 و واریانس 1 شبیهسازی شده است. و خطاهای مدل از توزیع نرمال با میانگین و واریانس و خطاهای اندازهگیری از توزیع نرمال با میانگین و واریانس است. متغیر سانسور کننده از یک توزیع نرمال تولید شده است. (توزیع از توزیع نرمالی که نزدیک به توزیع پاسخهای باشد تولید شده است).
ما نمونه تصادفی مونت کارلو به اندازه تولید کرده ایم. نسبت سانسور مطابق با میانگینهای متفاوت به ترتیب تقریبا هستند. نتایج شبیهسازی در جدول 1.4 آمده اند.
همانطور که درجدول مشاهده میکنیم در نمونه 30 تایی بر ای نسبت سانسور 0.1 برآورد در روش NA برابر میشود با و احتمال پوشش آن برابر با 0.706 شده است. که با توجه به اینکه است احتمال پوشش منطقی میباشد. به همین ترتیب با افزایش نمونه در همان سطح سانسور 0.1 انتظار داریم نتایج بهتر شود که با توجه به جدول می بینیم که مقدار است و افزایش نمونه موثر میباشد. و در نسبت سانسور 0.3، همانطور که می بینید برابر با میباشد یعنی با افزایش سانسور دقت کاهش مییابد. و احتمال پوشش به 0.719 افزایش یافته است.
توجه داشته باشید که متغیر پاسخ سانسور شده است. و محاسبه نسبت لگاریتم درستنمایی تجربی ساده نیست. بنابراین برای بدست آوردن آن از بستههای نرم افزاری آماده در نرم افزار R استفاده می کنیم.
نتیجه گیری:
از جداول زیر میتوانیم نتایج زیر را بدست آوریم. اول اینکه عملکرد بهتر از است. چون میانگین طول فواصل اطمینان آن بطور یکنواخت کوتاهتر است و احتمال پوشش آن در مقایسه با بیشتر است. دوم اینکه، برای هر نسبت سانسور همه میانگین طولها نزولی هستند و احتمالات پوشش صعودیاند. و سوم اینکه مشخص است که نسبت سانسور همچنین بر طول فاصله اطمینان و احتمال پوشش اثرگذار است. بطور کلی، برای هر اندازه نمونه ثابت، با افزایش نسبت سانسور طول فاصله اطمینان افزایش پیدا میکند و احتمال پوشش کاهش مییابد. در نهایت احتمالات پوشش به دست آمده توسط اغلب از مقدار اسمی کمتر است که این مطلب همچنین سازگار با نتایج شبیه سازی نشان داده شده در مدل خطای سانسور شده توسط Qin و Jingدر سال 2001 میباشد.
1.4 حالت یک بعدی……………………………………………………………………………….. 6
برآوردگر کاپلان مایر با وجود دادههای سانسور شده…………………………………………… 66
نسبت لگاریتم درستنمایی تجربی………………………………………………………………… 67
معرفی نمادهای و …………………………………………………………………………………. 70
واژه نامه انگلیسی-فارسی…………………………………………………………………………. 72
وژه نامه فارسی-انگلیسی…………………………………………………………………………. 77
مراجع…………………………………………………………………………………………………… 82
Abstract
In order to estimate parameters using regression models, two approaches will be implemented: Least Squares Error (LSE) and Maximum Likelihood Estimation (MLE). The objective of this thesis is to estimate parameters of regression models including censored data from right side; and also, the linear EV (Error-in-Variable) models. In other words, the extension of the above methods is used in this research.Koul et al. (1981) proposed a new method of inference in regression models with randomly right censored data. They obtained the parameter estimator for the proposed model. Estention and modification of this approach are studied. Also, Liu & Xue (2008) introduced linear regression model with error-in-variable and the asymptotically parameter estimator.Also, in this research parameters estimation in linear EV regression model with right censored data are studied. In fact two methods for estimating parameters and construct the confidence regions parameter of interest are used. As an application, an example is presented to compare the results. In this work, in addition to studying these methods, modifications and extensions of them are studied.
بلافاصله بعد از پرداخت به ایمیلی که در مرحله بعد وارد میکنید ارسال میشود.
فایل pdf غیر قابل ویرایش
قیمت25000تومان
خرید فایل word
قیمت35000تومان