فهرست مطالب

فصل اول: مقدمات و تعاریف

در این فصل به تعاریف و مقدمات لازم از جمله مدل رگرسیون خطی چندگانه استاندارد، مفهوم چند همخطی، رگرسیون ریج، بریج، روش لاسو و … که در فصلهای بعد به آنها نیاز داریم، خواهیم پرداخت.

1-1-رگرسیون خطی چندگانه و مسئله چند همخطی

یک مدل رگرسیون که شامل بیش از یک متغیر مستقل باشد و نسبت به پارامترها خطی باشد را مدل رگرسیون خطی چندگانه می نامند. فرم کلی یک مدل رگرسیون خطی چندگانه استاندارد به صورت زیر میباشدکه درآن  متغیرهای تصادفی مستقل و هم توزیع با میانگین صفر و واریانس  میباشد .  بردار پارامترها، برای    بردار متغیرهای مستقل و  متغیر پاسخ میباشد. ماتریس  را ماتریس طرح مینامیم. هنگامی که بین متغیر های مستقل همبستگی وجود داشته باشد، می گوییم بین آنها چند همخطی وجود دارد. از آثار چند همخطی می توان به موارد زیر اشاره کرد:

الف : از آنجاییکه در این حالت اطلاعات مستقل در مورد هریک از متغیرهای مستقل وجود ندارد، لذا نمی توان اثرات جزئی متغیرهای مذکور روی متغیر وابسته را برآورد کرد .

ب : هنگامی که همبستگی شدید بین متغیرهای مستقل وجود داشته باشد، کوواریانس و واریانس ضرایب، بزرگتر برآورد خواهند شد .

ج : در حالتی که با چند همخطی شدید در مدل مواجه هستیم، پیش بینی های صورت گرفته از آن غیر قابل اعتماد خواهد بود. در این حالت پیش بینی ها براساس مدلی که دارای زیر مجموعه ای از متغیرهای مستقل مدل اصلی است، بهتر صورت می گیرد .د : رابطه قوی بین دو یا چند متغیر مستقل سبب می شود که نتوان ماتریس  را معکوس کرد. زیرا در این صورت ستون های ماتریس  به هم وابسته هستند و در نتیجه ستون های  نیز با هم وابسته هستند و پررتبه نیست.همان طور که در قسمت ج گفتیم یکی از روش ها برای بهبود برآورد کمترین مربعات، زیر مجموعه منتخب می باشد که نتیجه گزینش بهترین زیر مجموعه رگرسیون می باشد . از روشهای زیر مجموعه منتخب میتوان به رگرسیون گام به گام، حذف پیشرو و انتخاب پسرو اشاره کرد. البته قابل ذکر است که زیر مجموعه منتخب خود دارای مشکل عدم استواری می باشد . به عنوان مثال با تغییر کوچک در داده ها مدل های خیلی متفاوتی را بوجود می آورد، که این امر درستی پیشبینی را کاهش می دهد.معمولا می توان درستی پیش بینی را با انقباض تعدادی از ضرایب و یا با صفر قرار دادن آنها بهبود بخشید. روش پیشنهادی برای بهبود روش برآورد کمترین مربعات، رگرسیونهای انقباضی است. از جمله رگرسیون ریج[1]، لاسو[2]و بریج[3]که به اختصار این روشها را توضیح میدهیم. برای توضیح بیشتر در مورد این روشها به سلیمانی(1392) مراجعه شود.

1-2-رگرسیون ریج

رگرسیون ریج در سال 1962 برای اولین بار توسط هوئرل و کنارد[4] معرفی شد. همان طور که می دانیم اساس و پایه برآوردگر کمترین مربعات یک رگرسیون خطی این است که  وجود داشته باشد. دو دلیل وجود دارد که این معکوس وجود نداشته باشد : یکی ماتریس طرح  پر رتبه ستونی نباشد و دیگری چند همخطی بودن می باشد. روش رگرسیون ریج یکی از بهترین و محبوب ترین گزینهها برای رفع این مشکل می باشد.اضافه کردن ماتریس قطری  به   راهی آسان برای تضمین معکوس پذیری می باشد یعنی . (  یک ماتریس   همانی می باشد). بنابراین برآوردگر رگرسیون ریج پارامتر  به صورت زیر می باشد :

 

مقدمه :…………………………………………………………………………… 2

1-1-رگرسیون خطی چندگانه و مسئله چند همخطی……………………… 2

1-2-رگرسیون ریج………………………………………………………………… 4

1-3-بریج…………………………………………………………………………… 5

1-4-لاسو………………………………………………………………………….. 6

1-4-1-رفتار مجانبی …………………………………………………………….. 8

1-5-تعاریف………………………………………………………………………. 10

1-5-1- تُنُکی…………………………………………………………………….. 10

1-5-2-برآوردگر پیشگو…………………………………………………………. 10

1-5-3-نماد لاندا………………………………………………………………… 11

1-5-4-بهینه سازی محدب…………………………………………………….. 12

1-5-5-1-همگرایی در توزیع…………………………………………………… 12

1-5-5-2-همگرایی در احتمال………………………………………………… 13

1-5-5-3-سازگاری با نرخ ریشه  ام…………………………………………. 13

1-5-5-4-همگرایی با احتمال یک……………………………………………. 14

1-5-6-فرایند ایستا……………………………………………………………. 14

1-5-7-فرایند خودبازگشتی-میانگین متحرک……………………………….. 14

1-5-8-معیارهای انتخاب مدل………………………………………………… 15

1-5-8-1-معیار اطلاع بیزی…………………………………………………… 15

1-5-8-2-اعتبارسنجی متقابل………………………………………………. 16

اعتبارسنجی متقابل  لایه……………………………………………………. 17

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فصل دوم: برآوردگرهای لاسو برای پارامترهای مدل رگرسیون خطی با خطاهای خودبازگشتی

همان طور که می دانیم مدل رگرسیون خطی یک ابزار مهم آماری برای تجزیه و تحلیل ارتباط بین متغیرهای پاسخ و رگرسیونی می باشد . یکی از فرضیات استاندارد موجود در این زمینه، استقلال بین مشاهدات مختلف است. اگرچه در زمان جمع آوری داده ها ممکن است همبستگی سریال مانند معنی داری، بین داده ها وجود داشته باشد. در اینگونه موارد اغلب مدل رگرسیونی با خطاهای سری زمانی در نظر گرفته می شود. در این فصل ابتدا به معرفی این گونه مدلها پرداخته و سپس به برآورد کمترین مربعات پارامترهای آن پرداخته و خواص مجانبی آنها را بیان میکنیم. سپس برآوردگرهای لاسو و لاسو اصلاح یافته این مدلها معرفی کرده و در پایان خواص مجانبی آنها را ارائه و اثبات میکنیم.

 2-1-مدل رگرسیون خطی با خطای سری زمانی

یک کلاس مفید و بزرگ از مدلها برای توصیف داده های مربوط به فعالیت های اقتصادی، تجاری، محیطی و . . . ، مدلهای رگرسیونی با خطای سری زمانی میباشد. فرم کلی این مدلها به صورت زیر بیان میشوده در آن  سری مورد علاقه ،  یک سری زمانی غیر قابل مشاهده ،  نشاندهنده یک بردار از متغیرهای ورودی ،  برداری از پارامترها و  نشاندهنده نوع تاثیر  روی  میباشد. واضح است که مدلهای رگرسیون کلاسیک (خطی و غیر خطی) و سریهای زمانی، حالتهای خاصی از (2-1) میباشند.اگر در مدل (2-1) قرار دهیم،  در اینصورت این مدل را یک مدل خطی گوییم که در این پایاننامه چنین مدلی در نظر گرفته و مورد بررسی قرار میدهیم.تاکنون مطالعات فراوانی روی مدل (2-1) انجام شده است، به ویژه برآوردیابی پارامترهای این مدل تحت فرض ایستایی  میباشد. ازجمله دوربین[1] در سال 1960 یک روش دو مرحلهای را جهت یافتن برآوردهای مجانبا کارا در مدلهای خطی ارائه داد. هنان[2](1971خواص سازگاری برآوردهای کمترین مربعات وزنی پارامتر  وقتیکه ,  غیرخطی باشد را ثابت کرد . پیرس[3]  برآوردیابی از طریق روش کمترین مربعات وقتیکه مدل خطی بوده و  از مدل خودبازگشتی میانگین متحرک  پیروی کند را مورد بررسی قرار داد. فولر[4] در سال1976بعضی از خواص مدل (2-1) را مورد بررسی قرار داد.در ادامه قصد داریم با استفاده از پیرس ، به بررسی برآوردهای کمترین مربعات مدلهای رگرسیون خطی با خطاهای خودبازگشتی–میانگین متحرک را مورد مطالعه قرار دهیم.

که در آن  باقی‌مانده‌های حاصل از  جایگذاری  با  در رابطه‌های (2-8) یا (2-9) می‌باشد. تحت فرض‌هایی مشابه با فرضهای (الف)-(ج)، هیلدرس[1](1969) توزیع بزرگ-نمونهای برآوردگرهای ماکزیمم درستنمایی با خطاهای خودبازگشتی مرتبه اول توزیع نرمال را بدست آورد.هیلدرس(1969) نشان داد که برآوردگرهای ماکزیمم درستنمایی پارامترهای یک مدل رگرسیون خطی با خطاهای خود بازگشتی دارای توزیع نرمال چند متغیره با میانگینی برابر با مقدار صحیح پارامتر میباشند. وی با بررسی ماتریس واریانس کواریانس مشخص کرد که این برآوردگرها مجانبا کارا می باشند.در بخش بعدی برای بدست آوردن توزیع این برآوردگرها، باید از لگاریتم تابع درستنمایی (2-10) استفاده نمود و در بعضی از موارد برای بدست آوردن توزیع بزرگ- نمونهای  و  از روشهای کلاسیک (کرامر 1964[2]) استفاده کرد. اگر چه ممکن است که نتایج بدست آمده به شکل تابعی توزیع خطا، بستگی نداشته باشد اما تنها در حالتی که توزیع خطا نرمال باشد، برآوردگرهای در نظر گرفته شده همان برآوردگرهای ماکزیمم درستنمایی میباشند.

2-4-توزیع برآوردها

پیرس (1971)، رفتار مجانبی برآوردگرهای کمترین مربعات بدست آمده در بخش (2-3) را تحت شرایطی بدست آورد که در این بخش قصد داریم این نتایج را بدون ارائه میدهیم.الف)  دارای توزیع نرمال چندمتغیره با میانگین  و ماتریس واریانس-کواریانس  می‌باشند بطوریکه:

 

2-1-مدل رگرسیون خطی با خطای سری زمانی……………………………… 21

2-2-برآوردکمترین مربعات درمدل رگرسیونی باخطاهای خودبازگشتی میانگین متحرک………………………………………………………………………………… 22

2-3-برآورد کمترین مربعات پارامترها………………………………………………. 24

2-4-توزیع برآوردها ………………………………………………………………….26

2-5-برآوردیابی به روش لاسو برای پارامترهای مدل رگرسیون خطی با خطاهای خودبازگشتی… 28

2-6-خواص نظری برآوردگرهای لاسو…………………………………………… 30

2-6-1-خواص برآوردگر لاسو سنتی……………………………………………. 31

2-6-2-خواص برآوردگر لاسو اصلاح شده………………………………………. 35

فصل سوم: الگوریتم دستیابی به برآوردگرهای لاسو در مدل رگرسیون خطی با خطای خود بازگشتی

بعد از بررسی خواص حدی دو نوع برآوردگر لاسو معرفی شده در فصل قبل، طبیعی است که باید آنها را برای کاربردهای واقعی به کار ببریم. از اینرو الگوریتم زیر برای بدست آوردن مینیمم کننده موضعی برآوردگر های لاسو  ارائه میشود. همچنین، روشی را جهت برآورد همزمان  پارامتر تنظیم کننده، برای برآوردگر لاسو اصلاح شده ارائه میکنیم. (وانگ و همکاران 2007 )

3-1-فرایند تکراری

تابع هدف  ،  را درحالت خاص  در برمی‌گیرد بنابراین در ادامه این بخش،مساله اصلی بهینه کردن  است. چون معادله  هم پارامترهای رگرسیونی و هم پارامترهای خودبازگشتی را شامل می‌شود، از این‌رو منطقی به نظر می‌رسد که با یک روش تکراری به بهینه سازی  بپردازیم که این امر بوسیله مینیمم کردن دو تابع هدف نوع لاسو زیر بدست میآیدبرای پیدا کردن جوابهای توابع تاوان بالا از روشهای زیادی میتوان استفاده کرد. به عنوان مثال می توان به برنامه‌نویسی درجه دوم[1](تیبشیرانی 1996)، الگوریتم پرتابی[2](فو[3]1998)، تقریب درجه دوم موضعی[4] (فن و لی 2001) و اخیرا روش رگرسیون حداقل زاویه[5] (افرون و همکاران[6] 2004)، اشاره کرد. وانگ و همکاران (2007) برای راحتی کار از روش تقریب درجه دوم موضعی که برای اولین بار فن و لی در سال 2001 معرفی کرد، استفاده نمودند. این روش در بسیاری از  مقاله ‌ها  از جمله فن و لی در سال 2001، فن و پنگ [7](2004) و کای و همکاران[8] (2005) مورد استفاده قرار گرفته است. مطالعات شبیه سازی نشان می‌دهد که این روش با سرعت و درجه دقت منطقی همگرا می‌شود.

 تذکر 3-1 :جواب تقریب درجه دوم موضعی، یک جواب تنک را نتیجه نمیدهد. هرچند برآورد پارامتر کوچک تولید شده توسط این روش تا زمانی‌که بتوان یک آستانه به اندازه کافی کوچک برای تحمل دقت تعریف کرد، به صورت کاملا دلخواه می تواند به صفر نزدیک شود. برای توضیح بیشتر رگرسیون خطی معمولی را در نظر بگیرید. در این حالت تقریب درجه دوم موضعی برآورد یک گام جلوتر  را با می‌نیمم کردن عبارت زیر تولید می‌کند :جاییکه  و  . اگر یکی از ضرایب ( مثلا  ) بسیار کوچک باشد (اما تنک نباشد)، آنگاه اثر ریج ناشی از  یعنی   میتواند بسیار بزرگ باشد. به عنوان نتیجه مقدار  مجبور به کوچک‌تر بودن می‌باشد. زیرا این یک فرایند تکراری می‌باشد و تا زمانی‌که بتوان یک آستانه به اندازه کافی کوچک را برای دقت داشته باشیم، می‌توان مقدار  را به دلخواه به سمت صفر نزدیک کرد. بنابراین قرار دادن یک مقدار آستانه به دلخواه کوچک برای اینکه برآوردهای کوچک را دقیقا به صفر انقباض ‌دهد، امکان پذیر خواهد بود. با این عمل میتوان جوابهای تنک را بدست آورد. در مطالعات شبیه‌سازی مقدار این آستانه را  قرار می‌دهیم به‌طوریکه هر ضریبی که قدرمطلق آن کوچک‌تر از این مقدار باشد، به صفر منقبض میشود.

3-2-تحدب موضعی [9]

اگرچه بکارگیری فرایند تکراری معرفی شده آسان میباشد، اما نمیتوان با قاطعیت مطمئن شد که برآوردگر حاصل، به مینیمم کننده مطلق همگرا میشود که به این دلیل است که جمله کمترین توان دوم  در تابع هدف  یک تابع محدب نمیباشد. محدب نبودن این جمله انگیزه خوبی شد که وانگ و همکاران (2007) قضیه زیر را ارایه کنند. این قضیه نشان می دهد که یک ناحیه موضعی ثابت، به اندازه کافی کوچک وجود دارد که دربرگیرنده پارامتر واقعی آن -یی است که با احتمال یک، محدب است.قضیه 3-1 : یک مجموعه خنثی[10] مانند  و یک مقدار ثابت به اندازه کافی کوچک مثل  وجود دارد بطوریکه برای هر   ، عدد صحیحی مثل  وجود دارد که برای هر ،  در  محدب میباشد، جاییکهیک گوی در برگیرنده مقدار واقعی  میباشد.

قضیه (3-1) به این نکته اشاره می کند که با احتمال متمایل به یک ، حداکثر یک می نیمم کننده موضعی در گوی  وجود دارد. با توجه به لم (2-1)،  وجود دارد و در احتمال سازگار میباشد. بنابراین قضیه (3-1) و لم (2-1) باهم نتیجه میدهند که با احتمال متمایل به یک،  مینیمم کننده موضعی یکتا در  میباشد. در نتیجه  با یافتن مینیمم کننده موضعی یکتا در  بدست می آید.تذکر 4-2 : قضیه (3-1)  نه تنها برای لاسوی اصلاح شده، بلکه برای لاسوی سنتی نیز بکار میرود. به ویژه قضیه (3-1) به همراه قضیه (2-1) نتیجه میدهد که با پیدا کردن مینیمم کننده موضعی یکتا در  ،  را میتوان یافت. هرچند در عمل، نیازی به مشخص کردن  نیست، چون اگر برآوردگر شروع سازگار باشد، آنگاه باید با احتمال متمایل یک، در داخل  قرار گیرد. در نتیجه فرایند تکراری معرفی شده با احتمال متمایل یک، به مینیمم کننده موضعی (یعنی  یا  ) همگرا شود.

(برای اطلاعات بیشتر به فن و لی (2001) و (2002) مراجعه کنید)

 3-3-برآوردگر شروع

برای بدست آوردن برآوردگر سازگار در فرایند تکراری، برآوردگر کمترین مربعات معمولی را بعنوان یک برآوردگر شروع ضریب رگرسیونی  پیشنهاد می کنیم:با استفاده از این حقیقت که  از  مستقل است(شرط الف)، می‌توان نشان داد که تحت شرایط نظم کلاسیک  برآوردگر سازگار  می‌باشد. حال باقی‌مانده‌های معمولی را از  محاسبه کرده و با بکارگیری روش کمترین مربعات توسط برازش  در مقابل ، می‌توان برآوردگر شروع زیر را برای ضریب خودبازگشتی  بدست آورد :به‌طوریکه  و  یک ماتریس  که -امین سطر آن  می‌باشد. می‌توان نشان داد که تحت شرایط نظم کلاسیک،  برآوردگر سازگار  می‌باشد.

3-4-پارامترهای تنظیم کننده

برای کامل کردن الگوریتم در فرایند تکراری، بعد از بدست آوردن برآوردگر شروع، به انتخاب پارامترهای تنظیم کننده نیازمند هستیم. برآوردگر لاسو سنتی فقط شامل دو پارامتر تنظیم کننده  می باشد. ازاین‌رو ما می‌توانیم مستقیما روش اعتبارسنجی متقابل ( ) را برای انتخاب پارامترهای تنظیم کننده بهینه بکار ببریم . بدلیل ساختار سری زمانی، نیمه اول داده‌ها را به منظور مدل آموزشی و باقیمانده دادهها را برای مدل آزمایشی به‌کار می‌بریم. اگرچه در رگرسیون خطی معمولی، شائو[11](1997) نشان داد که اگر مدل واقعی دارای بعد متناهی باشد، روش  عملکرد بهتری نسبت به  داراست. این انگیزه خوبی بود که از انتخاب کننده پارامتر تنظیم کننده نوع  زو و همکاران(2004)[12] اقتباس کنیم :

3-1-فرایند تکراری………………………………………………………………. 42

3-2-تحدب موضعی………………………………………………………………. 44

3-3-برآوردگر شروع………………………………………………………………. 45

3-4-پارامترهای تنظیم کننده…………………………………………………….. 45

فصل چهارم: مثالهای کاربردی و شبیه سازی

در این فصل به مقایسه برآوردهای لاسو بدست آمده در فصل دوم پرداختهایم. ابتدا یک مثال شبیه سازی و سپس یک مثال واقعی ارائه میدهیم .

 4-1-مثال شبیه سازی

در این بخش شبیه سازی مونت کارلو را برای ارزیابی عملکرد دو برآوردگر لاسو معرفی شده در فصل دوم برای مدلهای رگرسیونی با خطای  به کار برده ایم. ملاک برتر بودن در این شبیه سازی معیارهای  و  می باشد. برای لاسو سنتی با استفاده از دیدگاه زو و هستی[1] (2005)، پارامترهای تنظیم کننده بهینه  و  را از شش نقطه  انتخاب میکنیم و همچنین برای برآوردگر لاسو اصلاح شده، پارامتر تنظیم کننده بهینه را از شش نقطه  انتخاب کردهایم. بعلاوه این الگوریتم برآوردیابی زمانی متوقف میشود که  باشد که  برآوردگر  در -امین تکرار الگوریتم میباشد. زمانی که همگرایی انجام شد، هر برآورد پارامتری که قدرمطلق آن کمتر از  باشد، به صفر انقباض داده میشود. مطالعات شبیه سازی در این زمینه نشان میدهد که این الگوریتم از سرعت همگرایی منطقی برخوردار می باشد.دادهها را از مدل رگرسیونی با خطای  زیر تولید کردهایم :

که در آن متغیرهای تصادفی مستقل و هم توزیع نرمال استاندارد میباشند که . ضرایب رگرسیونی و خودبازگشتی  و  میباشند.متغیرهای رگرسیونی   مستقل با توزیع نرمال چندمتغیره و بردار میانگین  میباشند، همچنین همبستگی بین  و  ،  میباشد.در این شبیه سازی سه اندازه نمونه    و دو انحراف استاندارد  و همچنین ضرایب همبستگی  که به ترتیب نشان دهنده ضریب همبستگی قوی، متوسط و ضعیف بین متغیرهای رگرسیونی و تعداد تکرار 1000 را در نظر گرفتهایم. در این شبیه سازی برای هر 1000 بار تکرار، درصد متغیرهای رگرسیونی درست برآورد شده، بیش برآورد شده و کم برآورد شده و همچنین درصد مرتبههای خودبازگشتی درست برآورد شده، بیش برآورد شده و کم برآورد شده و درصد مدل صحیح شناسایی شده توسط برآوردگرهای لاسو محاسبه شده است.درحالتیکه ، جدول 4-1 نشان میدهد که لاسو سنتی عملکرد ضعیفی را برای اندازه نمونه و انحراف استانداردهای مختلف دارا میباشد. این بهدلیل وجود  یک پارامتر تنظیم کننده ثابت برای تمامی ضرایب است. در نتیجه دارای بیش برازشی در هم انتخاب متغیر رگرسیونی و هم خودبازگشتی است. در حالیکه لاسو اصلاح شده با معیار (لاسو*– ) عملکرد به مراتب بهتری نسبت به لاسو سنتی دارا میباشد. به علاوه لاسو اصلاح شده با معیار  (لاسو*– ) بهترین عملکرد را در شناسایی مدل صحیح با اندازه نمونه و انحراف استانداردهای مختلف دارا میباشد و با افزایش حجم نمونه، درصد مدل صحیح به %100 افزایش مییابد. در مجموع این شبیهسازی نشان میدهد که لاسو*– همزمان در انتخاب متغیر و برآورد ضرایب بهتر عمل میکند. همچنین برای شناسایی مدل صحیح، دقت پیشبینی 4 نوع برآورد را با میانه میانگین مجذور خطا مقایسه کردیم. 10000 نمونه مستقل دیگر تولید کردهایم. جدول 1-4 نشان میدهد که لاسو-  بدترین عملکرد و   لاسو*–  بهترین عملکرد را دارا میباشد.در شبیهسازی با  و  نتایجی شبیه به  بدست میآید.

4-1-مثال شبیه سازی……………………………………………………………. 49

4-2-مثال واقعی……………………………………………………………………. 52

پیوست……………………………………………………………………………… 55

مارتینگل و قضیه حد مرکزی مارتینگلها………………………………………… 56

قضیه ارگودیک……………………………………………………………………. 57

فهرست منابع و مآخذ……………………………………………………………. 58

واژه نامه فارسی به انگلیسی…………………………………………………. 61

واژه نامه انگلیسی به فارسی…………………………………………………. 66

 

 

Abstract

 In linear regression models, shrinkage methods are one of solutions for improving the least squares estimation. In this thesis, after the introducing the multiple linear regression models and the multicollinearity, we introduce the shrinkage methods and then the linear regression models with autoregressive errors are used by lasso shrinkage method. Then two kinds of lasso estimators; traditional lasso and modified lasso, are introduced and then we have studied their asymptotic properties. Finally we present an algorithm to computing these estimators and two examples for compare these estimators, are provided.



بلافاصله بعد از پرداخت به ایمیلی که در مرحله بعد وارد میکنید ارسال میشود.


فایل pdf غیر قابل ویرایش

قیمت25000تومان

250,000RIAL – اضافه‌کردن به سبدخرید

خرید فایل word

قیمت35000تومان

350,000RIAL – اضافه‌کردن به سبدخرید