انتخاب صفحه

فهرست مطالب

فصل اول: مقدمه

رگرسیون (regression) در قلب آمار جای دارد. رگرسیون کمترین مربعات عادی (ordinary least square regression) (OLSR) میانگین متغیر پاسخ (response) را به عنوان تابعی از متغیرهای پیش­بینی­کننده (predictors)، برآورد می­کند. رگرسیون کمترین انحراف قدرمطلق (least absolute deviation regression)   (LADR)، تابع میانه­ی شرطی (به شرط متغیرهای پیش­بینی­کننده) را به عنوان تابعی از متغیرهای پیش­بینی­کننده، برآورد می­کند. رگرسیون کمترین انحراف قدرمطلق، نسبت به مشاهدات پرت، پایاتر از رگرسیون کمترین مربعات است. Koenker و Bassett در سال 1978 ایده­ی مربوط به رگرسیون کمترین انحراف قدر مطلق را تعمیم دادند و رگرسیون چندکی (quantile regression) را مطرح کردند. رگرسیون چندکی، توابع چندکی شرطی (به شرط متغیرهای پیش­بینی­کننده) را به عنوان توابعی از متغیرهای پیش­بینی­کننده، برآورد می­کند. رگرسیون چندکی اطلاعات بیشتری از توزیع شرطی متغیر پاسخ ارائه می­دهد و رگرسیون کمترین انحراف قدر مطلق را به عنوان یک حالت خاص  در بر می­گیرد. رگرسیون چندکی پس از معرفی توجه زیادی را به خود جلب کرده است و در زمینه­های گوناگون به کار برده شده است از جمله: اقتصاد (Koenker و Hendricks (1992)، Koenker و Hallock (2001))، آنالیز بقاء (Yang (1999)، Koenker و Geling (2001)) مطالعات ریزآرایه (microarray) (Wang و He (2007) )، نمودار رشد (Wei و همکاران (2006)، Wei و He (2006)).

1-1- تاریخچه

انتخاب متغیر (variable selection) نقش اساسی در فرآیند ساختمان مدل ایفا می­کند. در عمل، به طور معمول تعداد زیادی متغیر پیش­بینی­کننده­ی کاندید وجود دارد. این متغیرها در مرحله­ی ابتدائی مدل­بندی، به حساب آورده می­شوند. همان طور که Fan و Li در سال 2001 مورد بررسی قرار دادند این کار به سبب جلوگیری از انحراف از مدل اصلی صورت می­گیرد (اگر تعداد متغیرهای پیش­بینی­کننده­ی کمتری از آنچه در واقعیت وجود دارد، در مدل­بندی در نظر بگیریم، برآوردهای اریب حاصل می­شوند). اما نگه داشتن متغیرهای بی­ربط در مدل نهایی، نامطلوب است. چون این کار تفسیر مدل نهایی را مشکل می­نماید و ممکن است قدرت پیش­بینی آن را کاهش دهد. به این دلیل آماردانان معمولأ از روش انتخاب بهترین زیرمجموعه (best-subset selection) برای انتخاب متغیر استفاده می­کنند. با این حال به روش انتخاب بهترین زیر­مجموعه چند اشکال وارد است. شدیدترین آن­ها همان­طور که Breiman در سال 1996 مورد بررسی قرار داد، عدم پایایی (stability) است. منظور از پایایی در این زمینه، این است که با تغییر اندک در متغیرهای پیش­بینی­کننده، در انتخاب بهترین زیرمجموعه تغییر زیادی صورت نگیرد. دیگر این­که زمانی که تعداد متغیرها زیاد است از نظر محاسباتی غیر عملی است. انتخاب گام به گام (stepwise-selection) جانشین محاسباتی برای انتخاب بهترین زیر مجموعه است. معذلک، انتخاب گام به گام بسیار متغیر است و اغلب اوقات به جواب بهینه­ی موضعی می­انجامد. به علاوه همان­طور که Fan و Li در سال 2001 و هم­چنین Shen و Ye در سال 2002 مورد بررسی قراردادند، این دستورالعمل­های انتخاب، خطای تصادفی را در مرحله­ی انتخاب متغیر در نظر نمی­گیرند.برای انجام انتخاب متغیر، تاوان­های (penalties) گوناگونی معرفی شده­اند. تاوان  که در LASSO مورد استفاده قرار می­گیرد، توسط Tibshirani در سال 1990 برای رسیدن به انتخاب متغیر معرفی شد. Fan و Li در سال 2001 یک روش متحد از طریق رگرسیون کمترین مربعات غیر مقعر، پیشنهاد کردند که به­طور همزمان عمل انتخاب متغیر و برآورد پارامترها را انجام می­دهد. این روش، جواب تنک (sparse) تولید می­کند، پایایی انتخاب متغیر را تضمین می­کند، و برآوردهای نااریب برای ضرائب بزرگ ارائه می­دهد. منظور از جواب تنک، ارائه برآورد صفر برای ضرائبی است که در واقعیت، تأثیر­گذار نیستند. این سه خاصیت پسندیده یک تاوان خوب است که توسط Fan  و Li در سال 2001 مورد بررسی قرار گرفت. یک نمونه از تاوان غیر محدب، تابع انحراف قدرمطلق به طور هموار بریده شده (smoothly clipped absolute deviation) (SCAD) است که اولین بار توسط Fan در سال 1997 معرفی شد، و سپس توسط Fan و Li در سال 2001 مورد مطالعه بیشتر قرار گرفت تا خواص پیش­گویی (oracle properties) آن در زمینه درستنمایی تاوانیده (penalized likelihood) نشان داده شود. پس از آن، یک سری مقالات توسط Fan و Li در سال 2002 و 2004، Fan و Peng در سال 2004، Hunter و Li در سال 2005  نوشته شده و خواص دیگر آن مورد مطالعه قرار گرفته و الگوریتم­های جدیدی ارائه شده است.Zou در سال 2006 با به کار بردن وزن­های انطباقی برای تاوانیدن ضرائب مختلف، در تاوان LASSO، تاوان LASSO انطباقی (adaptive-LASSO) را معرفی کرد و خواص پیش­گویی آن را نشان داد. نتایج مشابه در مقاله­هایی که توسط Yuan و Lin در سال 2007، Zhao و  Yu در سال 2006 نوشته شده است، ساخته شد. Zhang و Lu در سال 2007 LASSO انطباقی را در مدل­های خطر متناسب (proportional hazard models) مورد مطالعه قرار دادند. Candes و Tao در سال 2007 هم­چنین Fan  و Lv در سال 2006 انتخاب متغیر را در زمینه­هایی که از نظر بعدی بزرگتر از اندازه نمونه هستند، مورد مطالعه قرار دادند. Koenker در سال 2004 تاوان LASSO را برای مدل رگرسیون چندکی با اثرات آمیخته (mixed-effect quantile regression model)  برای داده­های طولی به کار برد. Li و Zhu در سال 2005 راه حلی برای رگرسیون چندکی  تاوانیده شده (  penalized quantile regression) ارائه کردند. Wang، Li و Jiang در سال 2007 رگرسیون کمترین انحراف قدر مطلق را با تاوان LASSO انطباقی در نظر گرفتند.در این پایان­­نامه به انتخاب متغیر در رگرسیون چندکی تاوانیده می­پردازیم. توجه داشته باشید تابع زیانی که در رگرسیون چندکی مورد استفاده قرار می­گیرد در مبدأ مشتق­پذیر نیست، در نتیجه خواص پیش­گویی کلی برای درستنمایی تاوانیده غیر مقعر که توسط Fan و Li در سال 2001 مورد مطالعه قرار گرفت، به طور مستقیم قابل اجرا نیست. در این پایان­نامه خواص پیش­گویی تاوان­های SCAD و LASSO انطباقی در زمینه­ی رگرسیون چندکی تاوانیده، که شامل رگرسیون کمترین انحراف قدرمطلق به عنوان یک حالت خاص می­باشد، تعمیم داده می­شود.

1-1- تاریخچه……………………………………………………………………………………………… 3

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فصل دوم: رگرسیون چندکی

مدل رگرسیون چندکی پارامتری

معمولاً برای تعیین رابطه­ی بین متغیر پاسخ  و متغیرهای پیش­بینی­کننده ، فرض می­شود که  توسط یک ترکیب خطی ساده  می­تواند مدل­بندی شود. به طور مشابه، مدل رگرسیونی چندکی ابتدائی، ارتباط خطی چندک­های شرطی  به ازای  را تعیین می­کند. به بیان دیگر رابطه­ی بین چندک­های %p100 متغیر  و متغیرهای پیش­بینی­کننده ، توسط  بیان می­شود.با توجه به مجموعه داده­های ، پارامتر  از طریق مینیمم کردنبرآورد می­شود. جواب صریح برای ضرائب رگرسیونی تحت این مدل رگرسیونی چندکی پارامتری وجود ندارد. چون check function در مبدا مشتق­پذیر نیست. Koenker and D’Orey در سال 1987 الگوریتمی برای مینیمم کردن این تابع ارائه کردند. برنامه­های مورد نیاز در S-PLUS و R موجود می­باشد. در R دستور مورد نظر rq، rqs و rq.process و package مورد نظر، quantreg می­باشد.تئوری کلاسیک، فقط برای مدل­بندی امیدهای شرطی به کار می رود. در حالی که نیاز، آمار را به سوی استفاده و کاربرد رگرسیون چندکی پیش برد. رگرسیون چندکی به صورت گسترده در زمینه­های کاربردی مانند پزشکی، آنالیز بقا، آمار مالی و اقتصادی، اقتصاد و … به کار برده می شود. مدل­های رگرسیون چندکی پارامتری، نیمه پارامتری و ناپارامتری سالهاست که معرفی شده­اند و به صورت گسترده مورد استفاده قرار می­گیرند و در حال پیشرفت و بهبود روش­ها و الگوریتم­ها می­باشند.

2-1- چندک­ها و چندک­های شرطی ……………………………………………………………………….. 7

2-2- از رگرسیون میانگین تا رگرسیون چندکی ………………………………………………………… 8

2-3- از برآورد کمترین مربعات تا check function ….ا………………………………………………… 12

2-4- از توزیع­های شرطی چوله تا رگرسیون چندکی …………………………………………………. 13

2-5- روش برآوردیابی …………………………………………………………………………………….. 15

فصل سوم: رگرسیون چندکی خطی تاوانیده

برای توابعی به فرم خطی، تعداد زیادی تابع تاوان وجود دارد: تاوان  (که به تاوان آنتروپی نیز معروف است) توسط Breiman در سال 1996 در روش انتخاب بهترین زیر­مجموعه مورد استفاده قرار گرفت. تاوان  (LASSO) که توسط Tibshirani در سال 1996 مورد مطالعه قرار گرفت. تاوان  که در رگرسیون ستیغی (ridge) مورد استفاده قرار می­گیرد و توسط Horel و Kennard در سال 1988 مورد مطالعه قرار گرفت. ترکیب تاوان­های  و  که توسط Liu و Wu در سال 2007 مورد بررسی قرار گرفت. تاوان­های ( )  در رگرسیون پلی (bridge regression) که توسط Frank و Freidman در سال 1993 مورد بررسی قرار گرفتند.Fan و Li در سال 2001 استدلال کردند که یک تاوان خوب باید سه خاصیت نااریبی برای ضرائب بزرگ، تنکی و پیوستگی را در برآورد خود داشته باشد. متأسفانه هیچ کدام از خانواده تاوان­های  این سه خاصیت را به طور همزمان ندارند. اما Fan و Li در سال 2001 نشان دادند که تاوان SCAD در زمینه­ی درستنمایی تاوانیده این خواص را دارد. یک تاوان دیگر که جزء دسته­بندی آخر است، تاوان LASSO انطباقی است که توسط Zou در سال 2006 مورد بررسی قرار گرفت.

3-1- رگرسیون چندکی خطی تاوانیده ………………………………………………………………… 18

3-2- رگرسیون چندکی خطی تاوانیده با تاوانLASSO……..ا……………………………………….. 20

3-3- رگرسیون چندکی خطی تاوانیده با تاوان LASSO انطباقی ……………………………………. 20

3-4- رگرسیون چندکی خطی تاوانیده با تاوان SCAD ……..ا………………………………………… 21

فصل چهارم: خواص مجانبی

در این بخش خواص پیش­گویی رگرسیون چندکی SCAD تاوانیده و رگرسیون چندکی  LASSO انطباقی تاوانیده  ثابت می­شود. فرض می­شود که داده­های  شامل  مشاهده از مدل خطی زیر است:جائی که  است، و دارای شرط (i) زیر می­باشد. ،  و  و  است. ضرائب رگرسیونی حقیقی به صورت  و   و در نتیجه  می­باشند، به طوری که هیچ یک از مؤلفه­های ، صفر نباشند. این مطلب به این معنی است که s متغییر پیش­گویی اول مهم هستند در حالی که p-sتای باقی­مانده، متغیرهای نوفه (noise variables) هستند.برای نتایج تئوری، شرطهای تخصصی زیر را می­گذاریم

  • فرض خطا: خطاهای رگرسیونی مستقل و هم­توزیع هستند. هم­چنین دارای چندک ام صفر و چگالی مثبت و پیوسته ، اطراف صفر می­باشند.
  • طرح  i=1,2,…,n یک دنباله­ی تعیینی (deterministic sequence) است به طوری که یک ماتریس مثبت قطعی ∑ وجود دارد به قسمی که=∑     .

زیر ماتریس s-بعدی از ∑ که در بالا و سمت چپ قرار دارد با  و زیر ماتریس (d-s)-بعدی از آن که در پایین و سمت راست قرار دارد با   مشخص می­کنیم.

4-1- خواص مجانبی ……………………………………………………………………………………… 24

4-2- خواص مجانبی تاوان SCAD ……..ا………………………………………………………………… 25

4-3- خواص مجانبی تاوان LASSO انطباقی …………………………………………………………….. 26

4-4- خطاهای تصادفی مستقل و ناهم­توزیع ……………………………………………………………. 27

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فصل پنجم: مثال کاربردی

در این فصل، یک مثال برای نشان دادن عملکرد انتخاب متغیر، تحت یک مدل رگرسیونی خاص، بیان می­کنیم. در این مثال، جمله­ی ثابت در مدل رگرسیونی، در نظر گرفته شده است.داده­ها از مدل خطی زیر تولید می­شود:

جائی که ( 0 ،0 ،0 ،2 ،0 ،0 ،5/1، 3)  است. مؤلفه­های  و  دارای توزیع نرمال هستند. همبستگی بین  و ،  است که ، 5/0 در نظر گرفته شده است. این مدل توسط نویسندگان بسیاری در نظر گرفته شده است. Tibshirani در سال 1996، Fan و Li در سال 2001 و Zou در سال 2006 از جمله نویسندگانی هستند که این مدل را در نظر گرفته­اند.مثال. برای مقایسه عملکرد انتخاب متغیر تاوان­های ، SCAD و adaptive-  داده­هایی از مدل (1-5) تولید می­کنیم. نتایج شبیه­سازی در جدول­های 1 تا 6 آورده شده است.در هر روش، شبیه­سازی برای سه مقدار λ برابر با 1، 8 و 20 انجام شده است. در هر روش و برای هر مقدار λ، 10000 بار از مدل (1-5) با  برابر با 1، 100 داده و 10000 بار برای  برابر با 3، 100 داده  شبیه­سازی شده است.در تاوان SCAD، مقدار پارامتر a، همان­طور که Fan و Li پیشنهاد کردند 7/3 در نظر گرفته شده است. در تاوان LASSO انطباقی مقدار ، 1 در نظر گرفته شده است.تعداد ضرائب صفر به صورت زیر تعیین می­شود:یک برآوردگر صفر تلقی می­شود اگر مقدار آن به صورت قدرمطلق، کمتر از  باشد.میزان خطا، میانگین check loss است و check loss به صورت  در نظر گرفته شده است.منظور از ضرائب صفر صحیح، ضرائبی است که برآورد آن­ها صفر بدست آمده است و در واقعیت نیز مقدار آن­ها صفر می­باشد. ضرائب صفر غلط ضرائبی هستند که برآورد آن­ها صفر بدست آمده است ولی در واقعیت مقدار آن­ها صفر نمی­باشد.توجه کنید که در جدول­های 1 تا 6، اعدادی که در هر ستون در پرانتز آورده شده است، انحراف معیار می­باشد.

مثال …………………………………………………………………………………………………….. 30

فهرست منابع ومآخذ ………………………………………………………………………………… 35

پیوست 1 ………………………………………………………………………………………………. 40

پیوست 2 ………………………………………………………………………………………………. 49

پیوست 3 ………………………………………………………………………………………………. 54

پیوست 4 ………………………………………………………………………………………………. 55

Abstract

 After its inception in Koenker and Bassett (1978), quantile regression has become an important and widely used technique to study the whole conditional distribution of a response variable and grown into an important tool of applied statistics over the last three decades.Variable selection is fundamental to high-dimensional statistical modeling. Many approaches in use are stepwise selection procedures, which can be computationally expensive and ignore stochastic errors in the variable selection process. In this work, we focus on the variable selection aspect of penalized quantile regression. Under some mild conditions, we demonstrate the oracle properties of the SCAD and adaptive-LASSO penalized quantile regression.

 



بلافاصله بعد از پرداخت به ایمیلی که در مرحله بعد وارد میکنید ارسال میشود.


فایل pdf غیر قابل ویرایش

قیمت25000تومان

خرید فایل word

قیمت35000تومان