انتخاب صفحه

فهرست مطالب

فصل اول مقدمه و کلیات تحقیق

کشف دانش و داده کاوی یک حوزه جدید میان رشته ای و در حال رشد است که حوزه های مختلفی همچون پایگاه داده، آمار، یادگیری ماشین و سایر زمینه های مرتبط را با هم تلفیق کرده تا اطلاعات و دانش ارزشمند نهفته در حجم بزرگی از داده ها را استخراج کند.هدف کشف دانش و داده کاوی یافتن الگوها در پایگاه داده است که در میان حجم عظیمی از داده ها مخفی هستند]1[ .کشف دانش شامل مراحل متعددی است که در این تحقیق به مرحله پیش پردازش توجه می­کنیم.

مرحله آماده سازی داده ها مهم ترین و زمانبرترین مرحله در پروژه های داده کاوی است.از آنجا که داده ها در این پروژه ها ورودی پروژه هستند هر قدر این ورودی دقیق تر باشد، خروجی کار دقیق تر خواهد بود.یعنی ما از پدیده “ورودی نامناسب، خروجی نامناسب ” دور می­شویم]1[.داده های خام معمولا دچار مشکلاتی مانند نویز، داده پرت، تغییرات در نمونه برداری هستند و استفاده از آنها به همین صورت موجب تضعیف نتایج مورد انتظار میشود.بنابراین باید از روشی برای بهبود نتایج استفاده کرد.پیش پردازش داده ها جهت بهبود کیفیت داده های واقعی برای داده کاوی لازم است.بنابراین پردازش اولیه ای مورد نیاز است تا مقادیر مفقوده، انحرافات و مسائلی از  این دست را در داده های اولیه بیابد. پیش پردازش داده ها شامل همه تبدیلاتی است که بر روی داده های خام صورت می­گیرد وآنها را به صورتی در می­آورد که برای پردازشهای بعدی نظیر استفاده در دسته بندی و خوشه بندی، ساده تر و موثرتر می­سازد.در حال حاضر سازمانها نیاز دارند تا بتوانند داده ها را به صورت کاراتر دسته بندی کنند و از تحلیل نتایج آن برای بهبود روند پیشرفت کسب و کار استفاده نمایند.ممکن است که داده های در دسترس ، داده هایی مبهم و مغشوش باشند و یا کلاس های داده نامتوازن باشند. بنابراین نیاز به پیش پردازش دقیق داده ها رو به افزایش است. برای پاسخ به این نیاز رو به افزایش ، افراد  همواره سعی در ارائه روش های نوین و موثرتری دارند.

1-2بیان مساله

هرچند که روشهای مختلفی برای پیش پردازش داده ها موجود است ولی عملکرد و دقت این روش ها متفاوت است و تلاش در جهت ارائه روشی کارامد امری ضروری است.با توجه به اهمیت داده ها در جهان کنونی و افزایش حجم داده ها مساله پیش پردازش مناسب داده ها، بخصوص داده های نامتوازن یک چالش به نظر می­رسد.اغلب روش های موجود در پیش پردازش داده های ناتوازن به سمت کلاس اکثریت تمایل دارند و این امر باعث می شود که داده های کلاس اقلیت به صورت نویز در نظر گرفته شود.همانطور که پیش از این نیز گفته شد برای دست یابی به نتایج مطلوب در داده کاوی نیاز به پیش پردازش داده ها داریم.میتوان ادعا کرد که اگر مرحله آماده سازی داده ها به خوبی صورت نپذیرد، نتایجی بدست می­آید که نمی­تواند مورد استفاده قرار گیرد و ممکن است که هزینه و زمان به کار رفته برای دست یابی به نتیجه موثر هدر رود و نتایج حاصل به دلیل عدم پیش پردازش مناسب داده  غیر قابل استفاده و نادرست باشد.اخیراً مشکل نامتوازن بودن کلاسها مورد توجه محققان در زمینه ی داده کاوی قرار گرفته است. در موارد متعددی کلاسی که از نقطه نظر دامنه ی کاربردی اهمیت زیادی دارد(کلاس اصلی) شامل تعداد حالات کمتری نسبت به کلاسی است که کلاس اکثریت می­باشد. این مجموعه ی داده ها نامتوازن نامیده می­شود. رویکرد سنتی داده کاوی توانایی خوبی برای پیش بینی نمونه های اقلیت که مورد توجه است ندارند. متأسفانه در اکثر موارد داده های واقعی دارای این خصوصیت هستند. به عنوان مثال در تشخیص بیماری­های نادر، حملات شبکه، متنکاوی و … معمولاً توزیع داده­ها نامتوازن می باشد.در واقع مساله این است که چگونه میتوان داده های نامتوازن را به گونه ای پیش پردازش کرد که در خوشه های مناسب و درست طبقه بندی شوند.بنابراین مساله این تحقیق ارائه روشی جهت پیش پردازش داده های نا متوازن است به گونه ای که کارایی و دقت آن در مقایسه با روش های دیگر بیشتر باشد.در روش ارائه شده در این تحقیق برای ارتقای روش ماشین بردار پشتیبان از تکنیک حداقل مربعات با متر اقلیدسی استفاده نمودیم.این روش بهبود یافته را M-SVM می­نامیم.بنابراین مساله را بدین شکل طرح می نماییم، چگونه می­توان در روش پیش پردازش داده های نامتوازن به دقت بالاتری دست یافت و از  پیش پردازش صحیح داده  برای دست یابی به نتایج صحیح در حوزه کاربردی استفاده نمود.از انجا که داده های متفاوتی وجود دارد ما پیش پردازش بر روی مجموعه داده های نامتوازن را انتحاب کردیم

1-1مقدمه…………………………………………………………………………………………………………. 2

1-2بیان مساله……………………………………………………………………………………………………. 2

1-3 اهداف تحقیق……………………………………………………………………………………………… 4

1-4 پرسش های اصلی تحقیق………………………………………………………………………………. 4

1-5فرضیه های تحقیق…………………………………………………………………………………………. 4

1-6 نوآوری تحقیق…………………………………………………………………………………………….. 5

1-7 تعریف واژگان کلیدی……………………………………………………………………………………. 5

1-8 ساختار پایان نامه………………………………………………………………………………………….. 9

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فصل دوم ادبیات و پیشینه تحقیق

مدل ساخته شده در روش دسته بندی برای داده های استفاده شده در ساخت آن و یا داده های شبیه به آنها درست جواب می­دهد، اما همه داده ها شبیه به داده های آموزش نیستند و حتی در برخی موارد فضای ناشناخته ای وجود دارد که در مورد داده های آن فضا، هیچگونه اطلاعاتی در دسترس نیست.در هر صورت ناچار هستیم مدل را بر اساس داده های موجود بسازیم ولی باید سعی شود تا خطا و یا ریسک مدل را کم کرد]1[.

2-6-1 ارزیابی صحت روشهای دسته بندی

فرض کنید با استفاده از داده های گذشته، یک مدل دسته بندی یا پیش بینی را آموزش داده و می­خواهیم رفتار آینده متغیر هدف را بررسی کنیم.سوال اساسی این است که صحت روش دسته بندی یا پیش بینی مورد استفاده چه اندازه است و اینکه چگونه می­توان صحت دو یا چند روش دسته بندی با پیش بینی را با هم مقایسه کرد؟در ادامه چگونگی محاسبه صحت روش های دسته بندی به اختصار بیان می­شود.

میزان صحت یک روش دسته بندی بر روی مجموعه داده های آموزشی، درصد مشاهداتی از مجموعه آموزشی است که به درستی توسط روش مورد استفاده، دسته بندی شده اند.در ادبیات تشخیص الگو، به این شاخص خاص “نرخ تشخیص” گفته می­شود که نشان دهنده کیفیت تشخیص نمونه های دسته های متفاوت است.برای محاسبه این شاخص از داده های آزمون استفاده می­شود.در اینجا می­توان نرخ خطا یا  دسته ­بندی نادرست را بر اساس شاخص صحت محاسبه کرد.اگر میزان صحت یک روش دسته بندی را با ACC (m ) نشان دهیم، میزان خطای آن برابر با 1-ACC ( m ) خواهد بود.از طرف دیگر خطایی که بر اساس داده­های آموزشی(به جای داده­های آزمون) محاسبه می­شود خطای ” بازجانشانی”[1] نامیده می­شود.این خطا تخمین خوشبینانه ای از خطای حقیقی است.ماتریس اغتشاش ابزاری مفید برای تحلیل چگونگی عملکرد روش دسته بندی در تشخیص داده­ها یا مشاهدات دسته های مختلف است.اگر داده ها در m دسته قرار گرفته باشند، یک ماتریس دسته بندی، جدولی با حداقل اندازه m * m است. عنصر Cijدر i این سطر و j امین ستون، نشان دهنده تعداد مشاهداتی از دسته i است که توسط روش دسته بندی به عنوان دسته j تشخیص داده شده است.برای اینکه یک روش دسته بندی، صحت بالایی داشته باشد، حالت ایده ال آن است که اکثر داده های مرتبط به مشاهدات بر روی قطر اصلی ماتریس قرار گرفته باشند و بقیه مقادیر ماتریس صفر و یا نزدیک به صفر باشند.ماتریس ممکن است سطر یا ستون اضافی داشته باشد که نشان دهنده مجموع عناصر یا درصد شناخت است.به عنوان مثال اگر مشتریان به دو دسته تقسیم شوند، مشتریانی که کامپیوتر می­خرند و آنهایی که نمی­خرند.از انجا که در این مثال دو دسته تعریف شده است، ماتریس 2*2 است.عنصر(1،2) این ماتریس تعداد عناصری که برچسب دسته آنها “Yes ” بوده ولی به نادرستی در کلاس “No” ها دسته بندی شده اند را نشان می­دهد و همینطور عنصر(2،1) نیز تعداد عناصری که برچسب دسته آنها “No ” است ولی به نادرستی در دسته “Yes” ها دسته بندی شده را نشان می­دهد.در این مثال از مفاهیمی استفاده شده است که به توضیح آنها می­پردازیم. عنصر “مثبت درست”[2] به مشاهداتی از دسته C1 دلالت دارد که توسط روش دسته بندی به درستی تشخیص داده شده است.عنصر “منفی درست” [3]به مشاهداتی از دسته C2 دلالت دارد که توسط روش دسته بندی به درستی تشخیص داده شده است.به طور مشابه “منفی غلط”[4] مشاهداتی از دسته C1 است که توسط روش دسته بندی به نادرستی در دسته C2 قرار گرفته و “مثبت غلط”[5]مشاهداتی از دسته C2 است که توسط روش دسته بندی به نادرستی در دسته C1قرار گرفته است.

 

2-1 مقدمه………………………………………………………………………………………………………. 11

2-2 مفاهیم داده کاوی……………………………………………………………………………………….. 11

2-2-1 تعاریف داده کاوی………………………………………………………………………………… 11

2-2-2 فرایند کشف دانش………………………………………………………………………………. 12

2-2-3 حوزه ها و عملکردهای داده کاوی…………………………………………………………….. 12

2-3  کاربردهای داده کاوی و کشف دانش……………………………………………………………… 14

2-4 چالش هایی برای KDD…………..ا……………………………………………………………………. 15

2-5 پیش پردازش و آماده سازی داده ها :………………………………………………………………. 16

2-5-1اجزای اصلی پیش پردازش داده ها……………………………………………………………. 17

2-5-1-1 پاکسازی داده ها…………………………………………………………………………… 18

2-5-1-2یکپارچه سازی داده ها…………………………………………………………………….. 19

2-5-1-3 تبدیل داده ها………………………………………………………………………………. 20

2-5-1-3-1هموار سازی………………………………………………………………………….. 20

2-5-1-3-2 تجمیع………………………………………………………………………………… 20

2-5-1-3-3 تعمیم………………………………………………………………………………….. 20

2-5-1-3-4 ساخت ویژگی………………………………………………………………………. 21

2-5-1-3-5 نرمال سازی………………………………………………………………………….. 21

2-5-1-4 کاهش داده ها……………………………………………………………………………… 21

2-5-1-4-1 تجمیع مکعبی داده…………………………………………………………………. 22

2-5-1-4-2 انتخاب زیر مجموعه مشخصه ها……………………………………………….. 23

2-5-1-4-3 کاهش تعدد نقاط…………………………………………………………………… 23

2-5-1-5 تصویر کردن برای کاهش بعد………………………………………………………….. 24

2-6 روش های ارزیابی دسته بندی………………………………………………………………….. 25

2-6-1 ارزیابی صحت روشهای دسته بندی………………………………………………………….. 27

2-7  تکنیک حداقل مربعات……………………………………………………………………………….. 30

2-7-1 تقریب کمترین مربعات گسسته چند جمله ای……………………………………………. 31

2-8 ماشین بردار پشتیبان………………………………………………………………………………. 32

2-8-1مقدمه……………………………………………………………………………………………….. 32

2-8-2دلایل استفاده از SVM…..ا……………………………………………………………………….. 34

2-8-3 کاربردهای SVM……ا…………………………………………………………………………….. 35

2-8-4 مزایا و معایب SVM……ا…………………………………………………………………………. 35

2-8-5 تعاریف کلی……………………………………………………………………………………….. 36

2-8-5-1تابع تصمیم مسائل دو کلاسی……………………………………………………………. 36

2-8-5-2 تعیین تابع تصمیم(ابر صفحه جداکننده)………………………………………………. 38

2-8-5-3 بعد VC………ا……………………………………………………………………………… 39

2-8-5-4حداقل سازی ریسک تجربی…………………………………………………………….. 40

2-8-5-5حداقل سازی ریسک ساختاری…………………………………………………………. 42

2-8-6 ماشین بردار پشتیبان طبقه بندی کننده خطی با داده های جدا شدنی به طور خطی 43

2-8-7ماشین بردار پشتیبان طبقه بندی کننده خطی با داده های جدا نشدنی به طور خطی ( 48

2-8-8 ماشین بردار پشتیبان غیر خطی……………………………………………………………… 51

2-8-9 انواع کرنل ها……………………………………………………………………………………… 54

2-8-9-1 کرنل چند جمله ای……………………………………………………………………….. 54

2-8-9-2 کرنل های شبکه عصبی………………………………………………………………….. 55

2-8-9-3  کرنل های گوسی…………………………………………………………………………. 55

2-9 تکنیک های پیش پردازش نامتوازن…………………………………………………………………. 57

2-9-1 ماشین بردار پشتیبان و مشکل عدم توازن کلاس…………………………………………. 58

2-9-1-1  عیب مشکل بهینه سازی با ناحیه مرزی نرم………………………………………… 58

2-9-1-2 نسبت بردار پشتیبان نامتوازن……………………………………………………………. 59

2-9-2  روشهای یادگیری عدم توازن خارجی برای SVM (روشهای پیش پردازش داده)          60

2-9-2-1  روشهای نمونه برداری دوباره………………………………………………………….. 60

2-9-2-1-1زیر نمونه برداری…………………………………………………………………….. 60

2-9-2-1-2بیش نمونه برداری…………………………………………………………………… 61

2-9-2-1-3 SCM…………………………………………………………………………………… 62

2-9-2-1-4 نمونه برداری پیشرفته……………………………………………………………… 63

2-9-2-1-5 تکنیک بیش نمونه برداری اقلیت مصنوعی……………………………………. 63

2-9-2-1-6 نزدیک ترین همسایه فشرده(CNN)…………………………………………….. 64

2-9-2-1-7 نزدیک ترین همسایه تغییر یافته(ENN)…………………………………………. 66

2-9-2-1-8 Tomek-Link………….ا…………………………………………………………….. 66

2-9-2-2 روشهای یادگیری جمعی……………………………………………………………… 67

2-9-2-2-1الگوریتم آموزشی Bagging………..ا………………………………………………. 68

2-9-2-2-2 الگوریتم آموزشی Boosting…….ا……………………………………………….. 69

2-9-3 روشهای یادگیری عدم تعادل داخلی برای ماشین بردار پشتیبان ………………….  70

2-9-3-1 هزینه خطای متفاوت……………………………………………………………………… 71

2-9-3-2 یادگیری یک کلاس………………………………………………………………………. 72

2-9-3-3zSVM……..ا………………………………………………………………………………….. 72

2-9-3-4 روشهای اصلاح کرنل……………………………………………………………………. 73

2-9-3-5 یادگیری فعال………………………………………………………………………………. 74

2-9-3-6 روش های ترکیبی………………………………………………………………………… 75

فصل سوم:روش تحقیق

الگوریتم های متفاوتی برای بهبود SVM و بهبود نتایج ارائه شده است. در فصل قبل ماشین بردار پشتیبان و همچنین مفاهیم فازی و تکنیک حداقل مربعات را شرح دادیم.در این فصل به بررسی الگوریتم های ماشین بردار پشتیبان حداقل مربعات[1](LS-SVM) و ماشین بردار پشتیبان فازی[2](FSVM) می­پردازیم.

3-2 ماشین بردار پشتیبان فازی برای یادگیری عدم توازن کلاس[3]

مطالعات به خوبی نشان می دهد که SVM علاوه بر عدم تعادل، به نویز و داده های پرت موجود در مجموعه داده نیز حساس است.بنابراین می توان ادعا کرد که اگرچه روش های یادگیری عدم تعادل موجود می­توانند باعث کاهش حساسیت الگوریتم SVM به عدم توازن شوند، اما این الگوریتم هنوز به نویز و داده های پرت موجود در مجموعه داده حساس است که هنوز باعث تولید مدل هایی با بهینگی کمتر از حد مطلوب می­شود.در واقع برخی از روش های یادگیری عدم تعادل مانند بیش نمونه برداری تصادفی و SMOTE، با تکثیر نمونه های نویزی و داده های پرت موجود، می­توانند مشکل را بدتر کنند.روش ماشین بردار پشتیبان فازی برای یادگیری عدم توازن کلاس(FSVM-CIL)، یک روش بهبود یافته ازSVM  است که مسئولیت رسیدگی به مشکل عدم توازن کلاس و همچنین داده های نویزی و پرت را دارد]34[.اکنون این روش را با جزئیات بیشتر مورد بررسی قرار می­دهیم.

3-2-1 روش SVMFuzzy

در الگوریتم SVM استاندارد، اهمیت تمام نقاط داده یکسان در نظر گرفته می­شود و در تابع هدف به همه انها یک هزینه طبقه بندی اشتباه یکسان اختصاص داده می­شود که این امر می­تواند در مجموعه داده های نامتوازن، منجر به تولید مدل هایی با بهینگی کمتر از حد مطلوب شود.همچنین این امر(اختصاص اهمیت یکسان به تمام نقاط داده)، می­تواند باعث حساسیت SVM به نویز و     داده­های پرت نیز شود.حضور داده های پرت و نمونه های نویزی(به خصوص در اطراف منطقه مرزی کلاس) می­تواند موقعیت و جهت ابر صفحه جدا کننده را تحت تاثیرقرار دهد و منجر به تولید مدل هایی با بهینگی کمتر از حد مطلوب شود.

به منظور کاهش حساسیت SVM نسبت به نمونه های نویزی و داده های پرت، تکنیک FSVM ارائه شده است]34[.در این روش، به نمونه های مختلف، مقادیر عضویت فازی متفاوتmi،(وزن) اختصاص داده می­شود که این مقادیر نشان دهنده اهمیت انها در کلاس های خودشان است.mi>0 است.بنابراین به نمونه های مهم تر مقادیر بالاتر ، و به نمونه هایی با اهمیت کمتر(مانند نویز و داده های پرت)، مقادیر پایین تر اختصاص داده می­شود.

در این فرمول، درجه عضویت   نیز که مربوط به داده  است،در مقدار هزینه خطای مربوطه نقش دارد و هرچه مقدار  کمتر باشد، تاثیر متغیر کمبود  در تابع هدف کاهش        می­یابد.اگر C را به عنوان هزینه اختصاص داده شده برای طبقه بندی اشتباه(خطا) درنظر بگیریم، اکنون دیگر هزینه طبقه بندی اشتباه برای هر نقطه داده متفاوت خواهد بود.زیرا متغیر  اضافه شده است و این هزینه از طریق  بدست می­آید.در واقع این هزینه، برمبنای اهمیت هر نمونه در کلاس خودش است و به داده های مهم تر، هزینه های بیشتری اختصاص داده می­شود.بنابراین الگوریتم FSVM می­تواند از طریق به حداکثر رساندن حاشیه، ابرصفحه جداکننده قوی[4] تری را پیدا کند. به حداکثر رساندن حاشیه به این طریق صورت می­پذیرد که ما مقداری طبقه بندی اشتباه برای نمونه هایی با اهمیت کمتر( مانند نویز و داده پرت) را بپذیریم.

 در حالی که در SVM استاندارد این حد برابر C است.با حل مشکل دوگان در فرمول (3-2)، w و b میتوانند به همان روشی که در SVM استاندارد اعمال می­شود، بهبود یابند. از تابع تصمیم گیری SVM که در فرمول (3-2) بیان شد، می­توان برای روش­های FSVM نیز استفاده کرد.

3-2-2متد FSVM-CIL

اگرچه روش های CIL [5]موجود که قبلا مورد بحث قرار گرفت می­تواند بر مشکل عدم توازن غلبه کند اما  این روش ها هنوز به نویز و داده پرت حساس هستند. از سوی دیگر اگرچه روش FSVM می­تواند بر مشکل نویز غلبه کند اما از مشکل عدم توازن رنج می­برد زیرا در این الگوریتم برای کاهش حساسیت به عدم توازن، هیچ تغییری در مقایسه با الگوریتم SVM اصلی صورت نگرفته است و هزینه هایی که برای طبقه بندی اشتباه اختصاص داده می­شود، عدم توازن کلاس را در نظر نمی­گیرد. در روش FSVM-CIL، روش FSVM استاندارد با روش DEC ترکیب می­شود.این ترکیب باعث بهبود روش FSVM استاندارد می­شود.در این روش، مقادیر عضویت به گونه ای انتخاب می­شوند که دو هدف زیر ارضا شوند:

  1. برای خنثی کردن تاثیر عدم توازن کلاس
  2. برای بازتاب اهمیت داخل کلاسی نمونه های آموزشی مختلف، تا تاثیر داده های پرت و نویز خنثی شود.

درجه عضویت داده مثبت ، با  و درجه عضویت داده منفی ، با  در کلاس­های خودشان نمایش داده می­شود.در روش FSVM-CIL ارائه شده، تابع های عضویت به صورت زیر بیان می­شود :

 مقداری بین صفر و یک را تولید می­کند که این مقدار نشان دهنده اهمیت xi در کلاس خود است. و   بازتابی از عدم توازن کلاس است، .به طوری که = 1 و  .r نشان دهنده نسبت کلاس اقلیت ب.ه اکثریت است( > ).(از روشDEC زمانی می­توان نتایج بهینه بدست آورد که با نسبت کلاس اقلیت به اکثریت برابر باشد).

با توجه به مقادیر اختصاص داده شده ، هزینه طبقه بندی اشتباه برای داده کلاس مثبت برابر با  mi+C است که مقدار mi+ در فاصله ]0،1[ است.درحالی که هزینه طبقه بندی اشتباه برای داده کلاس منفی برابر با  miC است. مقدار mi  در فاصله [0,r] است و r<1 است.تابع  اهمیت داخلی کلاس برای نمونه اموزشی را تعیین می­کند.برای تعریف این تابع، متدهای زیر در نظر گرفته شده است]34[.

  1. بر مبنای فاصله نمونه از مرکز کلاس خود

در این روش،  با توجه بهdicen تعریف شده است و فاصله بین xi و مرکز کلاسی که xi در ان قرار دارد را نشان می­دهد. نمونه هایی که به مرکز کلاس نزدیک تر باشند نمونه های مفیدتری هستند و مقدار  بیشتری به آنها اختصاص داده می­شود.در حالی که با نمونه های دور از مرکز کلاس به عنوان نویز و داده پرت برخورد شده و مقدار کمتری به انها اختصاص داده می­شود.

3-1مقدمه………………………………………………………………………………………………….. 76

3-2 ماشین بردار پشتیبان فازی برای یادگیری عدم توازن کلاس…………………………………… 77

3-2-1 روش SVMFuzzy….ا……………………………………………………………………………. 77

3-2-2متد FSVM-CIL…ا……………………………………………………………………………….. 79

3-3 ماشین بردار پشتیبان حداقل مربعات (LS-SVM)………………………………………………… 82

3-4 الگوریتم پیشنهادی………………………………………………………………………………….. 87

فصل چهارم:محاسبات و یافته های تحقیق

در این پایان نامه برای بهبود مساله شناخت الگو روش پیشنهادی با روش های متفاوتی مقایسه شده است.با وجود اینکه ماشین بردار پشتیبان کارایی تعمیم بهتری در مقایسه با تعداد زیادی الگوریتم­ های ماشین یادگیری دیگر دارد اما به علت حل QP دارای پیچیدگی محاسباتی بالایی است و نسبت به noise حساس است و زمانی که تعداد الگوهای یک کلاس بیشتر از اندازه تعداد الگوهای کلاس دیگر باشد در SVM مشکل ایجاد می­شود.

در این تحقیق از مجموعه داده های UCI استفاده شده است.جزییات این مجموعه داده ها در جدول 4-1 نشان داده شده است. Pos.نشان دهنده تعداد نمونه های مثبت کلاس، Neg. تعداد نمونه های منفی کلاس، Total برابر با تعداد کل نمونه ها، Imb.Ratioنسبت عدم توازن مثبت به منفی، Total classes تعداد کل کلاس ها و Positive class نشان دهنده این است که برای هر مجموعه داده کدام کلاس به عنوان کلاس مثبت انتخاب شده است.برای مجموعه داده هایی که چندین کلاسه هستند، نمونه هایی که متعلق به سایر کلاس ها هستند (به جز کلاسی که به عنوان کلاس مثبت انتخاب شده است)، به عنوان مجموعه داده منفی در نظر گرفته میشوند.

4-1 مقدمه…………………………………………………………………………………………………… 89

4-2  مجموعه داده ها……………………………………………………………………………………… 90

4-3 نتایج کارایی روش های مختلف بر روی مجموعه داده ها………………………………………… 90

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فصل پنجم:نتیجه گیری و پیشنهادات

5-1 جمع بندی و نتیجه گیری……………………………………………………………………………… 93

5-2 کارهای آتی………………………………………………………………………………………………. 95

منابع و مآخذ :……………………………………………………………………………………………… 96

چکیده انگلیسی…………………………………………………………………………………………….102

Abstract

We need data preprocessing to achieve desired results. Data preprocessing is one the important component in knowledge discovery. There are different methods to data preprocessing. One of them is support vector machine that provide good results. but some of them are not suitable for imbalanced data.Although existing knowledge discovery and data engineering techniques have shown great success in many real-world applications, the problem of learning from imbalanced data(the imbalanced learning problem is connected with the performance of learning algorithms in the presence of noise and severe class distribution skew).due to the inherent complex characteristics of imbalanced data sets, learning from such data requires new methods and algorithms.In this thesis we provide a review of different data preprocessing methods for imbalanced data. We try to present a efficient algorithm for achieve better results in data classification.



بلافاصله بعد از پرداخت به ایمیلی که در مرحله بعد وارد میکنید ارسال میشود.


فایل pdf غیر قابل ویرایش

قیمت25000تومان

خرید فایل word

قیمت35000تومان