فهرست مطالب

فصل 1 : مقدمه

پیدایش اینترنت و وب جهان گستر موجب شده است که در رابطه با هر موضوع قابل تصور، حجم بسیار زیادی از اطلاعات وجود داشته باشد که کاربران بتوانند با استفاده از آن نیاز اطلاعاتی خود را برطرف سازند. افزایش روز افزون اطلاعات باعث شد که مشکل سربار اطلاعات به وجود آید و کاربران به تنهایی قادر به برطرف کردن نیازهای خود نباشند. . زیرا کاربران مجبور بودند به صورت بر خط تمامی صفحات را جستجو کنند تا بتوانند آن قسمتی را که مورد نیازشان است پیدا کنند. به همین دلیل موتورهای جستجوگر به وجود آمدند تا کاربران بتوانند با استفاده از آنها بدون نیاز به بررسی تعداد زیادی از صفحات به اطلاعات مورد نظرشان دسترسی پیدا کنند.

1-2- موتورهای جستجوگر

به عبارت دیگر یک موتور جستجوگر وب سایتی است که می¬توان از آن برای پیدا کردن صفحات وب استفاده کرد. وقتی کاربر درخواست خود را در قالب کلمات کلیدی وارد موتور جستجوگر می¬کند موتور جستجوگر در بین بیلیون¬ها صفحه¬ وب جستجو کرده و به کاربر کمک می¬کند اطلاعاتی که به دنبال آن است را بیابد. با استفاده از این ابزار سرعت و دقت در جستجو بسیار افزایش یافت و کاربران توانستند به سادگی و در کمترین زمان به بهترین نتایج دست یابند.
انواع زیادی از موتورهای جستجوگر توسط کمپانی¬های مختلف ساخته شده است که معروف¬ترین آنها بینگ ، یاهو و گوگل می¬باشد (شکل شماره¬ 1).
هر موتور جستجوگر راه و روش خود را برای سازمان¬دهی اطلاعات دارد، پس نتیجه از یک موتور جستجوگر تا دیگری متفاوت خواهد بود.
موتورهای جستجوگر به دو دسته¬ کلی تقسیم می¬شوند : موتورهای جستجوگر پیمایشی و فهرست¬های تکمیل دستی . موتورهای جستجوگر ترکیبی نیز حاصل ترکیب دو نوع بالا می¬باشند. گونه¬ای جدید از موتورهای جستجوگر نیز تحت عنوان ابر جستجوگرها وجود دارد که در ادامه به طور خلاصه به توضیح هر کدام از این موارد خواهیم پرداخت.

1-2-1- موتورهای جستجوگر پیمایشی

این موتورهای جستجوگر، وب را پیمایش و اطلاعاتی را ذخیره می¬کنند. سپس کاربران از میان این اطلاعات آنچه را که می¬خواهند جستجو می¬کنند. اگر در صفحه¬ وب تغییراتی اعمال شود موتورهای جستجوگر پیمایشی به طور خودکار آنها را می¬یابند و تغییرات مذکور را در فهرست¬ها اعمال می¬کنند. نمونه¬هایی ازموتورهای جستجوگر پیمایشی گوگل و یاهو می-باشند.

1-2- 2- فهرست¬های تکمیل دستی

فهرست¬های تکمیل دستی وابسته به کاربرانی می¬باشد که آن را تکمیل می¬کنند. یا کاربر خودش صفحه¬ مورد نظر را به همراه توضیحی کوتاه در فهرست ثبت می¬کند یا این کار توسط ویراستارهایی که برای آن فهرست در نظر گرفته شده صورت می¬پذیرد. در این حالت عمل جستجو تنها بر روی توضیحات ثبت شده انجام می¬گیرد و اگر تغییری روی صفحه¬ وب به -وجود آید در فهرست تغییر به وجود نخواهد آمد. نمونه¬ای از فهرست¬های تکمیل دستی Open Directoryمی¬باشد .

1-2-3- موتورهای جستجوگر ترکیبی

این موتورهای جستجوگر نتایج حاصل از جستجوی هر دو نوع بالا را با هم ترکیب می-کنند و نشان می¬دهند. علاوه بر این می¬توانند برای نتایج یک نوع، اولویت قائل شوند. مثلا موتور جستجوی MSN اولویت را روی نتایج حاصل از فهرست¬های تکمیل دستی قرار می-دهد. ولی برای درخواست¬های پیچیده، نتایج حاصل از جستجوی پیمایشی را نیز بررسی می-کند.

1-2-4- ابر جستجوگرها

این نوع جدید از موتورهای جستجوگر نتایج حاصل از چند موتور جستجوگر را ترکیب نموده و نشان می¬دهد. به عبارتی دیگر درخواست کاربر را در چندین موتور جستجوگر جستجو کرده، سپس نتایج یافته شده را با هم ترکیب نموده و یک نتیجه¬ کلی در اختیار کاربر قرار می¬دهد. به عنوان مثال موتور جستجوگر dogpile نتایج حاصل از موتورهای جستجوگرGoogle ، Yahoo، MSN و ASK را با هم ترکیب می¬کند و به کاربر ارائه می-دهد.
1-3- سیستم¬های پیشنهادگر

مطالعات اخیر نشان داده¬اند که عمده¬ موتورهای جستجوگر با نرخ پایین موفقیت مواجه هستند. این نرخ با میزان دریافت نتایج مرتبط، نسبت به میانگین کاربران جستجو کننده تعیین می¬شود. به¬ عنوان مثال در یکی از مطالعات[1] بیش از 20000 درخواست جستجو بررسی شده و مشخص گردیده که به طور میانگین در 48% موارد، کاربر در نتایجی که به او ارائه شده حداقل یک مورد مرتبط با جستجویش که ارزش انتخاب داشته باشد پیدا می¬کند. به بیان دیگر در 52% موارد، کاربر هیچ کدام از مواردی را که به ¬عنوان نتیجه جستجو به او بازگشت داده می¬شود انتخاب نمی¬کند. البته این مشکل همان قدر که به موتور جستجوگر بستگی دارد به میزان دانش کاربر جستجو کننده در چگونگی نحوه¬ جستجو نیز بستگی دارد. زیرا درخواست جستجو ممکن است منجر به ابهام شود و به ندرت می¬تواند به روشنی نیاز کاربر جستجو کننده را بیان کند. در این مواقع کاربر با لیست نتیجه¬ای که نمی¬تواند نیاز اطلاعاتی او را برطرف سازد رو¬¬¬برو می¬شود. او در این شرایط معمولا درخواست خود را تعویض یا اصلاح می¬کند تا نتیجه¬ دلخواهش به او ارائه شود.
در [2] نشان داده است که 10% از درآمد کسانی که با اطلاعات کار می¬کنند به دلیل تلف شدن زمانشان در جستجو از بین می¬رود. همچنین در بدترین حالت درصد قابل توجهی از جستجو کننده¬ها ممکن است در پیدا کردن اطلاعاتی که مورد نیازشان است با شکست روبرو شوند. این مسائل نشان می¬دهد که جستجوی وب بسیار ناکارامدتر از آن است که انتظار می- رود. همچنین علاوه بر افزایش تعداد صفحات وب تعداد کاربران اینترنت نیز به شدت افزایش یافت. کاربران هم می¬خواستند نیاز اطلاعاتی¬شان را بر طرف کنند و هم مایل به تولید و اشتراک گذاری اطلاعات، علائق و نیازمندی¬های خود بودند. بنابراین شبکه¬های اجتماعی مانند Facebook و Twitter تاسیس شدند. همچنین سایت¬هایی مانند YouTube راه اندازی شد که محلی برای اشتراک¬ گذاری فیلم¬ها و مشاهده¬ فیلم¬های به اشتراک گذاشته می¬باشد. در این بین برای برطرف نمودن ناکارامدی¬های موتورهای جستجوگر و نیازهای کاربران سیستم¬های پیشنهادگر به وجود آمدند.

1-1- پیشگفتار………………………………………………………………………..2
1-2- موتورهای جستجوگر…………………………………………………………..2
1-2-1- موتورهای جستجوگر پیمایشی……………………………………………3
1-2- 2- فهرست¬های تکمیل دستی………………………………………………3
1-2-3- موتورهای جستجوگر ترکیبی……………………………………………….4
1-2-4- ابرجستجوگرها………………………………………………………………..4
1-3- سیستم¬های پیشنهادگر…………………………………………………….5
1-3-1- سیستم پیشنهادگر بر اساس فیلترینگ اشتراکی………………………7
1-3-2- سیستم پیشنهادگر بر اساس محتوا………………………………………8
1-3-3- سیستم پیشنهادگر بر اساس آمار گیری…………………………………8
1-3-4- سیستم پیشنهادگر بر اساس سود……………………………………….9
1-3-5- سیستم پیشنهادگر بر اساس دانش………………………………………9
1-3-6- سیستم پیشنهادگر ترکیبی…………………………………………………9
1-4- بررسی سایت MovieLens…..ا………………………………………………..10
1-5- اهداف پایان نامه…………………………………………………………………13
1-6- ساختار پایان نامه………………………………………………………………14

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فصل 2 : روش فیلترینگ اشتراکی

این پایان ¬نامه بر فیلترینگ اشتراکی که نوعی از سیستم¬های پیشنهادگر می¬با¬شد متمرکز شده است. این نوع از سیستم های پیشنهادگر نقش قابل توجهی را در پیدا کردن سلیقه¬ و علائق کاربر ایفا می¬کند. انگیزه¬ پیدایش فیلترینگ اشتراکی از اینجا به وجود آمد که مردم معمولا بهترین پیشنهادات را از کسانی می¬گیرند که سلیقه¬شان مشابه با خودشان است. این متد، کاربران با سلیقه¬ شبیه به هم را پیدا می¬کند و بر این اساس پیشنهادات را ارائه می¬دهد.

2-2- مروری بر کارهای انجام شده در این راستا

در [6] اولین سیستم پیشنهادگر رسمی که tapestry نامیده می¬شود ارا¬ئه شد. این یک سیستم برای مدیریت ایمیل بود و تصدیق کرد که یک لیست ایمیل ساده نمی¬تواند به تمام کاربرانی که علاقه¬مند به محتوای یک ایمیل هستند اطمینان دریافت آن را بدهد. بنا¬براین به کاربران اجازه¬ شرح پیام ایمیل¬ها را داد تا دیگران با ساختن پرسش بتوانند آنها را فیلتر کنند. اندکی بعد محققان دریافتند که این لیست ایمیل و فیلترینگ بر اساس محتوا در رابطه با نیازهای اطلاعاتی پیچیده¬ کاربر کافی نیست.¬ بنابراین، این عقیده مطرح شدکه سیستم با به کاربردن عامل انسان ارتقاء خواهد یافت. عبارت فیلترینگ اشتراکی به منظور توصیف اینکه چطور کاربران می¬توانند با تولید کردن بازخورد به فیلترینگ پیام ها کمک کنند¬ به ¬کار برده شد. این بازخورد شامل ارسال، دریافت پیام و … می¬باشد.
در [7]تحقیق در مورد فیلترینگ اشتراکی با استفاده از الگوریتم مبتنی بر همسایگی برای اخبارUsenet انجام شده است. قابل ذکر است که ¬Usenet نوعی شبکه اینترنتی می¬باشد. این کار توسط سیستمی که GroupLensنامیده می¬شود انجام پذیرفت[8] . GroupLens که سیستمی پیشنهادگر بر اساس کاربر است به منظور ارزیابی و پیشنهاد دادن اقلام به کاربر از امتیازهای 1 تا 5 که دیگر کاربر¬ان به این اقلام نسبت داده-اند استفاده می¬کند. اکنون MovieLens که یک سیستم پیشنهادگر فیلم است راه¬اندازی شده است. سیستم Grouplens از معیار همبستگی پیرسون برای نشان دادن میزان شباهت کاربران به یکدیگر استفاده می¬کند (¬فرمول شماره¬ 1).〖 p〗_(a,i) نشانگر امتیاز پیش¬بینی شده برای قلم i ام می¬باشد. n تعدا¬د همسایه¬ها را نشان می¬دهد، 〖 r〗_(u,i)امتیاز کاربر uبه قلم i¬ام و r ̅_aمیانگین امتیازهای کاربر فعال می¬باشد. w_(a,u) میزان شباهت بین کاربر فعال و همسایه¬ u را نشان می¬دهد که به صورت همبستگی پیرسون در فرمول¬ شماره¬ 2 تعریف شده است.

در سال 1996 تکنولوژی GroupLens تحت NetPerceptionبه ¬صورت تجاری در¬آورده شد. یکی از اولین کاربران تجاری GroupLens سرویس الکترونیکی خرده فروشی آمازون بود که به عنوان فروشگاه کتاب برخط راه ¬اندازی شد.
در [9]سیستم پیشنهادگر موزیک Ringoبر¬اساس الگوریتم اصلی Grouplens توسعه یافت. Ringo اقلام را بر اساس امتیازهایی که کاربران مشابه به آنها داده ¬بودند فیلتر می¬کرد. زمانی که کاربر در سیستم ثبت ¬نام می¬نمود یک لیست از 125 موسیقیدان محبوب که به طور تصادفی انتخاب شده بودند را در اختیار او قرار می¬داد و از کاربر می¬خواست که به اعضای این لیست امتیازهای بین 1 تا 7 بدهد. سپس ازکاربر یک نمایه می¬ساخت. Ringo میزان شباهت¬ها را با استفاده از همبستگی پیرسون محدود شده محاسبه کرد و برای تولید پیشنهاد میا¬نگین تمامی کاربران موجود در همسایگی را به ¬کار برد و مدعی کارایی بهتر شد. همان¬طور که در فرمول¬ شماره¬ 3 نشان داده شده است عدد 4 به این دلیل انتخاب شده که حد وسط بازه¬ امتیازهای 1 تا 7 است. Ringo عضویت در همسایگی را فقط با انتخاب همسایگانی که همبستگی آنها بیشتر از یک حد آستانه ثابت است محدود کرد. با بزرگ¬تر شدن حد آستانه دقت بیشتر می¬شود ولی تعداد اقلامی که سیستم پیشنهادگر قادر به پیش¬بینی¬شان است کاهش می¬یابد.

2-1- پیشگفتار………………………………………………………………………16
2-2- مروری بر کارهای انجام شده در این راستا………………………………..16
2-3- مبانی فیلترینگ اشتراکی……………………………………………………21
2-4- وظایف فیلترینگ اشتراکی…………………………………………………..22
2-4-1- پیشنهاد……………………………………………………………………..23
2-4-2- پیش¬بینی………………………………………………………………….23
2-5- دسته بندی متدهای فیلترینگ اشتراکی…………………………………..23
2-5-1- فیلترینگ اشتراکی مبتنی بر حافظه…………………………………….24
2-5-1-1- فیلترینگ اشتراکی مبتنی بر حافظه با پیش¬بینی بر اساس کاربران….25
2-5-1-2- فیلترینگ اشتراکی مبتنی بر حافظه با پیش¬بینی بر اساس اقلام……25
2-5-1- 3- تفاوت فیلترینگ اشتراکی بر اساس کاربران و بر اساس اقلام…………26
2-5-2- فیلترینگ اشتراکی مبتنی بر مدل…………………………………………….26
2-6- نحوه¬ تشخیص علائق کاربران…………………………………………………..27
2-6-1- تشخیص علائق به صورت صریح……………………………………………….27
2-6-2- تشخیص علائق به صورت ضمنی…………………………………………….27
2-7- محاسبه¬ شباهت……………………………………………………………….28
2-7-1- معیار همبستگی پیرسون…………………………………………………….28
2-7-2- معیار اندازه¬گیری کسینوس………………………………………………….29
2-8- انتخاب همسایه……………………………………………………………………30
2-8-1- استفاده از حد آستانه…………………………………………………………..30
2-8-2- انتخاب تعداد ثابتی از همسایگان……………………………………………..30
2-9- پیش¬بینی و تخمین رتبه………………………………………………………..31
2-9-1- استفاده از امتیازهای خام…………………………………………………….31
2-9-2- استفاده از امتیازهای نرمال شده……………………………………………31
2-10- مشکلات فیلترینگ اشتراکی…………………………………………………..32
2-10-1- پراکنده بودن داده…………………………………………………………….32
2-10-2- مقیاس پذیری………………………………………………………………..32
2-10-3- اقلام مشابه………………………………………………………………….33
2-10-4- گری¬شیپ………………………………………………………………….33
2-11- بررسی چگونگی کارکرد سایت آمازون………………………………………33

فصل 3 : روش محتوا محور

در این پایان نامه از روش محتوا محور جهت ارتقاء روش فیلترینگ اشتراکی استفاده شده است. روش محتوا محور بر اساس ویژگی¬های اقلام تعریف می¬شود. این روش بررسی می¬کند که اقلام مورد علاقه کاربر دارای چه خصوصیاتی بوده¬اند، سپس اقلام دارای خصوصیات مشابه را به او پیشنهاد می¬کند. محتوای اقلام بر حسب نوع آنها می¬تواند متفاوت باشد. مثلا ژانر فیلم، نوع کتاب و مختصات جغرافیایی رستوران را به ترتیب به عنوان محتوای اقلام فیلم، کتاب یا رستوران در نظر گرفت. به عنوان مثال اگر اکثر فیلم¬هایی که کاربر دیده است متعلق به ژانر مستند باشند بدین معناست که او به این گونه فیلم¬ها علاقه¬مند است.
سیستم¬های محتوا محور نیاز به تکنیکی جهت نمایش خصوصیات اقلام، ایجاد نمایه از کاربر بر اساس علاقه¬مندی¬هایش و یک استراتژی جهت مقایسه نمایه کاربر با خصوصیات اقلام می¬باشد.

3-2- روند کار روش محتوا محور

روند کار سیستم¬های محتوا محور به این صورت است که ابتدا براساس نحوه¬ امتیازدهی کاربر به اقلام مختلف، نمایه¬ای از علائق او ساخته می¬شود. سپس بر اساس میزان تطابق خصوصیات اقلام با نمایه ساخته شده از کاربر، پیشنهادها به کاربر ارائه می¬شود.
ساختار سیستم¬های پیشنهادگر محتوا محور در شکل زیر نشان داده شده است.

3-2-1- تحلیل¬گر محتوا (Content Analyzer)

در این مرحله محتوای اقلام نشان داده می¬شود. بدین منظور معمولا از تکنیک¬های بازیابی اطلاعات استفاده می¬شود. اطلاعات توصیفی سازمان¬دهی نشده مربوط به اقلام از قسمت منبع اطلاعات (Information Source) استخراج شده و در این مرحله سازمان¬دهی می¬شود. یعنی هر قلم توسط اطلاعات سازمان¬دهی شده نمایش داده می¬شود. مثلا اگر سیستم پیشنهادگر مربوط به فیلم باشد هر فیلم می¬تواند توسط ویژگی¬های مربوط به بازیگران، کارگردانان و…. نمایش داده شود. یا اگر سیستم پیشنهادگر مربوط به صفحه وب باشد هر صفحه وب می¬تواند توسط برداری از کلمات کلیدی نمایش داده شود. به این صورت که ریشه کلمات به عنوان خصوصیات و مقدار tf/idf مربوط به هر ریشه به عنوان مقدار آن در نظر گرفته شود.
3-2-2- یاد گیرنده نمایه (Profile Learner)

در این مرحله بر اساس عکس العملی که کاربر در برابر اقلام مختلف نشان داده و در قسمت بازخورد (Feedback) ذخیره شده است، نمایه¬ای از علائق او ساخته می¬شود. این کار معمولا توسط تکنیک¬های موجود در حوزه یادگیری ماشین انجام می¬شود.
عکس العملی که کاربر در مقابل اقلام از خود نشان می¬دهد به دو صورت صریح و ضمنی می¬باشد. عکس العمل صریح به این صوت است که کاربر علاقه یا عدم علاقه خود نسبت به اقلام را توسط امتیازدهی یا توصیفی کوتاه نشان دهد. در عکس العمل ضمنی کاربر هیچ دخالتی ندارد و خود سیستم توسط کنترل و تحلیل رفتار و فعالیت¬های کاربر، علائق او را استخراج می¬کند.
با توجه به اینکه سلیقه افراد در طول زمان تغییر می¬کند، نمایه ساخته شده از کابر نیز باید با توجه به این تغییرات به روز شود. برای این منظور ابراز علاقه و یا عدم علاقه کاربر به اقلامی که در لیست به او پیشنهاد شده¬اند به عنوان باز خورد ذخیره و برای به روز کردن نمایه او استفاده می¬شود.
درست است که سایت پیشنهادگر آمازون بر اساس روش فیلترینگ اشتراکی است. ولی همانطور که در شکل شماره 12 قابل مشاهده است در این نمونه صفحه از سایت آمازون گزینه¬ای به نام Youre Favoites وجود دارد که با استفاده از این گزینه قسمتی از نمایه کاربر می¬تواند بر اساس روش محتوا محور ساخته شود. همانگونه که در شکل شماره 13 قابل مشاهده است در این صفحه انواع کتاب¬هایی که مطابق با علائق کاربر است نمایش داده شده است. انواعی که در این قسمت قابل مشاهده است یا به صورت ضمنی بر گرفته شده، مانند بررسی اقلامی که کاربر تا کنون خریداری کرده است، یا به صورت دستی توسط خود کاربر وارد شده است. این قسمت توسط کاربر قابل ویرایش و تطبیق پذیر با سلایق و علائق او می-باشد.

: نمونه صفحه¬ای از سایت آمازون

: نمونه صفحه¬ای از سایت آمازون

3-1- پیشگفتار…………………………………………………………………………37
3-2- روند کار روش محتوا محور………………………………………………………37
3-2-1- تحلیل¬گر محتوا……………………………………………………………….38
3-2-2- یادگیرنده نمایه ………………………………………………………………..39
3-2-3- جزء فیلترینگ………………………………………………………………….42
3-3- مزایای روش محتوا محور……………………………………………………….42
3-3-1- استقلال کاربر………………………………………………………………..42
3-3-2- شفافیت……………………………………………………………………….42
3-3-3- قلم جدید……………………………………………………………………..43
3-4- معایب روش محتوا محور……………………………………………………..43
3-4-1- کمبود محتوا………………………………………………………………….43
3-4-2- خصوصی سازی افزون………………………………………………………43
3-4-3- کاربر جدید……………………………………………………………………44

فصل 4 : روش پیشنهادی.

مبنای کار این پایان نامه، روش فیلترینگ اشتراکی مبتنی بر کاربران می¬باشد. در این روش، روند کار به این صورت است که کاربران مشابه بر اساس نحوه امتیازدهی¬شان به اقلام شناسایی شده سپس امتیاز اقلامی که تا کنون دیده نشده¬اند پیش¬بینی و در نهایت اقلامی که امتیاز بالا دارند به کاربر پیشنهاد می¬شود. در این روش، تمامی اقلام به طور یکسان در تعیین میزان شباهت بین کاربران تاثیر گذارند. ولی در واقعیت برای پیش¬بینی امتیاز قلم هدف، شباهت نحوه امتیازدهی کاربران به اقلام شبیه به قلم هدف، دارای اهمیت بیشتری نسبت به سایر اقلام می¬باشد. راهکارهای گوناگونی برای تعیین میزان تاثیر گذاری اقلام در فیلترینگ اشتراکی ارائه شده است که در ادامه به اختصار شرح داده شده¬اند.

4-2- مروری بر کارهای انجام شده در این راستا

در [47] از معیار فرکانس معکوس سند که معیاری معروف در بازیابی اطلاعات می-باشد، برای وزن¬دهی به اقلام در سیستم¬های فیلترینگ اشتراکی استفاده شده است. ایده اصلی این راهکار فرکانس معکوس کاربر نام دارد. یعنی اقلامی که در بین عموم کاربران دارای محبوبیت هستند نمی¬توانند به درستی بیانگر علائق یک کاربر باشند. بنابراین باید به این اقلام وزن کمتری نسبت به سایر اقلام اختصاص داد.
در [48] نیز ایده مشابه با ایده قبل مطرح شده است. در این روش برای کاهش وزن اقلام محبوب از راهکار پراکندگی استفاده شده است. بدین صورت که به اقلامی که از لحاظ امتیاز، پراکندگی بیشتری دارند وزن بیشتر اختصاص می¬یابد.
در [49] راهکاری مبتنی بر تئوری اطلاعات ارائه شده است. در این راهکار با استفاده از معیار اطلاعات متقابل و آنتروپی ، میزان وابستگی بین قلم هدف و اقلام دیگر تعیین و بر این اساس به اقلام وزن تخصیص داده می¬شود.
در [50] یک روش وزن¬دهی اتوماتیک ارائه شده است که از ایده مربوط به سیستم¬های مبتنی بر مدل استفاده می¬کند. این روش توسط ماکزیمم کردن میانگین شباهت بین کاربران، به اقلام وزن می¬دهد. به گونه¬ای که کاربر را به کسانی که با او سلیقه مشابه دارند شبیه¬تر و از کسانی که با او اختلاف سلیقه دارند متمایز¬تر می¬کند.
به دلیل متناقض بودن نتایج گزارش شده از انواع روش¬های ارائه شده، در [51] مقایسه¬ای بین انواع روش¬های وزن¬دهی به اقلام انجام شده است. همچنین سه روش برای فیلتر کردن اقلام بر اساس وزن¬های تخصیص یافته به آنها معرفی شده است.
در [52]مشکل یکسان بودن وزن اقلام و پراکندگی سیستم¬های فیلترینگ اشتراکی توسط شباهت محلی و سراسری کاربران حل شده است. بدین صورت که شباهت محلی بین کاربران با کاستن تاثیر اقلام محبوب در بین عموم محاسبه می¬شود. این کار با در نظر گرفتن امتیازهای هر قلم به عنوان یک متغیر تصادفی از توزیع لاپلاس انجام می¬شود.
در [53] راهکاری نوین برای وزن¬دهی به اقلام و غلبه بر مشکل پراکندگی ارائه شده است. این راهکار بر اساس تجزیه و تحلیل معنایی نهفته و استفاده از روش تجزیه منحصر به فرد می¬باشد.
در [54] مشکل شروع سرد در خلال وزن¬دهی به اقلام مورد بررسی قرار گرفته است. وزن¬دهی به اقلام بر اساس کاهش تاثیر اقلام محبوب توسط دو روش فرکانس معکوس کاربر و وزن¬دهی خطی انجام شده است.

4-3- مقدمه¬ای بر روش پیشنهادی

اکثر روش¬هایی که تا کنون برای تخصیص وزن به اقلام ارائه شده¬اند از اطلاعات آماری اقلام یعنی امتیازهای تخصیص داده شده به آنها استفاده کرده¬اند. در حالی که می¬توان از محتوای مربوط به اقلام برای تعیین شباهت و وزن¬دهی¬ به آنها استفاده نمود. به دلیل اینکه پایگاه داده¬های مورد استفاده در این پایان نامه MovieLens و EachMovie است و هر دو مربوط به فیلم می¬باشند، منظور از اقلام همان فیلم¬های موجود در این پایگاه داده می¬باشد. در این پایان نامه به منظور استفاده از روش محتوا محور، ویژگی ژانرها، کارگردانان و بازیگران هر فیلم مورد بررسی قرار گرفته است. ژانر هر فیلم مشخص کننده دسته فیلم است. بعنوان مثال اگر ژانر فیلمی کمدی- درام باشد یعنی آن فیلم به دو دسته کمدی و درام تعلق دارد. در پایگاه داده¬های مذکور، اطلاعات مربوط به ژانر هر فیلم موجود می¬باشد. بعنوان مثال در پایگاه داده MovieLens، 19 ژانر وجود دارد که هر فیلم حداقل 1 و حداکثر 3 ژانر دارد. علاوه بر ویژگی ژانر هر فیلم از داده¬های دیگر نظیر ویژگی¬های کارگردانان و بازیگران هر فیلم نیز استفاده شده است. این ویژگی¬ها در پایگاه داده وجود ندارند و باید از پایگاه داده¬های Linked Open Data(LOD)، نظیر DBpedia استخراج گردند. شایان ذکر است استفاده از داده¬های تکمیلی به منظور وزن¬¬دهی¬ دقیق¬تر اقلام توسط روش محتوا محور و به دنبال آن بالا بردن دقت پیش¬بینی در سیستم¬های فیلترینگ اشتراکی می¬باشد.

4-1- پیشگفتار……………………………………………………………………….46
4-2- مروری بر کارهای انجام شده در این راستا………………………………..46
4-3- مقدمه¬ای بر روش پیشنهادی……………………………………………..48
4-4- روش پیشنهادی……………………………………………………………..48
4-4-1- پیش¬ پردازش……………………………………………………………49
4-4-1-1- پیش پردازش بر روی پایگاه داده MovieLens…ا…………………….49
4-4-1-2- پیش پردازش بر روی پایگاه داده EachMovie..ا…………………….50
4-4-2- وزن¬دهی به اقلام………………………………………………………51
4-4-3- انتخاب¬همسایگی………………………………………………………53
4-4-4- پیش¬بینی………………………………………………………………54

فصل 5 : آزمایش¬ها و نتایج

5-1- پایگاه داده¬های مورد استفاده………………………………………..57
5-2- نحوه¬ اجرای روش پیشنهادی روی پایگاه داده¬ MovieLens..ا……57
5-3- نحوه¬ اجرای روش پیشنهادی روی پایگاه داده ٍEachMovie…ا…….58
5-4- معیارهای¬ارزیابی……………………………………………………….58
5-4-1- میانگین خطای مطلق………………………………………………..58
5-4-2- دقت و فراخوانی………………………………………………………59
5-4-3- معیار ارزیابیF1…….ا………………………………………………60
5-5- ارزیابی روش پیشنهادی توسط معیارهای معرفی شده………….61

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فصل 6 : بحث و نتیجه¬گیری.

6-1- بحث………………………………………………………………………..67
6-2- نتیجه¬گیری……………………………………………………………….67
6-4- پیشنهادات…………………………………………………………………68

مراجع……………………………………………………………………………….69

 

ABSTRACT

Recommender systems are software tools and techniques that introduce the items according to user needs. Content-based and collaborative filtering methods are the most successful solutions in recommender systems. Content-based method is based on item’s attributes. This method checks the features of user’s favourite items and then proposes the items which have the most similar characteristics with those items. Collaborative filtering method is based on the determination of similar items or similar users, which are called item-based and user-based collaborative filtering, respectively. In this thesis a hybrid method is proposed that integrates collaborative filtering and content-based methods. The proposed method can be viewed as user-based Collaborative filtering technique. However to find users with similar taste with active user as users with high prediction accuracy, content features of the item are used under investigation to put more emphasis on user’s rating for similar items. In other words two users are similar if their ratings are similar on items that have similar context. This is achieved by assigning a weight to each rating when calculating the similarity of two users.



بلافاصله بعد از پرداخت به ایمیلی که در مرحله بعد وارد میکنید ارسال میشود.


فایل pdf غیر قابل ویرایش

قیمت25000تومان

خرید فایل word

قیمت35000تومان