مقدمه :

امروزه حتی با گسترش وب، کاربران برای یافتن نیازهای خود با منابع اطلاعاتی بسیاری مواجه هـستند. چگونگی یافتن سریع نیازهای کاربر از این اقیانوس اطلاعات، یک مسئلهی مهم است. اگـر چـه راهحـلاستفاده از موتور های جستجو در پایگاه دادههای یکتا ظاهرا برای آن کارآمد است ، اما در عمل ایـن راهحل برای جمع آوری همهی اطلاعات مورد نیاز ، به خـصوص اطلاعـات مـرتبط بـا منـابع مخفـی وب ،ممکن است مشکلاتی را به دنبال داشته باشد.
کشف دانش در پایگاه داده، کاوش دادهها نامیده میشود و ابزاری ارزشمند برای گزینش اطلاعات مفیـداز هر پایگاه داده است. این ابزار قابلیت محاسباتی بالایی دارد و میتواند به توزیع و موازیسازی دادههـابپردازد. برای مسائل مربوط به کاوش داده هـا ، لازم اسـت تـا بخـش بنـدی هوشـمندانه ای از داده هـا رابهدست آوریم . بدین طریق ما می توانیم دادهها را به صورت جداگانه بررسی کنیم. به منظـور کمـک بـهقانونمند کردن مساله، معیار اصلی برای بخشبندی هوشمندانه میتواند این باشد که دادههای درون هربخش تا آن جاییکه احتمال دارد ، با هم مشابه باشند، در حالیکه دادههای درون بخشهای مختلف بـایکدیگر هیچ شباهتی نداشته باشند. این معیار همان چیزی است که در الگوریتمهای خوشهبندی مـورداستفاده قرار میگیرد و به ما اجازه می دهد تا برای دستیابی به کـل پایگـاه داده، بـه مـوازی سـازی ایـنمساله بپردازیم.
در فصل اول این تحقیق، مفاهیم توزیعشدگی بهطور خلاصه مورد بررسی قرار میگیرد. سپس در فـصلدوم، به بحث در مورد خوشهبندی توزیعی پرداخته میشود. در فصل سوم، الگـوریتمهـای خوشـهبنـدیمورد بررسی و مطالعه قرار گرفته و بهدنبال آن برخی از کاربردهای خوشهبندی در فصل چهـارم مطـرحمی شوند. در نهایت، در فصل پنجم یک نتیجه گیری کوتاهی از این مباحث به عمل می آید.

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فهرست مطالب

چکیده ………………………………………………………………………………………………………………………….1

مقدمه…………………………………………………………………………………………………………………………. 2

1- فصل اول : مفاهیم توزیع شدگی

یک سیستم توزیع شده، از یک مجموعه از کامپیوترهای مستقل تشکیل شده است که کـاربران، آنهـا رابه صورت یک سیستم یکپارچه می بینند.[1]
چند مطلب از تعریف فوق مشخص می شود . اول اینکه در یک سیستم توزیـع شـده، تعـدادی کـامپیوتروجود دارد . مطلب دیگر اینکه کاربران سیستم توزیع شده، تصور می کنند که با یک سیستم واحـد کـارمی کنند . از مجموع این دو نکته می توان فهمید که اجزای داخل یک سیستم توزیع شده باید به شکلیبا همدیگر تعامل داشته باشند که بتوانند برای کاربر خود این تصور را ایجاد کنند که با یک سیستم کارمی کند . اینکه چگونه چنین تعاملی ایجاد شود یک مسأله ی مهم در مبحث سیستم های توزیـع شـدهاست.
در واقع هیچ اجباری در مورد نوع کامپیوترهای داخل سیـستم توزیـع شـده، همچنـین در مـورد روشاتصال بین آنها وجود ندارد. یعنی اینکه نباید این محدودیت ها را که اجزای این سیـستم هـا یـا اتـصالبین آنها از نوع خاصی باشند، برای سیستم های توزیع شده در نظر گرفت. از طرفی کاربر این سیستم ها نباید هیچ اطلاع و نگرانی در مورد تفاوت های بین کامپیوترهای مختلف موجود در یک سیـستم توزیـعشده و روشی که با هم ارتباط برقرار می کنند، همچنین سازمان داخلی سیستم، داشته باشد. ایـن یـکویژگی حیاتی برای سیستم های توزیع شده است که به آن شـفافیت مـی گوینـد. سیـستمی کـه ایـنویژگی را نداشته باشد، طبق قسمت دوم تعریف فوق یک سیستم توزیع شده خوانده نمی شود.
ویژگی دیگر سیستم های توزیع شده این است که این سیستم ها طبق قوانین اسـتانداردی کـه فرمـت،محتوا و معنی پیام های فرستاده شده و دریافت شده را مشخص می کنند، ارتباط برقرار می کننـد. بـهاین ویژگی باز بودن می گویند. این قوانین به طور رسمی در قالب پروتکل ها تدوین می شوند. پیروی ازاین پروتکل ها باعث می شود اجزای متنوع و متفاوت موجود در سیستم های توزیع شـده کـه احتمـالاًمربوط به عرضه کنندگان متفاوت هستند، بتوانند با هم کار کنند.
ویژگی دیگر سیستم های توزیع شده، این است که منابع نرم افـزاری و سـخت افـزاری توسـط آنهـا بـهاشتراک گذاشته شده و بنابراین دسترسی به یک سری منابع در یک گستره ی بزرگتر ممکن می شـود.
مواردی مانند چاپگرها، سخت افزارهای مربوط به پردازش و مربوط به حافظه، داده ها و فایل هـا منـابعشمرده می شوند. در واقع از مهمترین دلایل استفاده از سیستم های توزیع شـده ایـن اسـت کـه بـرایکاربران و برنامه های کاربردی مختلف دسترسی به منابع مشترک را به شـیوه ی کـارا و کنتـرل شـده،امکان پذیر نمایند. به اشتراک گـذاری منـابع دلایـل مختلـف دارد کـه مهمتـرین آن، بحـث صـرفه یاقتصادی این کار است.
ویژگی دیگر این سیستم ها مقیاس پذیری است. یعنی در این سیستم ها، با اضافه کردن منابع جدید بهسیستم، توانایی های سیستم اضافه می شود. در عمل گنجایش شبکه ای که کامپیوترهای مختلف را بههم وصل کرده ممکن است باعث محدودیت در مقیاس پذیری شود.
ویژگی دیگر این سیستم ها تحمل پذیری در برابر بروز خطاست. دسترس پـذیری بـه چنـد کـامپیوتر وپتانسیل تکرار اطلاعات باعث می شود که این سیستم ها بتوانند در برابر برخی خطاهای نـرم افـزاری وسخت افزاری دوام بیاورند.

1-1 مقدمه…………………………………………………………………………………………………………………… 4
1-2 نیاز به یکپارچه سازی اجزای ناهمگن………………………………………………………………………………… 6
1-2-1 فراخوانی رویه ی راه دور…………………………………………………………………………………………….. 8
1-2-2 ناظر پردازش راه دور …………………………………………………………………………………………………. 9
1-2-3 معماری کارگزار درخواست شیء عمومی………………………………………………………………………….10
1-2-4 میان افزار مبتنی بر پیام……………………………………………………………………………………………….12

– فصل دوم : خوشه بندی توزیعی

امروزه حتی با گسترش وب ، کاربران برای یافتن نیازمندی های خود با منابع اطلاعاتی بـسیاری مواجـههستند. چگونگی یافتن سریع نیازهای کاربر از این اقیانوس اطلاعات یک مسئله ی مهم است. اگـر چـهراه حل استفاده از موتور های جستجو در پایگاه داده های یکتا ظاهرا برای آن کارآمد است ، اما در عملاین راه حل برای جمع آوری همه ی اطلاعات مورد نیاز ، به خصوص اطلاعات مرتبط بـا منـابع مخفـیوب ، ممکن است مشکلاتی را به دنبال داشته باشد. بازیابی اطلاعات توزیعی ، راه حلی ماندنی و متناوببرای این موارد است. دو مسئله ی اصلی در مورد بازیابی اطلاعات توزیعی وجود دارد. یکی انتخاب منابعو دیگری تلفیق داده ها (اطلاعات). موقعی که کاربر به طور معمول بـا تعـداد زیـادی از کتابخانـه هـایدیجیتالی که به صورت عمومی توزیع شده اند، مواجه می شود، اولین وظیفه اش این است کـه تعـدادیاز این منابع را برای پاسخ به سوالاتش انتخاب کند. جستجوی دستی در این منابع کـار طاقـت فرسـاییاست. بنابراین انتخاب منابع به صورت اتوماتیک راه حلی مناسب و جذاب است. دومین وظیفـه سیـستمتلفیق ، تنظیم ، و ارائه ی نتایج حاصل از بازیابی ی منابع منتخب برای کاربر است. این وظیفه ، تلفیـقنتایج یا ترکیب داده ها نام دارد. روش های متفاوتی برای ارائه ی نتایج تلفیقی به کاربر وجود دارد.
بخش اکتشاف دانش در پایگاه داده ها ( (KDD ، در تلاش است تا الگوهایی مفید ، بالقوه و معتبر را درداده ها تعیین کند. کاربردهای سنتیKDD ، به ارزیابی کامل داده هایی نیازمند است که بایـد تحلیـلشوند. همه داده ها در آن سایت قرار می گیرند و در آنجا مورد بررسی قرار می گیرند. امروزه ، داده های پیچیده و همگن بطور مستقل روی کامپیوترهایی اجرا می شوند که بـه یکـدیگر از طریـق شـبکه هـایمحلی و وسیعی متصل شده اند. این مثال ها شامل شبکه های متحرک توزیعی، شبکه های سنـسور یـاسلسله سوپر مارکت هایی است که اسکنرهایی که در مغازه های مختلفی قـرار گرفتـه انـد را بررسـی وچک می کند. علاوه بر آن شرکت های بزرگی مثل Daimler Chrysler دارای داده هایی هستند که در اروپا و برخی از آنها در ایالات متحده قرار گرفته اند. آن شرکت ها دلایل مختلفی برای این سوال دارنـدکه چرا داده ها نمی توانند به سایت مرکزی مثل پهنای باند محدود یا جنبه های امنیتی منتقل شـوند.
انتقال مقدار داده ها از یک مکان به مکان مرکزی دیگر ، در سایر کاربردهایش غیر محتمل است. مـثلادر فضانوردی چندین تلسکوپ پیچیده پیشرفته در سرتاسر جهان موجود است. این تلـسکوپ هـا بطـورتناوبی داده ها را جمع آوری می کنند. هر یک از آنها قادر هستند تا یک گیگا بایت از داده ها را در هـرساعت جمع آوری کنند. و سپس آنها را به سایت مرکزی منتقل کنند و تحلیل کنند. به عبارت دیگـر ،امکان تحلیل داده ها بطور محلی نیز وجود دارد. اطلاعات مربوط به این داده های تحلیلی می توانند بـهسایت مرکزی ، یعنی جایی که اطلاعات سایت های مختلـف ترکیـب و تحلیـل ، منتقـل شـوند. نتـا یج تحلیل های مرکزی ممکن است به سایت های مرکزی برگردد، به طوریکه سایت های محلی می تواننـددر متون جهانی گنجانده شوند. ملزومات ضروری برای اقتباس دانش ، عرصه جدیدی از اکتشاف دانـشتوزیعی دز پایگاه داده ها ، خلق می کنند. در این تحقیق ما رویکردی را ارائـه خـواهیم کـرد کـه در آنابتدا داده ها را به صورت محلی خوشه ای می کنیم. ما سپس اطلاعاتی را در مورد خوشه هایی کـه بـهطریق محلی ایجاد شده اند ، را اقتباس و آنها را به سایت مرکزی ارسال می کنیم. ما برای اطلاعاتی کـهبه صورت محلی خلق شده اند ، اصطلاحات زیر را بکار می بریم: مدل محلی ، بازنمودهـای محلـی ، یـاانبوه اطلاعات سایت محلی هزینه انتقال برای بازنمود هـایی کـه فقـط بـرای انکـسار داده هـای اصـلیهستند، ناچیز است.

2-1 مقدمه……………………………………………………………………………………………………………………….16
2-2 فرضیه ی خوشه …………………………………………………………………………………………………………..17
2-3 تعاریف خوشه بندی…………………………………………………………………………………………………………18
2-4 خوشه بندی توزیعی ………………………………………………………………………………………………………..18
2-5 الگوریتم های خوشه بندی ………………………………………………………………………………………………..21
2-6 بازیابی اطلاعات خوشه ای………………………………………………………………………………………………..23
2-6-1 ارائه ی نتایج بازیابی اطلاعات خوشه ای……………………………………………………………………………..24
2-7 خلاصه ی فصل………………………………………………………………………………………………………………26

3- فصل سوم : الگوریتم های خوشه بندی.

به عنوان اولین نمونه از الگوریتم های خوشه بندی، الگوریتم غیر نظارتیk-windows را به طور خلاصهتوصیف می کنیم.[5] این الگوریتم در تلاش است تا جایگزین پنجره (قالب – جعبه) ابعادی d که دارای همهی الگوهای متعلق به یک خوشه است ، شود. الگوریتمk-windows طی دو مرحله انجام می گیـرد.
در اولین مرحله ، پنجره ها بدون تغییر در اندازه شان در فضای اقلیدسی حرکت می کنند. هر پنجره بـاتنظیم مرکز ش با میانه ی الگوهای جاری حرکت می کند. این فرآینـد بـه صـورت مکـرر تـا زمـانی کـهحرکت بیشتر تأثیری در افزایش تعداد الگوهای درون پنجره نداشته باشد، ادامه پیدا می کند. در مرحلهدوم ، اندازه ی هر پنجره ، به منظور گنجاندن الگوهای خوشه ای بیشتر ، افـزایش پیـدا مـی کنـد. ایـنپروسه تا زمانی که افزایش اندازه ی پنجره بر الگوهای درون آن نیفزاید، ادامه پیدا می کند. دو پروسه ی بیان شده، در شکل 3-1 نشان داده شده است.
شکل 3-1: حرکات متوالی (خطوط پیوسته) و سپس گسترش (خطوط فاصله)
از پنجره ی اولیه ی M1 که به پنجره ی پایانی E2 منتهی می شود. [5]
با توجه به شکل 3-1 مشاهده می کنیم که پنجره ی دو بعدیM1 به عنـوان پنجـره ی اولیـه در نظـرگرفته شده است. در مرحله ی اول، پنجره یM1 طی دو گام، ابتدا ازM1 بـهM2 و سـپس ازM2 بـهM3 حرکت می کند. همان طور که می بینیم، حرکت پنجـره یM3 موجـب افـزایش تعـداد الگوهـایموجود در آن نخواهد شد. بنابر این مرحله ی اول پایان می پذیرد و بلافاصله پـس از آن مرحلـه ی دومکه افزایش اندازه ی پنجره است شروع می شود. به این ترتیب که ابتدا پنجره یM3 به پنجره یE1 وسپس از آن بهE2 افزایش می یابد. افزایش اندازه ی پنجره یE2 موجب اضافه شـدن تعـداد الگوهـایموجود در آن نخواهد گردید. بنابر این مرحله ی دوم نیز به پایان می رسد.
الگوریتم غیر نظارتیk-windows ، با در نظر گرفتن تعدادی پنجره بـه عنـوان پنجـره هـای اولیـه کـهبیشتر از تعداد خوشه های پیش بینی شده هستند، آغاز می شـود و دو مرحلـه ی موجـود در آن بـرایتمامی پنجره های اولیه تکرار می شود . بعد از پایان یافتن این روند، پنجره هایی کـه گمـان مـی رفـتالگوهای متعلق به یک خوشه را بدست می آورند، آشکار می شوند. روش آ شکار شدن (ظهور) پنجره هـادر شکل 3-2 نشان داده شده اند.

حرکات متوالی (خطوط پیوسته) و سپس گسترش (خطوط فاصله)   از پنجره ی اولیه ی M1 که به پنجره ی پایانی E2 منتهی می شود. [

حرکات متوالی (خطوط پیوسته) و سپس گسترش (خطوط فاصله)
از پنجره ی اولیه ی M1 که به پنجره ی پایانی E2 منتهی می شود. [

3-1 الگوریتم غیرنظارتی k-windows…ا……………………………………………………………………………………….29
3-1-1 توزیع پروسه ی خوشه بندی……………………………………………………………………………………………33
3-2 الگوریتم k-means …..ا…………………………………………………………………………………………………….35
3-2-1 جستجوی دامنه ی چندبعدی …………………………………………………………………………………………..37
3-2-2 الگوریتم دامنه ی k-means…..ا………………………………………………………………………………………..39
3-3 الگوریتم k-modes برای خوشه بندی داده های توصیفی………………………………………………………………41
3-3-1 محاسبه ی حالات اولیه با جمع آوری نشانه…………………………………………………………………………..42
3-3-2 تولید ساختار داده ای مستقل……………………………………………………………………………………………44
3-3-3 استخراج حالات اولیه از مجموعه ی حالات ……………………………………………………………………………44
3-4-1 توصیف روش کار…………………………………………………………………………………………………………..47
3-5 خلاصه ی فصل……………………………………………………………………………………………………………….51

4- فصل چهارم : کاربردهای خوشه بندی.

خوشه بندی در حوزه های کاربردی مدرن مثل تعاون در خریـد و فـروش ، بیولـوژی مولکـولی و چنـدرسانه ای وظیفه ای مهم بر دوش دارد. در بسیاری از ایـن حـوزه هـا ، اساسـاً اطلاعـات از سـایت هـایمختلفی گرفته می شود. برای اقتباس اطلاعات از این داده ها ، آنها به صورت یـک مجموعـه درآمـده وخوشه بندی شده اند.
4-2 به کارگیری خوشه بندی داده های شخصی در تجارت الکترونیک :
در طول سال های اخیر ، ما شاهد رشد سازمان هایی بوده ایم که محـیط هـای وب تعـاملی پیچیـده رابرای تطبیق با خرید الکترونیکی مشتریان ارتقا داده اند.[7] خریداران تمایل دارند که اولویت هایشان رادر مورد کالای مورد نیاز خود تعریف کرده و اطلاعات مفید و بهینه ای در مورد کالای مـورد نظـر را درمحیط خرید الکترونیکی ، البته مطابق با نیازهای فرد یشان به دست آورند. در اکثـر مـوارد ، مـشتریانقادر به ارزیابی و مقایسه ی پیشنهادات موجود نیستند و به طور معمـول مـی تواننـد دو مـدل را بـرایروندهای خرید مطلوب شان دنبال کنند. در مرحله اول ،[ در مدل اول] آنها نمـی تواننـد پیـشنهاداتموجود را با انتخاب از دامنه ی گسترده ی محصولات تعیین کننـد. و در مرحلـه دوم[ در مـدل دوم] خریداران مقایسه های نسبی را میان پیشنهادات انجام می دهند تـا سـرانجام بـه تـصمیم نهـایی شـان برسند. {تصمیمات کمکی تعاملی} ، ابزارهایی هستند که خریداران را در فعالیت های خرید شا ن یـاریمی کنند و تأثیر قابل توجهی روی کیفیت و کارآیی روند خرید دارند.
به طور همزمان ، الگوریتم های خوشه بندی داده ها ، متعهد مـی شـوند تـا راه حـل هـایی مـوثر را درمواجهه با مشکلات مربوط به تعامل های مشتریان ارائه کنند و حجم اطلاعات قابل ارائه به خریداران درمحیط های خرید را افزایش دهند.
قبل از هر چیز مشتری اولویت هایش را با تعریف بازه هایی برای هریک از آنها ، بیان می کند. هـر یـکاز این اولویت ها می توانند بیان کننده ی ویژگی هایی مانند قیمت، انـدازه، وزن و سـایر ویژگـی هـایکالای مورد نظرشان باشد. به عنوان مثال فرض می کنیم که مشتری در ابتدا دو اولویت را بیان می کند. اولین اولویتش در بازه ی 1x و 2x و دومین اولویتش در بازه ی 1y و 2y تعریف مـی شـود. در ایـن روشیک مستطیل یک جهتی شکل می گیرد که آنراR می نامیم. اضلاع این مستطیل با محورهای مختصات موازی می باشند. محصولات پیشنهاد شده بوسیله فروشگاه آنلایـن ، بـه صـورت نقـاط دو بعـدی دارایمقادیر pi و qi چنین شرح داده می شوند.
pi ,qi ∈ A ={(p1,q1 ),(p2 ,q2 ),,(pn ,qn ) | where(pi ,qi )∈ℜ2 ,i,n∈ I}.
این نمایش صحنه ی تصمیم را به صورت شکل 4-1 نشان می دهد.

شکل 4-1: صحنه ی تصمیم [7]

مشتری یک روند خرید دو مرحله ای را اجرا می کند. در مرحله اول ، او همـه ی محـصولاتی را کـه درمستطیل اولویت هایش قرار دارند را انتخاب مـی کنـد. اینهـا در واقـع همـه ی نقـاط داده ای (pi , qi) هستند که 2×1 ≤pi≤x و 2y1≤qi≤y . در مرحله دوم مشتری بر روی خوشه هایی متمرکز می شود که بـهوسیله ی نقاط داده شکل گرفته اند. در شکل 4-1 سه خوشه در داخل مستطیلR قرار گرفتـه و سـهخوشه ی دیگر خارج از مستطیل هستند. بنابراین نیازمند الگوریتمی هستیم کـه ایـن دو مرحلـه را بـهدنبال هم اجر ا کند. اول این که یک دامنه ی جستجو را برای تعیین همه نقاط داده ای موجود در داخـلمستطیل اولویت مشتری به کار گیرد و دوم اینکه از یک الگوریتم خوشه بندی مناسب بـرای محاسـبهتطابق در خوشه ها استفاده کند. شایان ذکر است که برای خوشه های موجود در داخل مستطیل ، تنهاآن نقاطی که تعداد کل خوشهها را کاهش میدهد ، بکار گرفته می شود. اما ما در مجموعهی نقاط داده، در زمان محاسبه هم کاهش را مشاهده می کنیم. علاوه بر آن مشتری نیازی به تعریف دقیق اسـتراتژیتصمیم گیری اش ندارد ، یعنی می تواند اولویتش را در بازه ی صحیح مقادیر، بعد از اینکه وی آیتم های مطلوب حاصله را استرداد و محاسبه کرد ، مجددا تعریف کند.

صحنه ی تصمیم [7]

صحنه ی تصمیم [7]

4-1 مقدمه…………………………………………………………………………………………………………………………54
4-2 به کارگیری خوشه بندی در تجارت الکترونیک…………………………………………………………………………….54
4-3 طراحی الگوریتم خوشه بندی توزیعی با انرژی مؤثر برای شبکههای سنسور بی سیم ………………………….57
4-3-1 پروژه های مربوطه……………………………………………………………………………………………………….60
4-3-2 مدل شبکه ی ناهمگن…………………………………………………………………………………………………..61
4-3-3 ارزیابی پروتکل DEEC ..ا………………………………………………………………………………………………..63
4-4 خلاصه ی فصل……………………………………………………………………………………………………………….65
6- فصل پنجم : نتایج تحقیق …………………………………………………………………………………………………..67
6-1 نتیجه گیری……………………………………………………………………………………………………………………68

فهرست مراجع………………………………………………………………………………………………………………………71
چکیده ی انگلیسی …………………………………………………………………………………………………………………72

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فهرست شکل ها

1-1 اجزای یک سیستم توزیع شده با چهار کامپیوتر……………………………………………………………………………… 5
1-2 فراخوانی رویه ی راه دور…………………………………………………………………………………………………………. 8
1-3 ناظر پردازش راه دور ………………………………………………………………………………………………………………. 9
1-4 مدل نقطه به نقطه………………………………………………………………………………………………………………….13
1-5 مدل انتشار/ تصدیق…………………………………………………………………………………………………………………13
2-1 خوشه بندی توزیعی…………………………………………………………………………………………………………………20
2-2 طرح دسته بندی الگوریتم های خوشه بندی…………………………………………………………………………………….22
3-1 پروسه ی تغییر مکان و افزایش اندازه ی پنجره برای یافتن الگوهای بیشتر …………………………………………………29
3-2 فرآیند ادغام پنجره ها………………………………………………………………………………………………………………30
3-3 فرآیند گسترش پنجره ……………………………………………………………………………………………………………..32
4-1 صحنه ی تصمیم…………………………………………………………………………………………………………………….55
4-2 مدل شبکه ی ناهمگن……………………………………………………………………………………………………………..61
4-3 مقایسه ی کارآیی پروتکل ها تحت دو نوع شبکه ی ناهمگن دوسطحی……………………………………………………64
4-4 مقایسه ی کارآیی پروتکل ها در شبکه های ناهمگن چندسطحی………………………………………………………….45

 

Abstract
How to merge and organize query results retrieved from different resources is one of the key issues in distributed information retrieval. Some previous research and experiments suggest that cluster-based document browsing is more effective than a single merged list. Cluster-based retrieval results presentation is based on the cluster hypothesis, which states that documents that cluster together have a similar relevance to a given query.
Clustering can be defined as the process of partitioning a set of patterns into disjoint and homogeneous meaningful groups, called clusters. In distributed data clustering (DDC) the data set are distributed among several sites.
Clustering has become an increasingly important task in modern application domains such as marketing and purchasing assistance, multimedia, and molecular biology as well as many others. In many of these areas, the data are originally collected at different sites. In order to extract information out of these data, they are brought together and then clustered.
In recent years several approaches to knowledge discovery and data mining, and in particular to clustering, have been developed, but only a few of them are designed for distributed data sources. In this research, we proposed a survey of distributed clustering algorithms.



مقطع : کارشناسی ارشد

قیمت 25 هزار تومان

خرید فایل pdf به همراه فایلword

قیمت:35هزار تومان