مقدمه :

امروزه تحقیقات بسیاری بر روی ایجاد ، مدیریت، نگهداری و ارزیابی دانش در حال انجام است . دانش به طور روز افزون در حال تزاید و ارزشمند تر شدن است . بخصوص برای سازمان ها و خاصه برای سازمان های تجاری ، وابستگی شدید نهاد های علمی ، تجاری ، سیاسی … به محتویات پایگاه های دانش و توجه روز افزون به افزایش سرعت و دقت در ایجاد و باز یابی انها ، نیاز بع خودکار شدن را بیش از پیش توجیه می نماید .در همین راستا هم اکنون وب بزرگترین و مهم ترین منبع دانش است. ساسر وب مستغرق در پایگاه های دانش ، صفحات خانگی مردم و به طور خلاصه حجم سیل اسایی از اطلاعات است . تقریبا در مورد هر موضوعی که به توان فکر کرد، هر کسی می تواند مقدار زیادی اطلاعات کسب کند که توسط شهرون دیگری در دسترس قرار گرفته است . از کاربران خصوصی که انباری از رکورد ها را در ان ثبت کرده اند ، تا شرکت های عظیمی که در این بستر به تجارت می پردازند .در هر حال نیاز به سهولت دسترسی به اطلاعات وب ، لزوم استفاده از ابزار هایی جهت بازیابی و جستجوی اطلاعات را توجیه می نماید . به همین علت هم اکنون ابزار های متنوعی جهت انجام این امور وجود دارد . از انجا که در امر دسترسی به اطلاعات ، سرعت ، دقت و تناسب اطلاعات دسترسی شده نسبت به موارد قابل جستجو برای کاربر حائز اهمیت بسیار می باشد ، محققین را بر ان داشته است تا با ارائه و بهینه سازی الگوریتم های جیتجو در وب ، راه را برای اکتشاف و استخراج اطلاعات وب هموار سازند.همانطور که گفته شد ، وب منبع سر شار داده ها ، اطلاعات و دانش هاست . لیکن مفاهیم فوق دارای وجوه متمایزی است . واژه های داده ، اطلاعات و دانش معمولا به طور مشابه توسط نویسندگان در تجارت روزانه به کار برده می شود . داده اصولا شامل حقایق یا نتایج اندازه گیری هاست که به منظور پردازش و ذخیره سازی قابل نمایش هستند .مثل فیلد ها در بانک اطلاعاتیبدون توجه به ماهیت و مورداستفاده و مفهوم انها . موقعی که داده در یک متن معنی دار قرار می کیرد اطلاعات نامیده می شود . دانش هنگامی تولید می شود که اطلاعات با تجربه ، مفهوم و تفسیر همگام گردد، در واقع سطح بالایی از اطلاعات که برای تصمیم گیری مفید هستند دانش نام دارد. برخلاف داده ها و اطلاعات ، دانش همیشه قائم به اشیا است و میدان مهارت و تشخیص برای حل مشکلات می باشد و شامل تئوری ها ف قوانین تجربی و دستور العمل برای فعالیت هاست . بدیهی است که دانش دارای ارزش بیشتری نسبت به دو مورد دیگر است .شبکه گسترده جهانی ( www) به عنوان یک سیستم پایگاه داده توزیعی ، اما با دو دیدگاه متفاوت ، مورد بررسی قرار می گیرد .اولذاینکه ، www در برگیرنده مقدرا داده های بیشتری نسبت به سیتم پایگاه داده نوعی است . www اغلب به عنوان بزرگترین سیستم پایگاه داده توزیعی در جهان با مقادیر داده هایی که با سرعت تصاعدی در حال افزایش هستند ، شناخته شده است . این داده ها واطلاعات می توانند شامل انواع متعدد از جمله متن ، نگاره ، صوت . تصویر باشند . دوم اینکه www تعداد کاربران بسیار زیادی را در بر می گیرد که به گروه خاصی از جمعیت شناختی یا منطقه جغرافیایی محدود نمی شود .نتیجه ان تنوع زیاد در محتوا و کیفیت اطلاعات است . به علاوه ، برخلاف یک سیستم پایگاه داده نوعی ، جایی که اکثر کاربران اطلاعات را از طریق تعدادی سوال و پرسش به دست می اورند ، www برای کاربرانشان این امکان را یه وجود می اورد که اطلاعات را به طور علنی بر روی سیستم تهیه کرده و مشترکا استفاده نمایند . بهخاطر وجود مقادیر زیادی از اطلاعات موجود بر روی وب ( شبکه ) ، جستجوی اطلاعات خاص یا پیدا کردن هر گونه اطلاعات مفید ، کاری مشکل و چالش انگیز است . برای کاهش این مشکل نیز بسیاری از روش های داده کاویدر متن و بافت وب به کار میرود که مربوط به وب کاوی است . وب کاوی را به عنوان کشف و تحلیل اطلاعات مفید از www تعریف می کنند . بعضی از روش های وب کاوی عبارت اند از تجزیه و تحلیل الگوهای دسترسی کاربر ، جمع اوری سند های وب و طبقه بندی کشف .و استخراج داده ، اطلاعات و دانش از وب ، امروز ه اهمیت فوق العاده ای پیدا کرده است که در این پژوهش به ان می پردازیم

فهرست مطالب

فصل اول

1-1: کلیات                                                                                                        7

1-1-1: اهداف تحقیق                                                                                          7

1-1-2: اهمیت موضوع تحقیق و ضرورت ان                                                          7

1-2: داده کاوی                                                                                                   9

1-2-1: تعریف و مثال                                                                                          9

1-2-2: انواع روش ها                                                                                          9

1-2-3: اهداف و وظایف                                                                                      10

1-2-4: مشکلات ومحدودیت ها                                                                           10

1-3: وب                                                                                                            11

1-3-1: انواع تقسیم بندی وب                                                                               13

1-3-2: روش های جستجو در وب                                                                        22

1-3-3: محدودیت های دسترسی به وب                                                                24

1-4: وب کاوی                                                                                                   24

1-4-1: تعریف و مثال                                                                                          24

1-4-2: اهداف و وظایف وب کاوی                                                                      25

1-4-3: لزوم به کار گیری روش های وب کاوی                                                     27

1-4-4: انواع روش های وب کاوی                                                                       28

1-4-5: ابزار ها                                                                                                   29

فصل دوم

2-1: بررسی وب کاوی از دید گاه های مختلف                                                      31

2-1-1 : وب کاوی و بازیابی اطلاعات                                                                  31

2-1-2: وب کاوی و استخراج اطلاعات                                                                 31

2-1-3: وب کاوی و یاد گیری ماشین                                                                   33

2-1-4: وب کاوی و عوامل هوشند                                                                        33

2-2: طبقع بندی روش های مختلف وب کاوی                                                        34

2-2-1:ساختار کاوی وب                                                                                    35

2-2-2: محتوای کاوی وب                                                                                  36

2-2-2-1: محتوا کاوی از وجه بازیابی اطلاعات                                                     37

2-2-2-2: محتوا کاوی از وجه پایگاه داده                                                             40

2-2-2-3: تکنولوژی بازیابی اطلاعات                                                                  41

الف) پیمایش سند به روش brute force              ا                                                 43

ب) خوشه بندی                                                                                                    43

پ) document signatures                                                         ا                    46

ت) ایندکس معکوس                                                                                             48

ج) اعمال وزن به اصطلاحات                                                                                  49

د) hypertext                                                                                ا                    51

2-2-3: کاربرد وب کاوی                                                                                    52

2-2-3-1: فیلتر کردن سایت                                                                                52

2-2-3-2: پیش پردازش                                                                                      58

الف) پاکسازی داده ها                                                                                           60

ب) شناسایی کاربران                                                                                             63

پ) شناسایی session                                                                              ا            65

ت) تکمیل مسیر                                                                                                    66

2-2-3-3: شناسایی تراکنش                                                                                67

2-2-3-4: تشخیص الگو                                                                                      72

2-3: ارزیابی و رتبه بندی مستندات توسط موتور های جستجو                                    75

2-4: شخصی کردن وب                                                                                       77

2-4-1: انواع روش ها                                                                                          78

فصل سوم

3-1: ارائه یک الگوریتم وب کاوی با منطق فازی                                                    81

3-1-1 : مفهوم object – oriented و فازی                                                       81

3-1-2: الگوریتم وب کاوی fuzzy object – oriented             ا                     83

3-1-3: شرح الگوریتم با بیان یک مثال                                                                  86

3-1-4: نتایج ازمایشات                                                                                        95

نتیجه گیری و پیشنهادات                                                                                       98

منابع وماخذ                                                                                                          99

چکیده انگلیسی                                                                                                     100

فهرست جداول

جدول 1-1: انواع صفحات وب                                                                              12

جدول 2-1: محتوا کتوی روی مستندات بدون ساختار                                              39

جدول 2-2: محتوا کاوی روی مستندات نیمه ساختار یافته                                          39

جدول 2-3: محتوا کاوی از وجه پایگاه داده                                                            41

جدول 2-4: نتایج حاصل از مراحل پیش پردازش                                                     67

جدول 2-5 : نتایج سه رویکرد شناسایی تراکنش                                                     69

جدول 2-6: حاصل سه رویکرد شناسایی تراکنش در تشخیص قوانین                         71

جدول 2-7 : مقایسه زمان سه رویکرد شناسایی تراکنش                                           71

جدول 3-1: قسمتی از داده های log مورد استفاده در مثال                                      87

جدول 3-2: ترتیب جستجوی صفحات توسط کلاینت ها                                          89

جدول 3-3: مجموعه فازی از خصوصیات وب                                                         89

جدول 3-4: مجموعه l1                                                                                      90

جدول 3-5: مجموعه c2                                                                                    91

جدول 3-6: مجموعه L2                                                                                      91

جدول 3-7: مجموعه L1                                                                                      92

جدول 3-8: مجموعه L 2                                                                                      93

جدول 3-9: مجموعه L 3                                                                                      94

فهرست شکل ها

شکل 2-1: تقسیم بندی روش های مختلف وب کاوی                                              35

شکل 2-2: ارزیابی سیستم های بازیابی اطلاعات                                                      42

شکل 2-3: سیستم بازیابی اطلاعات به روش ایندکس معکوس                                 48

شکل 2-4: سیستم بازیابی اطلاعات به روش کامل ایندکس معکوس                         50

شکل 2-5: مثالی از یک سند HYPERTEXT                                              ا           52

شکل 2-6: فرایند کاربرد کاوی .ب به صورت کلی                                                 56

شکل 2-7: نمایش دو نوع تراکنش                                                                         58

شکل 2-8: فرایند کاربرد کاوی وب با جزئیات                                                       59

شکل 2-9: فرایند پیش پردازش با جزئیات                                                              61

شکل 2-10: ساختار لینک ها در یک وب سایت نمونه                                          64

شکل 2-11: اطلاعات در دسترس از LOG یک سرور نمونه                                  65

شکل 3-1: یک مثال از مفهوم کلاس و شی                                                            82

شکل 3-2: تفاوت منطق فازی و منطق مطلق                                                           83

شکل 3-3: تابع عضویت مورد استفاده در مثال                                                        88

فهرست نمودار ها

نمودار 2-1: نمایش منحنی رویکرد                                                                        69

نمودار 3-1: رابطه بین تعدادی از قوانین ومینیمم حد استانه                                        95

نمودار 3-2: رابطه بین تعدادی از قوانین و تعداد مشتریان                                           96

نمودار 3-3: رابطه بین تعدادی از قوانین درون صفحه ای و تعداد مشتریان                    96

نمودار 3-4: رابطه بین تعدادی از الگو ها وتعداد مشتریان                                           96

نمودار 3-5: رابطه بین تعدادی از مشتریان و زمان اجرا                                              97

اهداف تحقیق :

وب کاوی سعی در اکتشاف و استخراج خودکار دانش از وبدارد . با توجه به تعاریف داده و دانش که ارائه شد ، به نظر می رسد در این پردازش ، ابتدا نیاز به کاوش در داده هاست و سپس با تفسیر انها به اطلاعات و دانش ها دست یابید . پس تعریف وب کاوی به صورت زیر کامل میگردد: وب کاوی ، کاربردتکنیک های داده کاوی در کشف و استخراج خودکار دانش از مستندات وب است .

این پژوهش ، ابتدا به بررسی روش های معمول کاوش در وب ، محتوا کاوی ، ساختار کاوی و استعمال کاوی وب پرداخته ، و سپس به ارائه روشی بر اساس مفهوم فازی جهت استخراج الگو های رفتاری کاربر می پردازد .

 اهمیت موضوع تحقیق و ضرورت ان :

امروز ه اهمیت ابزار دسترسی به دانش نسبت به ابزار دسترسی به داده ها واطلاعات به طور فزاینده ای مطرح شده است . به عبارت دیگر ابزاری که علاوه بر استخراج اطلاعات از وب ، در تفسیر انها و در نتیجه اکتشاف قوانین و علوم از این مقوله ، کمک شایانی به کاربران می نماید ، مورد توجه قرار گرفته اند . از طرف دیگر بهینه سازی روش های به کار رفته در این ابزار ها از نظر سرعت و دقت ، تحقیقات زیادی را به خود اختصاص داده است . برای اینکه از عهده بازیابی حجم زیاد اطلاعات و دانش در وب بر اییم ، نیاز به اعتماد بر ابزار های هوشمندی احساس می شود که کاربران را در پیدا کردن ، مرتب کردن و فیلتر کردن انها یاری دهد . این ابزار Web mining ( وب کاوی ) نام دارد که امروزه تحقیقات بسیاری را به خود معطوف ساخته است .

انواع روش های داده کاوی :

استنتاج از داده های بانک های اطلاعاتی ، به دو روش انجام می پذیرد :

الف) استنتاج از کل به جزء

این روش شامل یک دستاورد منطقی از اطلاعات بانک است . بیشتر بانک های اطلاعاتی از جمله نوع رابطه ای ، یک اپراتور ساده برای استنتاج از کل به جزء دارند . استنتاج از کل به جزء بیان صحیح و اثبات پذیر نتایج از دنیای واقعی است که در بانک اطلاعاتی متبلور شده است . مثل ارتباط بین کارمند و قسمت و ارتباط قسمت و مدیر که ارتباط بین کارمند و مدیر را منتج می کند .

ب) استنتاج از جزء به کل

این روش نوعی تعمیم از رابطه های جزیی است که بین اشیاء بانک اطلاعاتی برقرار است . استنتاج از چزء به کل ، قواعدی را بیان می کند که توسط بانک اطلاعاتی پشتیبانی می شود ، لیکن الزاما در دنیای واقعی صحت ندارد . مثل نتیجه هر کارمندی یک مدیر دارد که تعمیمی از ارتباط های کارمند –قسمت و قسمت – مدیر می باشد .

 مشکلات و محدودیت ها :

داده ها ، اغلب خراب یا از زمانی ، منقضی شده اند . بنابراین استراتژی اماری لازم است تا قابلیت اعتماد و اطمینان اطلاعات و ارتباطات کشف شده را کنترل کند .

از انجا که وب ، یک مجموعه پهناور و پویا از صفحاتی است که شامل ابرلینک های نامحدود و حجم زیادی از دسترسی و استفاده از اطلاعات می باشد ، یک منبع غنی و بی نظیر داده کاوی است

 لزوم به کار گیری روش های وب کاوی

برای حل مشکلات کتوش در وب پیشتر بحث شد ، تکنیک های داده کاوی ، تحت عنوان وب کاوی به طور هوشمند به یاری کاربران وب می شتابد . به دلیل زیر از این تکنیک ها در ارتقاء نتایج جستجو در وب ، استفاده می گردد :

الف) پیچیدگی صفحات وب متجاوز از پیچیدگی هر مجموعه مستندات متنی سنتی مثل کتاب است ،…. است .

ب) وب یک منبع اطلاعات پویاست و به سرعت به رشد خود ادامه می دهد .

ج) وب ، طیف گسترده ای از ارتباطات کاربران را خدمت رسانی می کند .

د) تنها یک قسمت کوچک از صفات وب شامل اطلاعات مفید و قابل استفاده برای هر کاربر است و بایستی یک جستجو شناسایی کند ، کدام قسمت وب به طور صحیح ، مربوط به علاقه مندی های کاربر خاصی است .

وب کاوی و بازیابی اطلاعات

از نظر بسیاری ، بازیابی اطلاعات ، جزئی از وب کاوی است و بعضی افراد ایندو را باهم مشترک می دانند. در واقع بازیابی اطلاعات ، بازیابی خودکار تمام مستندات وب است و شامل اهدافی همچون شاخص سازی متن و جستجو برای مستندات مفید در یک مجموعه است . تحقیقات امروزی ، بازیابی اطلاعات را شامل مدل کردن ، طبقه بندی مستندات و فهرست بندی مستندات از وظایف وب کاوی است که برای شاخص بندی مفید است . از این منظر ، وب کای جزئی از بازیابی اطلاعات به شمار می رود . از وجه بازیابی اطلاعات ، محتوا کاوی وب ، پیدا کردن یا فیلتر کردن اطلاعات را بهینه می سازد .


 مقطع کارشناسی ارشد

بلافاصاله بعد از پرداخت به ایمیلی که در مرحله بعد وارد میکنید ارسال میشود.


فایل pdf غیر قابل ویرایش

قیمت25000تومان

قیمت45000تومان