مقدمه

اخيرا توانايي هاي فني بشر در توليد و جمع آوري داده ها به سرعت افزايش يافته است عواملي نظير استفاده گسترده از كامپيوتر در كسب و كار، علوم، خدمات دولتي و پيشرفت در وسائل جمع آوري داده، از اسكن كردن متون و تصاوير تا سيستمهاي سنجش از دور ماهواره اي، در اين تغييرات نقش مهمي داشته اند.
حجم بسيار بالاي سايتهاي طراحي شده و موجود در بستر وب؛ تنوع و حجم بالاي اطلاعات موجود در آنها، تكنيكها و توزيع شدگي منابع به معظلي بزرگ در استفاده از اين منابع تبديل شده است. در واقع مشكل از آنجائي ناشي مي شود كه منابع به اندازه كافي موجود است، ولي بصورت خام و پخش شده در رسانه هاي مختلف و با حجم زياد. مشكل اصلي دربدست آوردن دانش موجود در آنها و اينكه دانش مورد نياز ما در چه منابعي و به چه صورتي واقع شده است؛ مي باشد.
اين رشد انفجاري در دادههاي ذخيره شده، نياز مبرم به وجود تكنولوژي هاي جديد و ابزارهاي خودكاري را ايجاد كرده كه به صورت هوشمند به انسان ياري رسانند تا اين حجم زياد داده را به اطلاعات و دانش تبديل كند: داده كاوي به عنوان يك راه حل براي اين مسائل مطرح مي شود.
بطورغير رسمي داده كاوي فرآيندي است، خودكار براي استخراج الگوهايي كه دانش را بازنمايي مي كنند، كه اين دانش به صورت ضمني در پايگاه داده هاي عظيم، انباره داده1، صفحات وب، منابع توزيع شده و ديگر مخازن بزرگ اطلاعات، ذخيره شده است. داده كاوي تكنيكي است كه بطور همزمان از چندين رشته علمي نظير: تكنولوژي پايگاه داده، هوش مصنوعي، يادگيري ماشين، شبكه هاي عصبي، آمار، شناسايي الگو، سيستم هاي مبتني بر دانش2، حصول دانش3، بازيابي اطلاعات4، محاسبات سرعت بالا5 و بازنمايي بصري داده6 بهره مي برد.
داده كاوي در اواخر دهه 1980 پديدار گشته، در دهه 1990 گامهاي بلندي در اين شاخه از علم برداشته شد و انتظار مي رود در اين قرن به رشد و پيشرفت خود ادامه دهد.
كشف دانش از منابع داده فرايند شناسايي درست، ساده، مفيد، و نهايتا الگوها و مدلهاي قابل فهم در داده ها مي باشد. داده كاوي، مرحله اي از فرايند كشف دانش مي باشد و شامل الگوريتمهاي مخصوص داده كاوي است، بطوريكه، تحت محدوديتهاي مؤثر محاسباتي قابل قبول، الگوها و يا مدلها را در داده كشف مي كند. به بيان ساده تر، داده كاوي به فرايند استخراج دانش ناشناخته، درست، و بالقوه مفيد از داده اطلاق مي شود.
تعريف ديگر اينست كه، داده كاوي گونه اي از تكنيكها براي شناسايي اطلاعات و يا دانش تصميم گيري از قطعات داده مي باشد، به نحوي كه با استخراج آنها، در حوزه هاي تصميم گيري، پيش بيني، پيشگويي، و تخمين مورد استفاده قرار گيرند. داده ها اغلب حجيم ، اما بدون ارزش مي باشند، داده به تنهايي قابل استفاده نيست، بلكه دانش نهفته در داده ها قابل استفاده مي باشد. به اين دليل اغلب به داده كاوي، تحليل داده اي ثانويه7 گفته مي شود.
داده كاوي از منابع توزيع شده متفاوت تر از داده كاوي از منايع متمركز است. مشكل داده كاوي از منابع توزيع شده (مانند وب) در محتويات غير ساخت يافته و يا شبه ساخت يافته اين منابع است. منابع توزيع شده، برخلاف منابع متمركز، داراي يك ساختار استاندارد مناسب نيستند و از سبك و شيوه نگارشي متنوع محتوائي نسبت به آنچه كه در مجموعه منابع متمركز وجود دارد، پيروي مي كنند.
فصل اول اين سميناريك مرور سريع بر معرفي داده كاوي؛ مدلها و روشهاي موجود در آن پرداخته است، فصل دوم مدل ها و الگوريتم هاي داده كاوي به صورت اجمالي برسي شده؛ در فصل سوم مدل وب كاوي مطرح شده است در اين فصل تكنيكها و الگوريتمهاي مختلف وب كاوي برسي شده است، در اين بخش الگوريتمهاي داده كاوي از وب نيز معرفي شده است در فصل چهارم وب سرويس و معماري وب سرويس و XML و چگونگي داده كاوي از وب سرويسها مطرح شده است. در فصل چهارم يكسري ايده ها و سوالاتي در رابطه با وب سرويس كاوي مطرح شده است.

مدل ها و الگوريتم هاي داده كاوي و بررسی معماری سرویس گرا در وب کاوی

مدل ها و الگوريتم هاي داده كاوي و بررسی معماری سرویس گرا در وب کاوی

فهرست مطالب

چكيده ……………………………………………………………………………………………………………………….2
مقدمه ……………………………………………………………………………………………………………………….4

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

– فصل اول: مقدمه اي بر داده كاوي (كليات و پيشينه و بيان اهداف)

اصلي ترين دليلي كه باعث شد داده كاوي كانون توجهات در صنعت اطلاعات قرار بگيرد، مساله در دسترس بودن حجم وسيعي از داده ها و نياز شديد به اينكه از اين داده ها اطلاعات و دانش سودمند را به چه صورتي استخراج كنيم؛ بود. با افزايش حجم و رسانه هاي ذخيره و بازيابي اطلاعات تكنيكها و الگوريتمهاي جديد نيز ارائه مي شود اطلاعات و دانش بدست آمده در كاربردهاي وسيعي از مديريت كسب و كار وكنترل توليد و تحليل بازار تا طراحي مهندسي و تحقيقات علمي مورد استفاده قرار مي گيرد.
داده كاوي را مي توان حاصل سير تكاملي طبيعي تكنولوژي اطلاعات دانست، كه اين سير تكاملي ناشي از يك سير تكاملي در صنعت پايگاه داده مي باشد، نظير عمليات: جمع آوري داده ها وايجاد پايگاه داده، مديريت داده و تحليل و فهم داده ها. در شكل1-2 اين روند تكاملي در پايگاه هاي داده نشان داده شده است.
تكامل تكنولوژي پايگاه داده و استفاده فراوان آن در كاربردهاي مختلف سبب جمع آوري حجم فراواني داده شده است. اين داده هاي فراوان باعث ايجاد نياز براي ابزارهاي قدرتمند براي تحليل داده ها گشته است.
ابزارهاي داده كاوي داده ها را آناليز مي كنند و الگوهاي داده اي را كشف مي كنند كه مي توان از آن در كاربردهايي نظير: تعيين استراتژي براي كسب و كار، پايگاه دانش9 و تحقيقات علمي و پزشكي، استفاده كرد. شكاف موجود بين داده ها و اطلاعات سبب ايجاد نياز براي ابزارهاي داده كاوي شده است تا داده هاي بي ارزش را به دانشي ارزشمند تبديل كنيم.
به طور ساده داده كاوي به معناي استخراج يا »معدن كاري10« دانش از مقدار زيادي داده خام است. البته اسامي ديگري نيز براي اين فرآيند پيشنهاد شده كه بعضا بسياري متفاوت با واژه داده كاوي است، نظير:

٨ Data Mining
١٠٩ Knowledge base Mining
مراحل كشف دانش
كشف دانش داراي مراحل تكراري زير است:
• پاكسازي داده ها14 (از بين بردن نويز و ناسازگاري داده ها).
• يكپارچه سازي داده ها15 (چندين منبع داده تركيب مي شوند).
• انتخاب داده ها16 (داده هاي مرتبط با آناليزازپايگاه داده بازيابي مي شوند).
• تبديل كردن داده ها17 (تبديل داده ها به فرمي كه مناسب براي داده كاوي باشد مثل خلاصه سازي18 و همسان سازي19
• داده كاوي (فرايند اصلي كه روالهاي هوشمند براي استخراج الگوها از داده ها به كار گرفته مي شوند.)
• ارزيابي الگو20 (براي مشخص كردن الگوهاي صحيح و مورد نظربه وسيله معيارهاي اندازه گيري)
• ارائه دانش21 (يعني نمايش بصري، تكنيكهاي بازنمايي دانش براي ارائه دانش كشف شده به كاربر

– فرايند كشف دانش

– فرايند كشف دانش

١-١- داده كاو ي چيست؟ ………………………………………………………………………………………………….6
٢-١ توصيف داده ها در داده كاوي………………………………………………………………………………………….51
٣-١ مدل ها ي پ يش بيني داده ها …………………………………………………………………………………….81

2- فصل دوم: مدل ها و الگوريتم هاي داده كاوي

در اين فصل قصد داريم مهمترين الگوريتم ها و مدل هاي داده كاوي را بررسي كنيم. بسياري از محصولات تجاري داده كاوي از مجموعه از اين الگوريتم ها استفاده مي كنند و معمولا هر كدام آنها در يك بخش خاص قدرت دارند و براي استفاده از يكي از آنها بايد بررسي هاي لازم در جهت انتخاب متناسب ترين محصول توسط گروه متخصص در نظر گرفته شود.

شبكه هاي عصبي از پركاربردترين و عملي ترين روش هاي مدل سازي مسائل پيچيده و بزرگ كه شامل صدها متغير هستند مي باشد. شبكه هاي عصبي مي توانند براي مسائل كلاس بندي (كه خروجي يك كلاس است) يا مسائل رگرسيون (كه خروجي يك مقدار عددي است) استفاده شوند. ۴٩ Neural Networks هر شبكه عصبي شامل يك لايه ورودي50 است كه هر گره در اين لايه معادل يكي از متغيرهاي پيش بيني مي باشد. گره هاي موجود در لايه مياني وصل مي شوند به تعدادي گره در لايه نهان51 . هر گره ورودي به همه گره هاي لايه نهان وصل مي شود. گره هاي موجود در لايه نهان مي توانند به گره هاي يك لايه نهان ديگر وصل شوند يا اينكه به لايه خروجي 52 وصل شوند. لايه خروجي شامل يك يا چند متغير خروجي مي باشد[٧ ].

به هر بار اجراي اين الگوريتم براي تمام داده هاي موجود در بانك يك دوره 54 گفته مي شود اين دوره ها آنقدر ادامه مي يابد كه ديگر مقدار خطا تغيير نكند.
از آنجايي كه تعداد پارامترها در شبكه هاي عصبي زياد مي باشد محاسبات اين شبكه ها مي تواند وقت گير باشد ولي اگر اين شبكه ها به مدت كافي اجرا گردند معمولا موفقيت آميز خواهند بود. مشكل ديگري كه ممكن است به وجود بيايد Overfitting مي باشد و آن بدين صورت است كه كه شبكه فقط روي داده ها آموزشي خوب كار مي كند و براي ساير مجموعه داده ها مناسب نمي باشد. براي رفع اين مشكل ما بايد بدانيم چه زماني آموزش شبكه را متوقف كنيم. يكي از راه ها اين است كه شبكه را علاوه بر داده هاي آزمايشي روي داده هاي تست نيز مرتبا اجرا كنيم و جريان تغيير خطا را در آنها بررسي كنيم. اگر در اين داده ها به جايي رسيديم كه ميزان خطا رو به افزايش بود حتي اگر خطا در داده هاي آزمايشي همچنان رو به كاهش باشد آموزش را متوقف كنيم.
از آنجايي كه پارامترهاي شبكه هاي عصبي زياد است يك خروجي خاص مي تواند با مجموعه هاي مختلفي از مقادير پارامترها ايجاد گردد درنتيجه اين پارامترها مثل وزن يالها قابل تفسير نبوده و معني خاصي نمي دهند يكي از مهمترين فوايد شبكه هاي عصبي قابليت اجراي آنها روي كامپيوترهاي موازي مي باشد.

١-٢ تكنيكها داده كاوي ……………………………………………………………………………………………………02
١-١-٢شبكه ها ي عصبي…………………………………………………………………………………………………02
2-2 مدلهاي داده كاوي…………………………………………………………………………………………………….82
1- ٢-٢رگرسي ون منطقي ……………………………………………………………………………………………….82
2- ٢-٢تحليل تفكيكي ……………………………………………………………………………………………………..92
3- ٢-٢مدل افزودن ي كلي (GAM).ا……………………………………………………………………………………..03
٣-٢ سلسله مراتب انتخابها……………………………………………………………………………………………….03

فصل سوم: وب كاوي

٣- فصل سوم: وب كاوي58
توسعه سريع تكنولوژي كامپيوتر، اللخصوص افزايش توانائي هاي و كاهش هزينه رسانه هاي ذخيره سازي منجر به ذخيره سازي انبوهي از اطلاعات داخلي و خارجي در پايگاه داده هاي بزرگ با كمترين هزينه شده است. با توجه به اين موارد تحقيقات وسيعي در زمينه معدن كاوي اطلاعات و دانش مفيد موجود درپايگاه داده هاي بزرگ صورت گرفته است. وجود تعداد وسيعي از داده ها در وب سايتها، اخيرا نيز داده كاوي از اين منابع براي برنامه هاي كاربردي وب جهان گستر جهت كمك به آماده كننده هاي وب سرويسها براي كاربران مورد توجه قرار گرفته است.
وب يك مجموعه وسيعي از اسناد بهم پيوند خورده با ارجاعات59 هست. مكانيسمي براي ارجاع از يك سند به سند ديگر بر پايه ابرپيوند كه از HTML جهت كدگذاري اسناد وب استفاده مي كند. HTML يك زبان تنظيماتي اوليه اي است كه توصيف كننده چگونگي نمايش يك سند در پنچره بروزر60 است. بروزرها برنامه هاي كامپيوتري هستند كه اسنادHTML را خوانده و نتيجه را نمايش مي دهند. اين برنامه هاي كلاينتي به وب سرورها كه اسناد واقعي وب را نگهداري مي كنند متصل شده و با درخواست بروزرها اسناد را به آنها ارسال مي كنند. هر سند وب داراي آدرسي است به نام ١۶URL، كه بطور انحصاري است، شناخته مي شود. URL بوسيله بروزرها براي درخواست اسناد از سرورها و در ابرپيوندها همانند ارجاع به يك سند وب ديگر استفاده مي شوند. اسناد وب و آدرسهاشان(URL) با هم در ارتباط هستند كه معمولا به عنوان صفحات وب خوانده مي شوند.

معرفي ساختارهاي وب جالب[ ١٧ ]

معرفي ساختارهاي وب جالب[ ١٧ ]

………………………………………………………………………………………………….33
١-٣ مقدمه ا ي براي وب كاوي …………………………………………………………………………………………..73
٢-٣ محتوا كاو ي وب ………………………………………………………………………………………………………83
3-3 ساختار كاوي وب……………………………………………………………………………………………………..83
1- ٣-٣تكنيكهاي تحليل ابرپيوندها ……………………………………………………………………………………….04
2- ٣-٣الگوريتم رتبه بندي صفحه وب ……………………………………………………………………………………24
3- ٣-٣الگوريتمHITS……………….ا………………………………………………………………………………………34
۴-٣ كاوش كاربرد ي وب …………………………………………………………………………………………………..74
۵-٣ سيستم وب كاوي ……………………………………………………………………………………………………06
١-۵-٣ الگوريتم KIM ….ا…………………………………………………………………………………………………..66
٢-۵-٣ارزيابي آنتولوژي …………………………………………………………………………………………………….17

– فصل چهارم: معماري سرويسگرا و وب سريس كاوي

۴- فصل چهارم: معماري سرويسگرا۶۴١ و وب سريس كاوي165
اصطلاح “معماري سرويس گرا” بيانگر ديدگاهي از معماري نرم افزار است كه استفاده از سرويس هاي نرم افزاري با درجه اتصال كم (Loosely Coupled) را جهت پشتيباني فرآيندهاي كسب و كار پيشنهاد مي كند. در حقيقت اين سبك از معماري از ديدگاه سنتي محصورسازي منطق كسب و كار تحت اشياء و مولفه ها پشتيباني مي كند، اين محصورسازي بر اساس فرآيندهاي حرفه مي باشد.
١-۴ سرويس چيست؟166
معماري سرويس گرا اصطلاحي است براي نشان دادن مدلي كه در آن منطق اتوماسيون به واحد هاي كوچكتر و مشخصي از منطق تجزيه مي شود . اين واحدها با يكديگر بخش بزرگتري از منطق اتوماسيون حرفه را تشكيل مي دهند و هر يك از آنها مي توانند جداگانه توزيع شوند.
سرويس عبارت است از “يك واحد از كار انجام شده توسط عرضه كننده خدمت براي دستيابي به نتيجه موردنظر مشتري”. نقش عرضه كننده و دريافت كننده سرويس با مولفه هاي نرم افزاري انجام مي شود.
يك سرويس درSOA به عنوان قطعه اي ازعملكردي است كه داراي سه خصوصيت اصلي زيرباشد:
– واسط سرويس مستقل از پيكربندي است.
– سرويس به طور پويا در جايي قرار مي گيرد و بازخواني مي شود.
– سرويس خودشمول است يعني سرويس وضعيت خود را نگه مي دارد.
سرويس ها مي توانند بخش هاي مختلفي از منطق را پوشش دهند

چگونگي كاركرد معماري سرويس

چگونگي كاركرد معماري سرويس

١-۴ سرويس چيست؟ ……………………………………………………………………………………………………57
٢-۴ وب سرويس استاندارد براي داده كاوي ……………………………………………………………………………08
٣-۴وب سرويس كاوي ……………………………………………………………………………………………………88

فصل پنچم: نتيجه گيري و پيشنهادات

١-۵نتيجه گيري ……………………………………………………………………………………………………………99
٢-۵بي ان مسئله و پيشنهادات ……………………………………………………………………………………….001
پيوستها ……………………………………………………………………………………………………………………501
پيوست٣: وب سرويس……………………………………………………………………………………………………021

پيوست۴XML : …ا………………………………………………………………………………………………………..721
منابع………………………………………………………………………………………………………………………..331

فهرست جداول

جدول١ – نتايج بدست آمده از روش KIM بر روي پنچ وب سايت ………………………………………………………٨١

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فهرست شکل ها

شكل١-١– فرايند كشف دانش………………………………………………………………………………………………… ۴١ شكل٢-١: سير تكاملي صنعت پايگاه داده…………………………………………………………………………………… ۴١ شكل٣-١: معماري يك نمونه سيستم داده كاوي……………………………………………………………………………. ۶١

شكل ۴-١- داده ها از انباره داه ها استخراج مي گردند……………………………………………………………………… ٢١

شكل ۵-١- داده ها از چند پايگاه داده استخراج شده اند ……………………………………………………………………..٢٢

شكل ۶-١- كلاسترينگ ناحيه اي…………………………………………………………………………………………………. ۵٢

شكل ٧-١- يك مثال از Classificationا……………………………………………………………………………………………. ۶٢

شكل ٨-١شبكه عصبي با يك لايه نهان………………………………………………………………………………………….. ٢٩ شكل٩-١ Wx,y وزن يال بين X و Y است …………………………………………………………………………………………٣٠

شكل ١٠-١ درخت تصميم گيري…………………………………………………………………………………………………… ٣١

شكل ١١-١محدوده همسايگي (بيستر همسايه ها در دسته X قرار گرفته اند)…………………………………………….. ۵٣ شكل١-٢- ساختار وب گراف…………………………………………………………………………………………………………. ٧۴ شكل٢-١- معرفي ساختارهاي وب جالب………………………………………………………………………………………….. ٨۴ شكل٣-٢- هسته دو قسمتي……………………………………………………………………………………………………….. ١۵ شكل ١-٣ زير گراف صفحات پيوندي ………………………………………………………………………………………………….۵۴ شكل ٢-٣ ماتريس مجاورتي A و بردارهاي وزني براي گراف مورد نظر…………………………………………………………… ۵۴ شكل٣-٣- فرايند كاوش كاربردي وب…………………………………………………………………………………………………. ۵۵ شكل۴-٣ فرايند استفاده از وب كاوي………………………………………………………………………………………………… ۵۶ شكل ۴-٣ يك معماري براي وب كاوي ٧۵ شكل۶-٣- معماري پردازش اوليه……………………………………………………. ٨۵
شكل٧-٣- جدول خصوصيات مشترك صفحات وب…………………………………………………………………………………… ٠۶ شكل ٨-٣ انواع تراكنش: منابع صفحه محتوا و كمكي برچسبهاي هستند………………………………………………………. ٢۶ شكل٩-٣- ديدكلي از روشKIM……………………………………………………………………………………………………….. ٧٣.
شكل ١٠-٣- شرح منو زيردرختي………………………………………………………………………………………………………. ۶٧ شكل١١-٣- الگوريتم براي استخراج يك ليست نمونه منو از يك صفحه وب………………………………………………………. ٧٨ شكل١-۴- چگونگي پوشش حرفه توسط سرويس………………………………………………………………………………….. ٨٣ شكل٢-۴- عناصر تشكيل دهنده معماري سرويس گرا ………………………………………………………………………………۴٨ شكل ٣-۴- چگونگي كاركرد معماري سرويس……………………………………………………………………………………….. ۶٨ شكل۴-۴- يك معماري از SOAP………………………………………………………………………………………………………… ٨٩ شكل۵-۴ سه بخش عمده وب سرويس ……………………………………………………………………………………………….٩٣ شكل۶-۴: نحوه تعامل وب سرويسها…………………………………………………………………………………………………. ۴٩ شكل٧-۴: آژانس مسافرتي آنلاين. WSDL و همنوائي آن…………………………………………………………………………. ٩٨ شكل ٨-۴مدل همنوائي آژانس مسافرتي آنلاين………………………………………………………………………………….. ٩٩ شكل٩-۴ نحوه ثبت Log از تعاملات بين استفاده كننده گان و سرور ……………………………………………………………١٠٠ شكل١٠-۴: مدل ارائه شده براي استخراج دانش از Log ها ……………………………………………………………………١٠١
شكل١١-۴: الگوريتم Apriori براي استخراج Association Rulesها……………………………………………………………. ١٠٣ شكل ١٢-۴ الگوريتم تحليل log وب سرويس براي استخراج ترتيبهاي قابل اجرا …………………………………………….۴١٠ شكل١٣-۴ ترتيب اجراي عمليات داخل سرويس…………………………………………………………………………………. ١٠٨

 

Abstract
The term data mining can be used to describe a wide range of activities. Nowadays, the world is information world and we encounter large volumes of data. This data could be analyzed and processed to reach information.
The rapid development and increased capacities and decreased costs of storage media, has led to store huge amounts of external and internal data in large databases at low cost.
Due to the vast amounts of data in websites, Data Bases, Multi Media, Web service and so on, data mining has recently been used. Mining useful information and helpful knowledge from these large databases has thus evolved into an important research area. Web mining has become a very important research topic in the field of data mining due to the vast amount of World Wide Web services in recent years. The www continues to grow at an astounding rate in both the sheer volume of traffic and the size and complexity of Web sites. The complexity of tasks, we need to analysis of how a Web site is being used, the web includes what structure and what content in web resource. Web service technology plays an increasing role in internet applications, in general, and e-commerce applications, in particular. As Web services play a more and more important role in information technology, service oriented systems can also be expected to grow larger in complexity. Such large systems demand for tools that allow for analyzing and monitoring of service-oriented systems in use. There are exist approaches to apply data mining and process mining to Web services and their interactions in order to provide a means to analyze interactions between Web service consumer and provider and detect of web service composition.
As Web service becomes bigger, behavior of people in this world that uses this web service becomes interesting and analysis of usage sequences can yield useful information about web services and the way they are used.


 

قیمت 25 هزار تومان

خرید فایل pdf به همراه فایلword

قیمت:35هزار تومان