مقدمه

اخیرا توانایی های فنی بشر در تولید و جمع آوری داده ها به سرعت افزایش یافته است عواملی نظیر استفاده گسترده از کامپیوتر در کسب و کار، علوم، خدمات دولتی و پیشرفت در وسائل جمع آوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهواره ای، در این تغییرات نقش مهمی داشته اند.
حجم بسیار بالای سایتهای طراحی شده و موجود در بستر وب؛ تنوع و حجم بالای اطلاعات موجود در آنها، تکنیکها و توزیع شدگی منابع به معظلی بزرگ در استفاده از این منابع تبدیل شده است. در واقع مشکل از آنجائی ناشی می شود که منابع به اندازه کافی موجود است، ولی بصورت خام و پخش شده در رسانه های مختلف و با حجم زیاد. مشکل اصلی دربدست آوردن دانش موجود در آنها و اینکه دانش مورد نیاز ما در چه منابعی و به چه صورتی واقع شده است؛ می باشد.
این رشد انفجاری در دادههای ذخیره شده، نیاز مبرم به وجود تکنولوژی های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند: داده کاوی به عنوان یک راه حل برای این مسائل مطرح می شود.
بطورغیر رسمی داده کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می کنند، که این دانش به صورت ضمنی در پایگاه داده های عظیم، انباره داده1، صفحات وب، منابع توزیع شده و دیگر مخازن بزرگ اطلاعات، ذخیره شده است. داده کاوی تکنیکی است که بطور همزمان از چندین رشته علمی نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه های عصبی، آمار، شناسایی الگو، سیستم های مبتنی بر دانش2، حصول دانش3، بازیابی اطلاعات4، محاسبات سرعت بالا5 و بازنمایی بصری داده6 بهره می برد.
داده کاوی در اواخر دهه 1980 پدیدار گشته، در دهه 1990 گامهای بلندی در این شاخه از علم برداشته شد و انتظار می رود در این قرن به رشد و پیشرفت خود ادامه دهد.
کشف دانش از منابع داده فرایند شناسایی درست، ساده، مفید، و نهایتا الگوها و مدلهای قابل فهم در داده ها می باشد. داده کاوی، مرحله ای از فرایند کشف دانش می باشد و شامل الگوریتمهای مخصوص داده کاوی است، بطوریکه، تحت محدودیتهای مؤثر محاسباتی قابل قبول، الگوها و یا مدلها را در داده کشف می کند. به بیان ساده تر، داده کاوی به فرایند استخراج دانش ناشناخته، درست، و بالقوه مفید از داده اطلاق می شود.
تعریف دیگر اینست که، داده کاوی گونه ای از تکنیکها برای شناسایی اطلاعات و یا دانش تصمیم گیری از قطعات داده می باشد، به نحوی که با استخراج آنها، در حوزه های تصمیم گیری، پیش بینی، پیشگویی، و تخمین مورد استفاده قرار گیرند. داده ها اغلب حجیم ، اما بدون ارزش می باشند، داده به تنهایی قابل استفاده نیست، بلکه دانش نهفته در داده ها قابل استفاده می باشد. به این دلیل اغلب به داده کاوی، تحلیل داده ای ثانویه7 گفته می شود.
داده کاوی از منابع توزیع شده متفاوت تر از داده کاوی از منایع متمرکز است. مشکل داده کاوی از منابع توزیع شده (مانند وب) در محتویات غیر ساخت یافته و یا شبه ساخت یافته این منابع است. منابع توزیع شده، برخلاف منابع متمرکز، دارای یک ساختار استاندارد مناسب نیستند و از سبک و شیوه نگارشی متنوع محتوائی نسبت به آنچه که در مجموعه منابع متمرکز وجود دارد، پیروی می کنند.
فصل اول این سمیناریک مرور سریع بر معرفی داده کاوی؛ مدلها و روشهای موجود در آن پرداخته است، فصل دوم مدل ها و الگوریتم های داده کاوی به صورت اجمالی برسی شده؛ در فصل سوم مدل وب کاوی مطرح شده است در این فصل تکنیکها و الگوریتمهای مختلف وب کاوی برسی شده است، در این بخش الگوریتمهای داده کاوی از وب نیز معرفی شده است در فصل چهارم وب سرویس و معماری وب سرویس و XML و چگونگی داده کاوی از وب سرویسها مطرح شده است. در فصل چهارم یکسری ایده ها و سوالاتی در رابطه با وب سرویس کاوی مطرح شده است.

مدل ها و الگوریتم های داده کاوی و بررسی معماری سرویس گرا در وب کاوی

مدل ها و الگوریتم های داده کاوی و بررسی معماری سرویس گرا در وب کاوی

فهرست مطالب

چکیده ……………………………………………………………………………………………………………………….2
مقدمه ……………………………………………………………………………………………………………………….4

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

– فصل اول: مقدمه ای بر داده کاوی (کلیات و پیشینه و بیان اهداف)

اصلی ترین دلیلی که باعث شد داده کاوی کانون توجهات در صنعت اطلاعات قرار بگیرد، مساله در دسترس بودن حجم وسیعی از داده ها و نیاز شدید به اینکه از این داده ها اطلاعات و دانش سودمند را به چه صورتی استخراج کنیم؛ بود. با افزایش حجم و رسانه های ذخیره و بازیابی اطلاعات تکنیکها و الگوریتمهای جدید نیز ارائه می شود اطلاعات و دانش بدست آمده در کاربردهای وسیعی از مدیریت کسب و کار وکنترل تولید و تحلیل بازار تا طراحی مهندسی و تحقیقات علمی مورد استفاده قرار می گیرد.
داده کاوی را می توان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاه داده می باشد، نظیر عملیات: جمع آوری داده ها وایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده ها. در شکل1-2 این روند تکاملی در پایگاه های داده نشان داده شده است.
تکامل تکنولوژی پایگاه داده و استفاده فراوان آن در کاربردهای مختلف سبب جمع آوری حجم فراوانی داده شده است. این داده های فراوان باعث ایجاد نیاز برای ابزارهای قدرتمند برای تحلیل داده ها گشته است.
ابزارهای داده کاوی داده ها را آنالیز می کنند و الگوهای داده ای را کشف می کنند که می توان از آن در کاربردهایی نظیر: تعیین استراتژی برای کسب و کار، پایگاه دانش9 و تحقیقات علمی و پزشکی، استفاده کرد. شکاف موجود بین داده ها و اطلاعات سبب ایجاد نیاز برای ابزارهای داده کاوی شده است تا داده های بی ارزش را به دانشی ارزشمند تبدیل کنیم.
به طور ساده داده کاوی به معنای استخراج یا »معدن کاری10« دانش از مقدار زیادی داده خام است. البته اسامی دیگری نیز برای این فرآیند پیشنهاد شده که بعضا بسیاری متفاوت با واژه داده کاوی است، نظیر:

٨ Data Mining
١٠٩ Knowledge base Mining
مراحل کشف دانش
کشف دانش دارای مراحل تکراری زیر است:
• پاکسازی داده ها14 (از بین بردن نویز و ناسازگاری داده ها).
• یکپارچه سازی داده ها15 (چندین منبع داده ترکیب می شوند).
• انتخاب داده ها16 (داده های مرتبط با آنالیزازپایگاه داده بازیابی می شوند).
• تبدیل کردن داده ها17 (تبدیل داده ها به فرمی که مناسب برای داده کاوی باشد مثل خلاصه سازی18 و همسان سازی19
• داده کاوی (فرایند اصلی که روالهای هوشمند برای استخراج الگوها از داده ها به کار گرفته می شوند.)
• ارزیابی الگو20 (برای مشخص کردن الگوهای صحیح و مورد نظربه وسیله معیارهای اندازه گیری)
• ارائه دانش21 (یعنی نمایش بصری، تکنیکهای بازنمایی دانش برای ارائه دانش کشف شده به کاربر

– فرایند کشف دانش

– فرایند کشف دانش

١-١- داده کاو ی چیست؟ ………………………………………………………………………………………………….6
٢-١ توصیف داده ها در داده کاوی………………………………………………………………………………………….51
٣-١ مدل ها ی پ یش بینی داده ها …………………………………………………………………………………….81

2- فصل دوم: مدل ها و الگوریتم های داده کاوی

در این فصل قصد داریم مهمترین الگوریتم ها و مدل های داده کاوی را بررسی کنیم. بسیاری از محصولات تجاری داده کاوی از مجموعه از این الگوریتم ها استفاده می کنند و معمولا هر کدام آنها در یک بخش خاص قدرت دارند و برای استفاده از یکی از آنها باید بررسی های لازم در جهت انتخاب متناسب ترین محصول توسط گروه متخصص در نظر گرفته شود.

شبکه های عصبی از پرکاربردترین و عملی ترین روش های مدل سازی مسائل پیچیده و بزرگ که شامل صدها متغیر هستند می باشد. شبکه های عصبی می توانند برای مسائل کلاس بندی (که خروجی یک کلاس است) یا مسائل رگرسیون (که خروجی یک مقدار عددی است) استفاده شوند. ۴٩ Neural Networks هر شبکه عصبی شامل یک لایه ورودی50 است که هر گره در این لایه معادل یکی از متغیرهای پیش بینی می باشد. گره های موجود در لایه میانی وصل می شوند به تعدادی گره در لایه نهان51 . هر گره ورودی به همه گره های لایه نهان وصل می شود. گره های موجود در لایه نهان می توانند به گره های یک لایه نهان دیگر وصل شوند یا اینکه به لایه خروجی 52 وصل شوند. لایه خروجی شامل یک یا چند متغیر خروجی می باشد[٧ ].

به هر بار اجرای این الگوریتم برای تمام داده های موجود در بانک یک دوره 54 گفته می شود این دوره ها آنقدر ادامه می یابد که دیگر مقدار خطا تغییر نکند.
از آنجایی که تعداد پارامترها در شبکه های عصبی زیاد می باشد محاسبات این شبکه ها می تواند وقت گیر باشد ولی اگر این شبکه ها به مدت کافی اجرا گردند معمولا موفقیت آمیز خواهند بود. مشکل دیگری که ممکن است به وجود بیاید Overfitting می باشد و آن بدین صورت است که که شبکه فقط روی داده ها آموزشی خوب کار می کند و برای سایر مجموعه داده ها مناسب نمی باشد. برای رفع این مشکل ما باید بدانیم چه زمانی آموزش شبکه را متوقف کنیم. یکی از راه ها این است که شبکه را علاوه بر داده های آزمایشی روی داده های تست نیز مرتبا اجرا کنیم و جریان تغییر خطا را در آنها بررسی کنیم. اگر در این داده ها به جایی رسیدیم که میزان خطا رو به افزایش بود حتی اگر خطا در داده های آزمایشی همچنان رو به کاهش باشد آموزش را متوقف کنیم.
از آنجایی که پارامترهای شبکه های عصبی زیاد است یک خروجی خاص می تواند با مجموعه های مختلفی از مقادیر پارامترها ایجاد گردد درنتیجه این پارامترها مثل وزن یالها قابل تفسیر نبوده و معنی خاصی نمی دهند یکی از مهمترین فواید شبکه های عصبی قابلیت اجرای آنها روی کامپیوترهای موازی می باشد.

١-٢ تکنیکها داده کاوی ……………………………………………………………………………………………………02
١-١-٢شبکه ها ی عصبی…………………………………………………………………………………………………02
2-2 مدلهای داده کاوی…………………………………………………………………………………………………….82
1- ٢-٢رگرسی ون منطقی ……………………………………………………………………………………………….82
2- ٢-٢تحلیل تفکیکی ……………………………………………………………………………………………………..92
3- ٢-٢مدل افزودن ی کلی (GAM).ا……………………………………………………………………………………..03
٣-٢ سلسله مراتب انتخابها……………………………………………………………………………………………….03

فصل سوم: وب کاوی

٣- فصل سوم: وب کاوی58
توسعه سریع تکنولوژی کامپیوتر، اللخصوص افزایش توانائی های و کاهش هزینه رسانه های ذخیره سازی منجر به ذخیره سازی انبوهی از اطلاعات داخلی و خارجی در پایگاه داده های بزرگ با کمترین هزینه شده است. با توجه به این موارد تحقیقات وسیعی در زمینه معدن کاوی اطلاعات و دانش مفید موجود درپایگاه داده های بزرگ صورت گرفته است. وجود تعداد وسیعی از داده ها در وب سایتها، اخیرا نیز داده کاوی از این منابع برای برنامه های کاربردی وب جهان گستر جهت کمک به آماده کننده های وب سرویسها برای کاربران مورد توجه قرار گرفته است.
وب یک مجموعه وسیعی از اسناد بهم پیوند خورده با ارجاعات59 هست. مکانیسمی برای ارجاع از یک سند به سند دیگر بر پایه ابرپیوند که از HTML جهت کدگذاری اسناد وب استفاده می کند. HTML یک زبان تنظیماتی اولیه ای است که توصیف کننده چگونگی نمایش یک سند در پنچره بروزر60 است. بروزرها برنامه های کامپیوتری هستند که اسنادHTML را خوانده و نتیجه را نمایش می دهند. این برنامه های کلاینتی به وب سرورها که اسناد واقعی وب را نگهداری می کنند متصل شده و با درخواست بروزرها اسناد را به آنها ارسال می کنند. هر سند وب دارای آدرسی است به نام ١۶URL، که بطور انحصاری است، شناخته می شود. URL بوسیله بروزرها برای درخواست اسناد از سرورها و در ابرپیوندها همانند ارجاع به یک سند وب دیگر استفاده می شوند. اسناد وب و آدرسهاشان(URL) با هم در ارتباط هستند که معمولا به عنوان صفحات وب خوانده می شوند.

معرفی ساختارهای وب جالب[ ١٧ ]

معرفی ساختارهای وب جالب[ ١٧ ]

………………………………………………………………………………………………….33
١-٣ مقدمه ا ی برای وب کاوی …………………………………………………………………………………………..73
٢-٣ محتوا کاو ی وب ………………………………………………………………………………………………………83
3-3 ساختار کاوی وب……………………………………………………………………………………………………..83
1- ٣-٣تکنیکهای تحلیل ابرپیوندها ……………………………………………………………………………………….04
2- ٣-٣الگوریتم رتبه بندی صفحه وب ……………………………………………………………………………………24
3- ٣-٣الگوریتمHITS……………….ا………………………………………………………………………………………34
۴-٣ کاوش کاربرد ی وب …………………………………………………………………………………………………..74
۵-٣ سیستم وب کاوی ……………………………………………………………………………………………………06
١-۵-٣ الگوریتم KIM ….ا…………………………………………………………………………………………………..66
٢-۵-٣ارزیابی آنتولوژی …………………………………………………………………………………………………….17

– فصل چهارم: معماری سرویسگرا و وب سریس کاوی

۴- فصل چهارم: معماری سرویسگرا۶۴١ و وب سریس کاوی165
اصطلاح “معماری سرویس گرا” بیانگر دیدگاهی از معماری نرم افزار است که استفاده از سرویس های نرم افزاری با درجه اتصال کم (Loosely Coupled) را جهت پشتیبانی فرآیندهای کسب و کار پیشنهاد می کند. در حقیقت این سبک از معماری از دیدگاه سنتی محصورسازی منطق کسب و کار تحت اشیاء و مولفه ها پشتیبانی می کند، این محصورسازی بر اساس فرآیندهای حرفه می باشد.
١-۴ سرویس چیست؟166
معماری سرویس گرا اصطلاحی است برای نشان دادن مدلی که در آن منطق اتوماسیون به واحد های کوچکتر و مشخصی از منطق تجزیه می شود . این واحدها با یکدیگر بخش بزرگتری از منطق اتوماسیون حرفه را تشکیل می دهند و هر یک از آنها می توانند جداگانه توزیع شوند.
سرویس عبارت است از “یک واحد از کار انجام شده توسط عرضه کننده خدمت برای دستیابی به نتیجه موردنظر مشتری”. نقش عرضه کننده و دریافت کننده سرویس با مولفه های نرم افزاری انجام می شود.
یک سرویس درSOA به عنوان قطعه ای ازعملکردی است که دارای سه خصوصیت اصلی زیرباشد:
– واسط سرویس مستقل از پیکربندی است.
– سرویس به طور پویا در جایی قرار می گیرد و بازخوانی می شود.
– سرویس خودشمول است یعنی سرویس وضعیت خود را نگه می دارد.
سرویس ها می توانند بخش های مختلفی از منطق را پوشش دهند

چگونگی کارکرد معماری سرویس

چگونگی کارکرد معماری سرویس

١-۴ سرویس چیست؟ ……………………………………………………………………………………………………57
٢-۴ وب سرویس استاندارد برای داده کاوی ……………………………………………………………………………08
٣-۴وب سرویس کاوی ……………………………………………………………………………………………………88

فصل پنچم: نتیجه گیری و پیشنهادات

١-۵نتیجه گیری ……………………………………………………………………………………………………………99
٢-۵بی ان مسئله و پیشنهادات ……………………………………………………………………………………….001
پیوستها ……………………………………………………………………………………………………………………501
پیوست٣: وب سرویس……………………………………………………………………………………………………021

پیوست۴XML : …ا………………………………………………………………………………………………………..721
منابع………………………………………………………………………………………………………………………..331

فهرست جداول

جدول١ – نتایج بدست آمده از روش KIM بر روی پنچ وب سایت ………………………………………………………٨١

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فهرست شکل ها

شکل١-١– فرایند کشف دانش………………………………………………………………………………………………… ۴١ شکل٢-١: سیر تکاملی صنعت پایگاه داده…………………………………………………………………………………… ۴١ شکل٣-١: معماری یک نمونه سیستم داده کاوی……………………………………………………………………………. ۶١

شکل ۴-١- داده ها از انباره داه ها استخراج می گردند……………………………………………………………………… ٢١

شکل ۵-١- داده ها از چند پایگاه داده استخراج شده اند ……………………………………………………………………..٢٢

شکل ۶-١- کلاسترینگ ناحیه ای…………………………………………………………………………………………………. ۵٢

شکل ٧-١- یک مثال از Classificationا……………………………………………………………………………………………. ۶٢

شکل ٨-١شبکه عصبی با یک لایه نهان………………………………………………………………………………………….. ٢٩ شکل٩-١ Wx,y وزن یال بین X و Y است …………………………………………………………………………………………٣٠

شکل ١٠-١ درخت تصمیم گیری…………………………………………………………………………………………………… ٣١

شکل ١١-١محدوده همسایگی (بیستر همسایه ها در دسته X قرار گرفته اند)…………………………………………….. ۵٣ شکل١-٢- ساختار وب گراف…………………………………………………………………………………………………………. ٧۴ شکل٢-١- معرفی ساختارهای وب جالب………………………………………………………………………………………….. ٨۴ شکل٣-٢- هسته دو قسمتی……………………………………………………………………………………………………….. ١۵ شکل ١-٣ زیر گراف صفحات پیوندی ………………………………………………………………………………………………….۵۴ شکل ٢-٣ ماتریس مجاورتی A و بردارهای وزنی برای گراف مورد نظر…………………………………………………………… ۵۴ شکل٣-٣- فرایند کاوش کاربردی وب…………………………………………………………………………………………………. ۵۵ شکل۴-٣ فرایند استفاده از وب کاوی………………………………………………………………………………………………… ۵۶ شکل ۴-٣ یک معماری برای وب کاوی ٧۵ شکل۶-٣- معماری پردازش اولیه……………………………………………………. ٨۵
شکل٧-٣- جدول خصوصیات مشترک صفحات وب…………………………………………………………………………………… ٠۶ شکل ٨-٣ انواع تراکنش: منابع صفحه محتوا و کمکی برچسبهای هستند………………………………………………………. ٢۶ شکل٩-٣- دیدکلی از روشKIM……………………………………………………………………………………………………….. ٧٣.
شکل ١٠-٣- شرح منو زیردرختی………………………………………………………………………………………………………. ۶٧ شکل١١-٣- الگوریتم برای استخراج یک لیست نمونه منو از یک صفحه وب………………………………………………………. ٧٨ شکل١-۴- چگونگی پوشش حرفه توسط سرویس………………………………………………………………………………….. ٨٣ شکل٢-۴- عناصر تشکیل دهنده معماری سرویس گرا ………………………………………………………………………………۴٨ شکل ٣-۴- چگونگی کارکرد معماری سرویس……………………………………………………………………………………….. ۶٨ شکل۴-۴- یک معماری از SOAP………………………………………………………………………………………………………… ٨٩ شکل۵-۴ سه بخش عمده وب سرویس ……………………………………………………………………………………………….٩٣ شکل۶-۴: نحوه تعامل وب سرویسها…………………………………………………………………………………………………. ۴٩ شکل٧-۴: آژانس مسافرتی آنلاین. WSDL و همنوائی آن…………………………………………………………………………. ٩٨ شکل ٨-۴مدل همنوائی آژانس مسافرتی آنلاین………………………………………………………………………………….. ٩٩ شکل٩-۴ نحوه ثبت Log از تعاملات بین استفاده کننده گان و سرور ……………………………………………………………١٠٠ شکل١٠-۴: مدل ارائه شده برای استخراج دانش از Log ها ……………………………………………………………………١٠١
شکل١١-۴: الگوریتم Apriori برای استخراج Association Rulesها……………………………………………………………. ١٠٣ شکل ١٢-۴ الگوریتم تحلیل log وب سرویس برای استخراج ترتیبهای قابل اجرا …………………………………………….۴١٠ شکل١٣-۴ ترتیب اجرای عملیات داخل سرویس…………………………………………………………………………………. ١٠٨

 

Abstract
The term data mining can be used to describe a wide range of activities. Nowadays, the world is information world and we encounter large volumes of data. This data could be analyzed and processed to reach information.
The rapid development and increased capacities and decreased costs of storage media, has led to store huge amounts of external and internal data in large databases at low cost.
Due to the vast amounts of data in websites, Data Bases, Multi Media, Web service and so on, data mining has recently been used. Mining useful information and helpful knowledge from these large databases has thus evolved into an important research area. Web mining has become a very important research topic in the field of data mining due to the vast amount of World Wide Web services in recent years. The www continues to grow at an astounding rate in both the sheer volume of traffic and the size and complexity of Web sites. The complexity of tasks, we need to analysis of how a Web site is being used, the web includes what structure and what content in web resource. Web service technology plays an increasing role in internet applications, in general, and e-commerce applications, in particular. As Web services play a more and more important role in information technology, service oriented systems can also be expected to grow larger in complexity. Such large systems demand for tools that allow for analyzing and monitoring of service-oriented systems in use. There are exist approaches to apply data mining and process mining to Web services and their interactions in order to provide a means to analyze interactions between Web service consumer and provider and detect of web service composition.
As Web service becomes bigger, behavior of people in this world that uses this web service becomes interesting and analysis of usage sequences can yield useful information about web services and the way they are used.


 

قیمت 25 هزار تومان

خرید فایل pdf به همراه فایلword

قیمت:35هزار تومان