انتخاب صفحه

مقدمه
چارلز داروین نخستین کتاب درباره بیان احساسات انسان و حیوان را در قرن نوزدهم نگاشت. پس از این اثر مهم روانشناسان و متخصصان هوش مصنوعی به تدریج به جمع آوری دانش و اطلاعات در این زمینه پرداختند. اخیراً نیز موج جدیدی از توجه روانشناسان و متخصصان هوش مصنوعی را بر انگیخته است.
بعضی از دلایل این رنسانس عبارتند از :
پیشرفت فناوری در ثبت, ذخیره و تحلیل اطلاعات صوتی و تصویری, پیشرفت در فناوری حسگر
هایnone intrusive و کامپیوتر های فرسایش پذیر , بالا رفتن سطح فناوری ارتباط انسان و رایانه از نقطه و کلیک به حس و عاطفه و نرم افزار های زنده وار مخصوص کمک به انسان و رباتهای حیوان شکل خانگی از قبیل Furbi های شرکت تایگر, Aibo های شرکت سونی که قادر به درک و بیان احساسات می باشد. به تازگی زمینه های تحقیقاتی جدیدی در هوش مصنوعی(AI) تحت عنوان محاسبه عاطفی ایجاد شده است. در حوزه رمز گشایی و توصیف و به تصویر کشیدن حالات در گفتار، تا کنون روانشناسان به آزمایشات تجربی بسیاری دست زده اند و فرضیه هایی ارائه داده اند و از طرف دیگر محققان هوش مصنوعی نیز در شاخه های زیر تحقیقات ارزنده ای انجام داده اند:
ساخت و ترکیب حالات گفتار, باز شناسایی حالات گفتار و استفاده از نرم افزار هایی برای رمز گشایی و بیان حالات. انگیزه ما تحقیق و کاوش در راههای استفاده از بازشناسی حالات گفتار است که می تواند در تجارت (به خصوص کاربرد آن در یک مرکز تلفن), یک کاربرد بالقوه آن تشخیص حالت گفتاری در یک مکالمه تلفنی و ایجاد فیدبک به یک اپراتور یا سرپرست به منظور نمایش باشد. کاربرد دیگر آن ذخیره پیامهای صوتی طبق حالت بیان شده توسط تماس گیرنده می باشد. و کاربرد دیگر آن استفاده از محتوای حالت احساسی مکالمات جهت ارزیابی عملکرد اپراتور است.
شناسایی خودکار حالت گفتار با توجه با حالات صورت، حرکات بدن و یا ویژگی های گفتار از امیدبخش ترین روش های بازشناسی حالت گفتار ثابت شده است. بخصوص در زمینه سیستم های امنیتی در سالهای اخیر علاقه مندی های بسیاری مشاهده شده است.
حال می خواهیم بدانیم که منظور از حالت در گفتار چیست؟ اگر تا کنون در چند سخنرانی شرکت کرده باشید خواهید دید که برخی از سخنرانی ها جذاب و برخی خسته کننده می باشند. این موضوع علاوه بر موضوع سخنرانی به نحوه بیان سخنران نیز بستگی دارد. اگر سخنران گفتاری یکنواخت داشته باشد همانند یک ربات خواهد بود، که باعث خواب آلودگی شنونده می شود. بنابراین سخنرانان حرفه ای با تغییر آهنگ گفتار خویش و با حرکات به موقع دست، سر و بدن خویش، با تاکید روی برخی کلمات، بیان برخی جملات با تعجب برخی با افسوس و… حال و هوای سخنرانی را تغییر می دهند. این تغییرات در نحوه بیان جملات و کلمات را “حالت در گفتار” گویند. بعبارت دیگر ادای جملات به هر شکلی غیر از حالت عادی و یکنواخت بعنوان یک حالت شناخته می شود. حالات مختلف ممکن از قبیل: خشم، تنفر، ترس، شادی، غم، هیجان، آرامش، کسالت، افسردگی و … می باشند. حتی در برخی از مواقع در مورد میزان یک حالت بحث می شود، مثلا شاد با خیلی شاد را در نظر می گیرند. اضافه کردن حالت طبیعی به این حالت ها معقول بنظر می رسد تا هر کدام از این حالت ها درک شوند. یعنی برای در نظر گرفتن یک حالت جدید یک سری تغییرات باید نسبت به یک مبدا وجود داشته باشد و در اینگونه کار ها مبنا حالت طبیعی و بدون حالت می باشد. این طبقه بندی بعنوان اساس مقایسه استفاده می شود. امروزه آمار عمومی از یک عبارت بعنوان اساس کار است، اگر چه سعی در استفاده از ویژگیهای ذاتی موجود را دارند.

بررسی الگوریتم های بازیابی گفتار

بررسی الگوریتم های بازیابی گفتار

فهرست مطالب
چکیده ……………………………………………………………………………………………………………………….1
مقدمه …………………………………………………………………………………………………………………….2

فصل اول: اصول کلی در ایجاد حالت در گفتار و شناسایی حالت گفتار ……………………………… 7

1 – ایجاد و بازشناسی حالت در گفتار ……………………………………………………………………………………………………… 7
1 -1- روابط صوتی حالت در گفتار انسانی …………………………………………………………………………………………………. 8
1 -2- ایجاد گفتار حالتدار کارتونی ………………………………………………………………………………………………………….. 10
1 -2-1 – هدف ………………………………………………………………………………………………………………………………… 10
1 -2-2- تحقیقات موجود …………………………………………………………………………………………………………………….. 11
1 -2-3 – الگوریتم ساده و کامل ……………………………………………………………………………………………………………… 12
1 -2-4- ارزیابی با نمونههای انسانی ……………………………………………………………………………………………………….. 16
1 -2-5- تغییر مستمر سن صدا و میزان حالت ……………………………………………………………………………………………… 19
1 -3- ارزیابی سن و کنترل میزان حالت ……………………………………………………………………………………………………… 20
1 -4- بازشناسی حالت در گفتار انسانی ……………………………………………………………………………………………………. 20
1 -4-1- هدف …………………………………………………………………………………………………………………………………… 20
1 -4-2- تحقیقهای موجود ……………………………………………………………………………………………………………………. 21
1 -4-3- پایگاه داده …………………………………………………………………………………………………………………………….. 22
1 -4-4- استفاده از تکنیک های استخراج داده ها …………………………………………………………………………………………. 23
1 -4-5- انتخاب ویژگی ………………………………………………………………………………………………………………………… 26
1 -4-6- زمانیکه تعداد نمونههای خیلی کمی فراهم باشد ……………………………………………………………………………….. 31
1 -4-7- آموزش ربات در حالت واقعی ………………………………………………………………………………………………………. 33
1 -5- نتیجه گیری …………………………………………………………………………………………………………………………………. 34

فصل دوم: روشهای شناسایی حالت گفتار و برخی کاربردها در این زمینه ………………………. 36

1- مقایسه الگوریتمهای شبکه عصبی، 3-NN، SVM و درخت تصـمیم گیـری در سیسـتم هـایپاسخگویی صوتی متقابل …………. 36
1 -1- بازشناسی حالت …………………………………………………………………………………………………………………………… 37
1 -2- بانک اطلاعاتی ……………………………………………………………………………………………………………………………….. 38
1 -3- استخراج ویژگیها …………………………………………………………………………………………………………………… 39
1 -3-1 – ویژگیهای فرکانس پایه (0F) ………………………………………….ا……………………………………………………… 39
1 -3-2 – ویژگیهای انرژی …………………………………………………………………………………………………………………. 39
1 -3-3 – ویژگیهای طول زمان شنیداری ……………………………………………………………………………………………….. 40
1 -4- گروهبندی و نتایج ………………………………………………………………………………………………………………….. 41
1 -4-1- بازشناسی خیلی خشمگین و عادی …………………………………………………………………………………………. 41
1 -4-2- بازشناسی عصبانیت شدید و کم در برابر غم / عادی ……………………………………………………………………….. 43
1 -4-3- بازشناسی شادی, عادی/غم, عصبانیت شدید ………………………………………………………………………………. 45
1 -4-4- کدام حالت ها از لحاظ نوای گفتار به یکدیگر نزدیک اند؟ ……………………………………………………………………… 45
1 -4-5 -بازشناسی همه 15 حالت ……………………………………………………………………………………………………….. 47
1 -5- نتیجه گیری …………………………………………………………………………………………………………………………… 47

استفاده از GMM ها برای بازشناسی حالت در گفتار روزمره ………… 49

2-1- موضوع …………………………………………………………………………………………………………………………… 50
2-1-1 – موضوع فراهم کننده صدا ………………………………………………………………………………………………….. 50
2-1- 2-مجموعه های جلسات ISL …………………………………….ا…………………………………………………………. 51
2-2- ویژگی ها ……………………………………………………………………………………………………………………….. 52
2-2- 1-ضرایب کپسترال فرکانس mel ………………………………………………ا…………………………………………….. 52
2-2-2- MFCC پایین …………………………………………………………………………………………………………………….. 53
2-2-3- فرکانس گام و مشتق آن ……………………………………………………………………………………………… 53
2-3- طبقه بندی کننده ها ……………………………………………………………………………………………………… 53
2-3-1 – ترکیب طبقه بندی کننده ها ………………………………………………………………………………………….. 54
2-4- آزمایشات …………………………………………………………………………………………………………………… 54
2-5- نتایج ………………………………………………………………………………………………………………………… 55
2-5-1 نتایج فراهم کننده صدا …………………………………………………………………………………………………. 55
2-5-2نتایج گروه انجمنی ISL (meeting corpus)……………………………………………………………………ا………..57
2-6- بحث …………………………………………………………………………………………………………………………. 58
2-7- جمع بندی ……………………………………………………………………………………………………………………58

3 – شناسایی و تشخیص حالت گفتار با استفاده از K-NN و شبکه های عصبی …………….. 60

3 -1 تحقیق آزمایشگاهی ……………………………………………………………………………………………………….. 60
3-1-1 – مجموعه داده های حالتدار ( گفتار های حالتدار ) ………………………………………………………………….. 61
3-1-2 – عملکرد افراد ……………………………………………………………………………………………………………. 61
3 -2- توسعه ……………………………………………………………………………………………………………… 65
3-2-1 – استخراج ویژگیها ………………………………………………………………………………………………… 65
3-2-2-اجرای کامپیوتری …………………………………………………………………………………………………. 66

بازشناسی حالت با استفاده از آنالیز تفکیک کننده درجه دوم ، خطی و ماشین بردارپشتیبان
گوسی و مدل مارکوف مخفی و مقایسه آنها با یکدیگر ……………………………….. 68

4-1- بازشناسی حالت …………………………………………………………………… 69
4 -1-1- استخراج ویژگی …………………………………………………………………………………………………………….. 69
4 -1-2- انتخاب ویژگی ………………………………………………………………………………………………………………. 71
4 -1-3-طبقه بندی ……………………………………………………………………………………………………………………. 71
4-2- نتایج آزمایشگاهی استفاده از پایگاه داده SusAs ……………………ا…………………………………………………….. 72
4 -2-1- نتایج گزینش ویژگی منحصر به فرد ……………………………………………………………………………………….. 72
4 -2-2 – نتایج گزینش ویژگی گروه …………………………………………………………………………………………………. 74
4 -2-3 – نتایج طبقه بندی حالت گفتار …………………………………………………………………………………………….. 74
4-3- نتایج آزمایشگاهی استفاده از پایگاه داده ALBO ……..ا……………………………………………………………………. 76
4 -3-1- نتایج دسته بندی جفتهای مشابه(Pair-wise) ……………..ا…………………………………………………………… 76
4 -3-2 – دسته بندی چند کلاسه با استفاده از GSVM و HMM ……………ا………………………………………………….. 78
4-4- بحث ………………………………………………………………………………………………………………………………. 79
4-5- نتیجه ……………………………………………………………………………………………………………………………… 79
5- بازشناسی حالت گفتار با استفاده از رای اکثریت کارشناسان زیرفضا(KNN) …………ا…………………………………….81

5-1- استخراج ویژگی ها ……………………………………………………………………………………………………………… 82
5-1 -1- ویژگی های استخراج شده پایه …………………………………………………………………………………………… 83
5-1 -2- جستجو برای یافتن ویژگی های بهینه ……………………………………………………………………………………. 83
5-2- عملکرد پایه …………………………………………………………………………………………………………………………84
5-3 – بهینه سازی استاندارد فاصله ………………………………………………………………………………………………….. 86
5-4- انتخاب ویژگی …………………………………………………………………………………………………………………….. 87
5-5- رای اکثریت کارشناسان …………………………………………………………………………………………………………. 88
5-6- بحث ………………………………………………………………………………………………………………………………… 90
5-7- جمع بندی ………………………………………………………………………………………………………………………….. 90

6- بازشناسی حالات گفتار چندزبانه با استفاده از آنالیز مؤلفه های اصلی …….. 92

6-1- مرور بر آزمایش بازشناسی حالات ……………………………………………………………………………………………… 92
6 -1-1- مؤلفه های اساسی آزمایش بازشناسی حالات……………………………………………………………………………. 92
6 -1-2 – مجموعه گفتار مورد استفاده برای آنالیز و بازشناسی …………………………………………………………………… 93
6 -1-3- استخراج و آنالیز ویژگیهای نوای گفتار ……………………………………………………………………………………….. 93
6-2- تفکیک پذیری حالات احساسی ……………………………………………………………………………………………………. 94
6-3- بازشناسی حالت گفتار چند زبانه ……………………………………………………………………………………………….. 96
6 -3-1- آنالیزمولفه های اصلی ……………………………………………………………………………………………………………. 96
6 -3-2 -آزمایش ها و نتایج …………………………………………………………………………………………………………………. 97
6-4- نتایج …………………………………………………………………………………………………………………………………. 98
7- بازشناسی حالت از سیگنالهای بالقوه زیستی چند مدلی با استفاده از شـبکه هـای عصـبی و SVM……..ا……………… 99
7 -1- جمع آوری داده های حالت دار…………………………………………………………………………………………………. 100
7-1 -1- تجهیزات آزمایشی ………………………………………………………………………………………………………………. 100
7-1 -2- آزمایشات فیزیولوژیکی ………………………………………………………………………………………………………. 102
7-1 -3- استخراج ویژگی ………………………………………………………………………………………………………………. 103
7 -2- دسته کننده الگو …………………………………………………………………………………………………………………. 104
7-2 -1- شبکه های عصبی چند لایه …………………………………………………………………………………………………. 104
7-2 -2- ماشین بردار پشتیبانی ………………………………………………………………………………………………………. 105
7 -3- آزمایشات بازشناسی حالت …………………………………………………………………………………………………. 106
7 -4- نتیجه گیری ……………………………………………………………………………………………………………………… 111
8- بازشناسی حالت گفتار با استفاده از مدل مارکوف مخفی …………………………………………………………………….112
8-1- استخراج پوشهای ویژگی های خام(RAW) ……………………………………………………ا…………………………. 112
8-2- – آمار عمومی با استفاده از GMM ها……………………………………………………………………………………… 113
8 -2-1 – ویژگی وابسته به فرکانس گام …………………………………………………………………………………………. 114
8 -2-2- ویژگی های وابسته به انرژی ……………………………………………………………………………………………. 114
8 -2-3- پردازش ویژگی های حاصل ………………………………………………………………………………………………. 115
8-3- استفاده از CHMM در بازشناسی …………………………………………………………………………………………… 115
8-4- – مجموعه گفتار ……………………………………………………………………………………………………………….. 116
8-5- نتایج بازشناسی ………………………………………………………………………………………………………………. 116
8 -5 -1- آمار عمومی ……………………………………………………………………………………………………………….. 117
8 -5 -2- ویژگی های لحظه ای …………………………………………………………………………………………………….. 117
8 -5 -3- قضاوت بشری ………………………………………………………………………………………………………………. 119
8-6- بحث ………………………………………………………………………………………………………………………………. 119
9- بازشناسی حالت گفتار با استفاده از شبکه عصبی …………………………………………………………………………… 120
9-1- طراحی سیستم …………………………………………………………………………………………………………………. 121
9-1-1 – حالت گفتار ……………………………………………………………………………………………………………………. 121
9-1-2 مستقل از گوینده و مفهوم ……………………………………………………………………………………………………. 122
9-1-3 مراحل پردازش ………………………………………………………………………………………………………………… 122
9-1-4 – ویژگی گفتار ………………………………………………………………………………………………………………….. 123
9-1-5 معماری شبکه عصبی ………………………………………………………………………………………………………… 125
9-2- – آزمایش بازشناسی حالت………………………………………………………………………………………………….. 126
9-2-1 پایگاه داده گفتار ……………………………………………………………………………………………………………….. 126
9-2-2 روش های آموزش و آزمایش………………………………………………………………………………………………… 127
9-2-3 نتایج و بحث …………………………………………………………………………………………………………………. 128
9-3- – نتیجه گیری ……………………………………………………………………………………………………………….. 131
10- مقایسه بین مدل فازی و شبکه عصبی در بازشناسی حالت گفتار با استفاده از الگوریتم آنالیز
133 ……………………ا……………………………………………………… LPC
10-1- طرحی از بازشناسی کننده حالات …………………………………………………………………………………….134
ی
10 -1-1- استخراج پارامتر حالت …………………………………………………………………………………………….. 135
10 -1-2- بازشناسی حالات ………………………………………………………………………………………………….. 135
10-2 – آزمایش …………………………………………………………………………………………………………………. 139
10 -2-1- شناسایی تعداد نمونه آموزشی …………………………………………………………………………………. 139
10 -2-2 – شناسایی ویژگی حالات ………………………………………………………………………………………….. 139
10-3- نتیجه گیری و بحث و گفتگو …………………………………………………………………………………………… 141
10-4 – نتیجه گیری و کارهای آینده …………………………………………………………………………………………. 144
11- بازشناسی حالت گفتار با استفاده از تغییرات حالت چهره ………………………………………………………….. 144
فصل سوم: جمع بندی ………………………………………………………………………………………………..145
منابع لاتین ……………………………………………………………………………………………………………………..146

بررسی الگوریتم های بازیابی گفتار

بررسی الگوریتم های بازیابی گفتار

فهرست جداول

جدول 1-1: مقادیر پارامترها برای حالات مختلف……………………………………………………………………….. ………..15

جدول 1-2: ماتریس درستی و توزیع برای مجموعههای بدون نظارت……………………………………………………….17

جدول 1-3: ماتریس درستی و توزیع برای مجموعههای بدون نظارت……………………………………………………….18

جدول 1-4: الگوریتمهای یادگیری………………………………………………………………………………………………………..25

جدول 1-5: استفاده از تمامی ویژگی ها…………………………………………………………………………………………………25

جدول 1-6: بازده اطلاعاتی بیست تا از بهترین ویژگی ها………………………………………………………………………..28

جدول 1-7: مقایسه ویژگی های استاندارد با ویژگی های شدت سیگنال پایین گذر شده……………………………..29
جدول 1-8: استفاده از مجموعه ویژگی های بهینه…………………………………………………………………………………..31

جدول 1-9: وقتیکه مثالهای آموزشی خیلی کم باشد………………………………………………………………………………32

جدول 2-1: دقت در بازشناسی گفتار غضبناک در برابر عادی با استفاده از 37 ویژگی………………………………….42

جدول 2-2: آمارهای صحت و فراخوانی……………………………………………………………………………………………….42

جدول 2-3: دقت بازشناسی گفتار غضبناک در برابر نرمال با استفاده از 19 ویژگی …………………………………….43

جدول 2-4: دقت بازشناسی عصبانیت شدید و عصبانیت کم در برابر غم و عادی با استفاده از 37 ویژگی……..44

جدول 2-5: دقت بازشناسی عصبانیت شدید و عصبانیت کم در برابر غم و عادی با استفاده از 5 ویژگی………..45

جدول 2-6: ماتریس توزیع برای 5 حالت غم, خستگی,شادی و عصبانیت شدید و عادی…………………………….46

جدول 2-7: موضوعات VP…………………………………………………………………………………………………………………51
جدول 2-8: گروههای انجمنی ISL..ا……………………………………………………………………………………………………..52

جدول 2-9: نتایج فراهم آورنده صدا برای حالت عادی در مقابل حالت تاکیدی در مقابل منفی…………………….55

جدول 2-10: نتایج فراهم آورنده صدا برای حالت عادی در مقابل حالت تاکیدی در مقابل منفی…………………..56

جدول 2-11: نتایج فراهم آورنده صدا برای حالت عادی در مقابل حالت تاکیدی در مقابل منفی…………………..56

جدول 2-12: مجموعه ارزیابی گروه انجمنی SLI….ا……………………………………………………………………………….57

جدول 2-13: ماتریس اشتباه و صحت تشخیص افراد………………………………………………………………………………62

جدول 2-14: آمار ارزیابی……………………………………………………………………………………………………………………63

جدول 2-15: آمار عملکرد گویندگان…………………………………………………………………………………………………….63

جدول 2-16: آمار ارجاع به خود…………………………………………………………………………………………………………..64

جدول 2-17: همگامی مجموعه داده های سطح p………………………………….ا……………………………………………….64
ل
جدول 2-18: ماتریس توزیع دسته بندی حالت 4 کلاسه با استفاده از GSVM………ا…………………………………….75

جدول 2-19: دسته بندی حالت تأکیدی/عادی با استفاده از HMM…..لا……………………………………………………….75

جدول 2-20: دسته بندی جفتهای مشابه درستی……………………………………………………………………………………..77

جدول 2-21: ماتریس توزیع بازشناسی حالت 5 کلاسه با استفاده از GSVM……..ا……………………………………….78

جدول 2-22: ماتریس خطای عملکرد انسانی…………………………………………………………………………………………82

جدول 2-23: مقایسه روش های کلاسیک……………………………………………………………………………………………..85

جدول 2-24: نتایج روش های انتخاب ویژگی اولین محتمل (PFS) و رو به جلو (FS)…….ا…………………………88

جدول 2-25: نتایج دسته بندی کننده برتر ترکیب های انتخابیSC و همکاریCC…..ا…………………………………..89

جدول 2-26: نتایج بازشناسی گفتارچند زبانه با استفاده از روش PCA……..ا……………………………………………….97

جدول 2-27: نتایج بازشناسی گفتارچینی با استفاده از روش PCA ……..ا……………………………………………………97

جدول 2-28: نتایج بازشناسی گفتارچند زبانه با استفاده از تمامی ویژگی های نوای گفتار…………………………….98

جدول 2-29: نرخ بازشناسی حالت با استفاده از بردار ورودی ویژگی *1X …….ا………………………………………..107

جدول 2-30: نرخ بازشناسی حالت با استفاده از بردار ورودی ویژگی *2X …..ا………………………………………….107

جدول 2-31: نرخ بازشناسی حالت با استفاده از بردار ورودی ویژگی *3X…..ا…………………………………………..109

جدول 2-32: نرخ بازشناسی حالت با استفاده از بردار ورودی ویژگی *4X …ا……………………………………………109

جدول 2-33: نرخ بازشناسی آنالیز کلی………………………………………………………………………………………………..117

جدول 2-34: توزیع ویژگی لحظه ای HMM پیوسته ……………………………………………………………………………118

جدول 2-35: نتایج با تعداد لایه و تعداد گره میانی مختلف…………………………………………………………………..127

جدول 2-36: نتایج باز دسته برای دیتای مرد و زن………………………………………………………………………………..128

جدول 2-37: مقایسه ساختارهای شبکه عصبی متفاوت………………………………………………………………………….131

جدول 2-38: ویژگی های گفتاری و توصیف آنها…………………………………………………………………………………135

جدول 2-39: تخمین پارامترهای ساختاری t,s استفاده شده در تابع عضویت……………………………………………138

جدول 2-40: لیست ترکیبی ویژگی های حالت…………………………………………………………………………………….140

جدول 2-41: ماتریس توزیع نرخ بازشناسی انسانی……………………………………………………………………………….141

جدول 2-42: نتایج آزمایش 2…………………………………………………………………………………………………………….143

م
فهرست شکل ها

شکل 1: ساختار پایه سیستم تلفن تصویری بدون دوربین……………………………………………………………………………5

شکل 1-1:نقاط داده درپایگاه داده گوینده شماره1…………………………………………………………………………………..27

شکل 1-2: اولین ربع توزیع شدت سیگنال پایین گذر شده بر حسب سومین ربع ……………………………………….27

شکل 2-1: توزیع جملات طبقه های حالت برای مجموعه های داده…………………………………………………………65

شکل 2-2: بلوک دیاگرام استخراج ویژگی……………………………………………………………………………………………..69
شکل 2-3: ناحیه Roc بر حسب تعداد ویژگی هایی که در حذف رو به عقب شامل می شود………………………..73

شکل 2-4: شکل دوبعدی از رده بندی ویژگی ها توسط گزینش Forward و حذف Backward..ا…………………73

شکل 2-5: منحنی Roc دسته بندی حالت تأکید/عادی……………………………………………………………………………..74

شکل 2-6: پوش فرکانس گام حالت هموار شده مشتق تقریبی………………………………………………………………….83

شکل 2-7: عملکرد بصورت تابعی از فاصله…………………………………………………………………………………………..86

شکل 2-8: اجزاء آزمایش بازشناسی………………………………………………………………………………………………………92

شکل 2-9: قابلیت جداسازی حالات در گفتار چند زبانه………………………………………………………………………….94

شکل 2-10: مقایسه پارامترهای نوای گفتار آماری در گفتار چند زبانه……………………………………………………….95

شکل 2-11: ابزار آزمایش بازشناسی حالت…………………………………………………………………………………………100
شکل 2-12: دید کلی روی سنسورها…………………………………………………………………………………………………..101

شکل 2-13:نمونه هایی از سیگنالهای بالقوه زیستی……………………………………………………………………………….103

شکل 2-14: مقایسه نرخ بازشناسی حالت میانگین بردار ورودی ویژگی سیگنال بیولوژیکی تک مدله………….108

شکل 2-15: مقایسه نرخ بازشناسی حالت میانگین بردار ورودی ویژگی سیگنال بیولوژیکی چند مدله…………110

شکل 2-16: وابستگی نتایج بازشناسی به تعداد حالات استفاده شده ……………………………………………………….118

شکل 2-17: مراحل پردازش………………………………………………………………………………………………………………122

شکل 2-18: استخراج ویژگی گفتار…………………………………………………………………………………………………….124

شکل 2-19: مراحل بازشناسی حالت…………………………………………………………………………………………………..125

شکل 2-20: ساختار زیر شبکه های عصبی…………………………………………………………………………………………..125

شکل 2-21: نتایج بازشناسی برای داده های مذکر…………………………………………………………………………………128

شکل 2-22: نتایج بازشناسی برای داده های مونث………………………………………………………………………………..128

شکل 2-23: ACON بعنوان یک شیوه پیشنهادی متناوب………………………………………………………………………..129
شکل 2-24: LVQ بعنوان یک شیوه پیشنهادی متناوب…………………………………………………………………………..130

شکل 2-25: بلوک دیاگرام پایه از حالت صدا در موبایل بازشناسی کننده………………………………………………….134

شکل 2-26: طرحی از بازشناسی حالت……………………………………………………………………………………………….134

شکل 2-27: ساختار شبکه عصبی پیشنهادی…………………………………………………………………………………………136

شکل 2-28: نتیجه آزمایش1………………………………………………………………………………………………………………142

فصل اول: اصول کلی در ایجاد حالت در گفتار و شناسایی حالت گفتار
1- ایجاد و بازشناسی حالت در گفتار
در این قسمت الگوریتم هایی را ارائه می دهیم که بطور مثال به یک ربات اجازه می دهند تا حالتش را با لحن صدایش بیان کند. که خیلی ساده و مؤثر گفتاری مانند موجودات زنده با استفاده از سنتز گفتار پیوسته ایجاد میکند. روشهایی را شرح میدهیم که باعث میشوند بطور مستمر هم طول عمر یک صدای ترکیبی و هم کیفیت حالاتی را که بیان میشود کنترل کنیم. همچنین آزمایش مربوط به دادهها در مقیاس بالا در خصوص بازشناسی اتوماتیک حالت اصلی در جملات کوتاه غیر رسمی روزمره را ارائه میدهیم. در اینجا به مورد وابسته به گوینده میپردازیم. مجموعه ای از الگوریتمهای یادگیری ماشینی، فاصلهیابی از شبکههای عصبی، ماشین های بردار پشتیبان یا درخت تصمیمگیری را با استفاده از یک پایگاه داده بزرگ متشکل از چندین هزار نمونه را با هم مقایسه میکنیم.
نشان میدهیم که اختلاف عملکرد میان طرحهای یادگیری میتواند مهم باشد و برخی ویژگیها که قبلا یافت نشده بودند دارای اهمیت اساسی هستند. مجموعه ای از ویژگیهای بهینه با استفاده از الگوریتم ژنتیک مشخص میشوند. سرانجام این مطلب را توضیح میدهیم که چگونه این تحقیق میتواند برای موقعیتهای که مثال های خیلی کمی موجود هستند بکار رود.

بررسی الگوریتم های بازیابی گفتار

بررسی الگوریتم های بازیابی گفتار

فصل دوم

2– استفاده از GMM ها برای بازشناسی حالت در گفتار روزمره

در این قسمت تشخیص خودکار حالات با استفاده ازضرایب کپسـترال (cepstral)فرکـانس mel اسـتاندارد ، Mfcc ها و واریانس،Mfcc پایین در فرکانس بین 20 تا 300 هرتـز مـورد ارزیـابی قـرار گرفتـه اسـت ، تـا فرکانس های گام مدل سازی شوند. همچنین ویژگی های فرکانس گام مورد استفاده قرار گرفته است. این ویژگیهای اکوستیکی بوسیله مدل های مخلوط کننده گوسی GMM ها درسطح فریم همگی مدل شده اند.
این روش روی دو زبان مختلف مورد آزمایش قرار گرفتـه اسـت . خـدمات تلفنـی تحـت کنتـرل صـدای سوئیسی و جلسات انگلیسی.
نتایج نشان می دهند کهGMM های بکار رفته درسطح فریم تکنیکهای مناسبی بـرای طبقـه بنـدی حـالاتهستند. دو روش Mfcc عملکرد مشابهی دارند وMf cc های پایین دارای ویژگی های فرکانس گام هسـتند .
ترکیب این سه طبقه کننده عملکرد را به مقدار قابل توجهی بهبود می بخشد. مجموعه 6 تایی منتخـب از200 ویژگی برای رسیدن به دقت مناسب در 2 گروه گوینده تشکیل می شود. این روش توسـط محققـانبسیاری پذیرفته شده است. آنها ویژگی های بسیاری را در سطح یک عبارت مورد آزمایش قرار می دهند و سپس برای یافتن یک مجموعه کوچک مناسب ویژگی ها را براساس اینکه بهترین نتیجـه بازشناسـی راداشته اند، رده بندی می کنند. بر اساس داده های غیر عمدی کـه در مـتن آورده شـده انـد، مجموعـه ایشامل ثبت روابط میان کاربران و خدمات صوتی خودکار می شوند.


مقطع : کارشناسی ارشد

قیمت 25 هزار تومان

خرید فایل word و pdf

قیمت 35 هزار تومان