فهرست مطالب

فصل اول

به دلیل افزایش ارتباطات متقابل منطقه‌ای و نیاز برای تبادل اطلاعات، تقاضا برای ترجمه زبان بسیار افزایش یافته است. بسیاری از نوشتجات نیاز به ترجمه دارند از جمله مستندات علمی و فنی، دستورالعمل‌های راهنما، مستندات حقوقی، کتاب‌های درسی، بروشورهای تبلیغاتی، اخبار روزنامه‌ها و غیره؛ که ترجمه برخی از آنها سخت و چالش برانگیز است اما اکثرا خسته کننده و تکراری هستند و در عین حال به انسجام و دقت نیاز دارند. برآوردن نیازهای روز افزون ترجمه برای مترجمان حرفه‌ای دشوار است. در چنین موقعیتی ترجمه ماشینی می‌تواند به عنوان یک جایگزین به کار گرفته شود.
ترجمه ماشینی بعد از 65 سال یکی از قدیمی‌ترین کاربردهای کامپیوتر است. در طول سال‌ها، ترجمه ماشینی مرکز توجه تحقیقات زبان‌شناسان، روان‌شناسان، فیلسوفان، دانشمندان و مهندسان علم کامپیوتر بوده است. اغراق نیست اگر بگوییم کارهای جدید در حوزه ترجمه ماشینی، به طور قابل ملاحظه‌ای در توسعه زمینه‌هایی نظیر زبان شناسی رایانه‌ای، هوش مصنوعی و پردازش زبان‌های طبیعی برنامه‌گرا، مشارکت کرده است.
ترجمه ماشینی را می‌توان به این صورت تعریف کرد: “ترجمه از یک زبان طبیعی (زبان مبدأ) به زبان دیگر (زبان مقصد) با استفاده از سیستم‌های کامپیوتری شده و به همراه یا بدون کمک انسان”. کار پژوهشی در حوزه ترجمه ماشینی به هدف بزرگ ترجمه تمام خودکار با کیفیت بالا (قابل نشر) محدود نمی‌شود. غالبا ترجمه‌های ناهموار برای بازبینی موضوعات خارجی کافی است. تلاش‌های اخیر، در جهت ساخت کاربردهای محدودی در ترکیب با تشخیص گفتار به خصوص برای دستگاه‌های دستی می‌باشند. ترجمه ماشینی می‌تواند به عنوان پایه‌ای برای ویرایش‌های بعدی به کار گرفته شود، مترجم‌ها معمولا با ابزارهایی نظیر حافظه‌های ترجمه که از فناوری ترجمه ماشینی استفاده می‌کنند اما آنها را در کنترل خود قرار می‌دهند، استفاده می‌کنند.
ترجمه ماشینی یکی از حوزه‌های پژوهشی «زبانشناسی رایانه‌ای» است. تا کنون روش‌های مختلفی جهت خودکار کردن ترجمه ابداع شده است، که در نوشتجات حوزه ترجمه ماشینی به صورت‌های مختلفی دسته‌بندی شده‌اند. شکل 1-1 انواع روش‌های ترجمه ماشینی موجود را در قالب دسته‌بندی که در [1] آمده است نشان می‌دهد.

1-1-1. ترجمه ماشینی مبتنی بر فرهنگ لغت
این نوع ترجمه ماشینی مبتنی بر مدخل‌های فرهنگ لغت است؛ و در آن از معادل کلمه جهت تولید ترجمه استفاده می‌شود. اولین نسل ترجمه ماشینی (از اواخر دهه 1940 تا اواسط دهه 1960) کاملا بر مبنای فرهنگ لغت‌های الکترونیک بودند. این روش همچنان تا حدی در ترجمه عبارات و نه جملات مفید است. اکثر روش‌هایی که بعدا توسعه داده شدند کم یا بیش از فرهنگ لغات دوزبانه بهره می‌گیرند [1].
1-1-2. ترجمه ماشینی مبتنی بر قانون
ترجمه ماشینی مبتنی بر قانون با اطلاعات ریخت شناسی، نحوی و معنایی زبان‌های مبدأ و مقصد سر و کار دارد. قوانین زبانی از این اطلاعات ساخته می‌شوند. این روش می‌تواند با پدیده‌های مختلف زبانی مقابله کند و قابل گسترش و قابل نگهداشت است، اما استثنائات موجود در دستور زبان مشکلاتی به این سیستم می‌افزاید. همچنین فرآیند پژوهشی آن نیاز به سرمایه‌گذاری زیادی دارد. هدف ترجمه ماشینی مبتنی بر قانون تبدیل ساختارهای زبان مبدأ به ساختارهای زبان مقصد است. این روش رویکردهای مختلفی دارد.
– رویکرد مستقیم : کلمات زبان مبدأ بدون عبور از یک نمایش میانی ترجمه می‌شوند. در این روش به بستر متن، معنی و دامنه توجه نمی‌شود.
– رویکرد انتقالی : مدل انتقالی متعلق به نسل دوم ترجمه ماشینی است (از اواسط دهه 1960 تا دهه 1980). در این مدل، زبان مبدأ به یک انتزاع که نمایشی کمتر مختص به زبان است، انتقال می‌یابد. سپس یک نمایش معادل برای زبان مقصد (با همان سطح انتزاع) با استفاده از فرهنگ لغات دوزبانه و قوانین گرامری تولید می‌شود.
– میان زبانی : این روش متعلق به نسل سوم ترجمه ماشینی است. در این روش زبان مبدأ به یک زبان (نمایش) میانی تغییر شکل می‌دهد که این زبان میانی مستقل از هر دو زبان شرکت کننده (مبدأ و مقصد) در ترجمه است. سپس ترجمه برای زبان مقصد از این نمایش کمکی به دست می‌آید. از اینرو در این نوع سیستم تنها به دو ماژول تجزیه و ترکیب نیاز است. همچینن به دلیل مستقل بودن این روش از زبان‌های مبدأ و مقصد، بیشتر در ماشین‌های ترجمه چندزبانه استفاده می‌شود. این روش بر یک نمایش واحد از زبان‌های مختلف تأکید می‌کند.
1-1-3. ترجمه ماشینی مبتنی بر دانش
این روش با واژه‌نامه‌ای مفهومی‌که یک دامنه را نشان می‌دهد سر و کار دارد. این روش شامل دو مرحله تحلیل و تولید است. اجزای پایه‌ای یک ماشین ترجمه مبتنی بر دانش عبارتند از یک آنتولوژی از مفاهیم، واژه‌نامه و گرامر زبان مبدأ برای فرآیند تحلیل، واژه‌نامه و گرامر برای زبان مقصد و قوانین نگاشت بین نحو زبان میانی و زبان‌های مبدأ و مقصد.
1-1-4. ترجمه ماشینی مبتنی بر پیکره
رویکرد ترجمه ماشینی مبتنی بر پیکره‌های متنی از سال 1989 ظهور پیدا کرد و به طور وسیعی در حوزه ترجمه ماشینی به آن پرداخته شد؛ و به دلیل دقت بالای این روش در ترجمه، بر دیگر روش‌ها غلبه یافت. در این روش، دانش یا مدل ترجمه به طور خودکار از پیکره‌های متنی (مجموعه متون) دوزبانه گرفته می‌شود. از آنجایی که این رویکرد با حجم زیادی از داده‌ها کار می‌کند، ترجمه ماشینی مبتنی بر پیکره نامیده شده است. برخی از انواع روش‌های مبتنی بر پیکره در ادامه شرح داده می‌شوند.

1-1. مقدمه…………………………………………………………… 2
1-1-1. ترجمه ماشینی مبتنی بر فرهنگ لغت…………………… 3
1-1-2. ترجمه ماشینی مبتنی بر قانون……………………………. 4
1-1-3. ترجمه ماشینی مبتنی بر دانش…………………………… 5
1-1-4. ترجمه ماشینی مبتنی بر پیکره…………………………… 5
ترجمه ماشینی آماری……………………………………………… 6
ترجمه ماشینی مبتنی بر مثال…………………………………… 6
ترجمه ماشینی مبتنی بر متن……………………………………. 7
1-2. ضرورت ساخت پیکره موازی…………………………………. 7
1-3. مسئله تحقیق: ساخت پیکره موازی……………………….. 9
1-4. هدف تحقیق: ساخت پیکره موازی از روی پیکره تطبیقی. 10
1-5. سرفصل‌ها……………………………………………………. 10
1-5-1. فصل دوم: مبانی نظری…………………………………… 10
1-5-2. فصل سوم: مروری بر تحقیقات انجام شده…………….. 11
1-5-3. فصل چهارم: مدل پیشنهادی…………………………… 11
1-5-4. فصل پنجم: ارزیابی و نتیجه گیری……………………… 12

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فصل دوم مبانی نظری

پیکره، مجموعه‌ای است از مواد متنی یا گفتاری که بر اساس مجموعه مشخصی از معیارهای از پیش تعیین شده گردآوری شده است. پیکره قابل خوانش توسط ماشین است به عبارتی دیگر دیجیتالی است، دامنه مشخصی دارد و محدود (دارای نهایت) است. پیکره برای پژوهش‌های زبانی مورد استفاده قرار می‌گیرد. از آنجایی که در این پژوهش کاربردهای متنی ترجمه ماشینی مدنظر است، منظور از پیکره، پیکره متنی می‌باشد؛ اما از این پس جهت سهولت تنها از لفظ پیکره به جای پیکره متنی استفاده می‌کنیم.
پیکره مجموعه‌ای نظام‌مند از متون است. منظور از «نظام‌مند» بودن این است که ساختار و محتوای پیکره از اصول نمونه گیری معینی پیروی می‌کنند؛ یعنی اصولی که تعیین می‌کند پیکره شامل چه متن‌هایی باشد. همچنین نظام‌مند بودن به این معنی است که اطلاعات پیکره در ترکیب درست و مشخصی در دسترس پژوهشگران قرار می‌گیرد.
به منظور استفاده بهتر از پیکره در حوزه پردازش زبان‌های طبیعی، یک پیکره می‌تواند حاشیه نویسی شده باشد. حاشیه نویسی یعنی افزودن برخی اطلاعات به پیکره، مانند اطلاعات در مورد نقش کلمات، ریشه کلمات، ساختار یا تجزیه نحوی جملات و … . برخی پیکره‌ها کاملا تجزیه شده و حاشیه گذاری می‌شوند که به این نوع پیکره‌ها بانک درختی گفته می‌شود.
پیکره‌های متنی می‌توانند تک زبانه، دوزبانه و یا چند زبانه باشند. در پیکره‌های تک زبانه متون تنها به یک زبان نوشته می‌شوند. از این نوع پیکره‌ها (که معمولا حاشیه نویسی شده‌اند) در بازیابی اطلاعات، یافتن نقش کلمه، رفع ابهام معنایی، مدل سازی زبانی و غیره استفاده می‌شود. پیکره‌های دوزبانه و چندزبانه نیز به ترتیب شامل متونی در دو و بیش از دو زبان هستند. از این پیکره‌ها در بازیابی اطلاعات صلیبی و مقایسه نظیر به نظیر استفاده می‌شود. پیکره‌های دو یا چند زبانه به طور خاص در رویکردهای ترجمه ماشینی مبتنی بر پیکره استفاده می‌شوند. در برخی از نوشتجات، پیکره دوزبانه به عنوان پیکره موازی قلمداد می‌شود. دو نوع برجسته از پیکره‌های دو یا چند زبانه عبارتند از پیکره موازی و پیکره تطبیقی، که در ادامه معرفی می‌شوند.
2-1-1. پیکره موازی
پیکره موازی عبارتست از پیکره‌ای شامل متونی به یک زبان و ترجمه آنها در یک یا چند زبان دیگر. پیکره موازی می‌تواند دوزبانه و یا چند زبانه باشد. با این حال به دلیل اینکه اغلب پیکره‌های موازی دوزبانه هستند، در برخی نوشتجات به پیکره موازی، پیکره دوزبانه یا متن دوزبانه نیز گفته می‌شود. یک پیکره موازی جهت اینکه بتواند در ترجمه ماشینی استفاده شود باید در سطح جمله همتراز شده باشد، یعنی باید جملات هم‌ترجمه با هم جفت شده باشند؛ که به آن «پیکره موازی همترازشده» گفته می‌شود. همتراز کردن جملات پیکره موازی پیش نیاز لازم برای بسیاری از حوزه‌های پردازش زبان طبیعی و به خصوص ترجمه ماشینی است. از آنجا که پیکره‌های موازی اکثرا در قالب ترازبندی شده به کار می‌روند، اغلب و نیز در ادامه این رساله، منظور از پیکره موازی همان پیکره موازی همترازشده می‌باشد.
تا کنون پیکره‌های موازی زیادی برای جفت زبان‌های مختلف تولید شده است. اما همچنان به حجم بیشتری از متون موازی نیاز است. OPUS [16] مجموعه‌ای روبه‌رشد از پیکره‌های موازی آزاد است. در پروژه OPUS داده‌های برخط رایگان جمع آوری می‌شوند و سپس بصورت خودکار پیش پردازش و حاشیه نویسی می‌شوند و در نهایت به صورت یک بسته با محتوای آزاد در اختیار عموم قرار می‌گیرند. Europarl [5] یکی از معروفترین پیکره‌های موازی موجود در OPUS است. این پیکره موازی از گزارشات پارلمانی اروپا استخراج شده است و شامل 21 زبان اروپایی است. این پیکره به هدف تولید متون همتراز شده در سطح جمله و بهبود ترجمه ماشینی آماری ساخته شده است. پیکره سازمان ملل متحد نیز پیکره‌ای موازی و شش زبانه است. این پیکره موازی از قطعنامه‌های مجمع عمومی سازمان ملل متحد گرفته شده است و در سطح پاراگراف همتراز شده است. پیکره قطعنامه‌های مجمع عمومی سازمان ملل متحد به صورت آزاد در دسترس همگان قرار دارد.
تعداد کمی پیکره موازی انگلیسی-فارسی وجود دارد، که به شیوه‌های مختلفی تولید شده‌اند و در اندازه و دامنه‌ای که پوشش می‌دهند متفاوتند. پیکره موازی Shiraz [17] اولین تلاش گزارش شده برای توسعه پیکره انگلیسی-فارسی است. این پیکره شامل 3000 جمله فارسی است که از پیکره فارسی شامل مواد برخط جمع آوری شده است و بصورت دستی توسط دانشگاه ایالت نیومکزیکو به انگلیسی ترجمه شدند تا سیستم ترجمه ماشینی Shiraz را آزمایش کنند. برخی تلاش‌ها در توسعه ترجمه ماشینی انگلیسی-فارسی گفتار به گفتار برای نیروی حفاظت ارتش و فوریت‌های پزشکی با پشتیبانی آژانس پروژه‌های تحقیقاتی پیشرفته دفاعی (DARPA) انجام شد. پیکره مورد استفاده در این کارها از پیکره‌های موجود برای زبان‌های دیگر (مثلا انگلیسی-عراقی) جمع آوری شده و یا از منابع محدود به دامنه‌ای خاص مانند راهنماهای زبان و یا ترجمه‌های دستی پزشکی می‌باشند [18]. قاسمی زاده و رحیمی تلاش‌هایی برای ساخت پیکره چندزبانه موازی برای زبان فارسی در فریم ورک MULTEXT-East انجام دادند [19]. آنها از کتاب 1984 اورول به عنوان متن اصلی برای ساخت پیکره استفاده کردند. طرف فارسی زبان پیکره تقریبا از 6606 جمله و 110000 نشانه تشکیل شده است.
محقق و صراف زاده [20] یک پیکره باز از زیرنویس فیلم‌ها توسعه دادند که حدودا شامل 10000 جفت جمله است. از طرفی دیگر پیلوار و همکاران [10] از مزایای زیرنویس فیلم‌ها برای تشکیل TEP بزرگترین پیکره موازی انگلیسی-فارسی تا به امروز، بهره بردند. که اکنون شامل 612086 جفت جمله و حدود چهار میلیون کلمه در هر دو زبان انگلیسی و فارسی است. اگرچه آنها پذیرفته‌اند که زیرنویس فیلم‌ها شامل مکالمات روزانه که محاوره‌ای و غیر رسمی اند، هستند و در نتیجه نمی توانند به راحتی بصورت خودکار تفسیر شوند. این امر قابلیت استفاده این پیکره را در برنامه‌های کاربردی پردازش زبان‌های طبیعی فارسی محدود می‌کند.
فرجیان [21] نیز از منابع خبری قابل دسترس بصورت آنلاین، استفاده کرد و PEN، پیکره همتراز شده در سطح جمله را بطور نیمه خودکار ساخت. این پیکره حدود 30000 جفت جمله همتراز شده دارد. جباری و همکاران [22] با ادغام چندین پیکره شامل پیکره استخراج شده از اخبار یک سایت خبری چند زبانه (شامل زبان فارسی و انگلیسی)، پیکره تشکیل شده از زیرنویس‌های فیلم موجود در یک وب سایت، سه پیکره که بصورت دستی ترجمه شدند و همچنین دو پیکره موجود PEN و ELRA به همراه 20000 نام نویسه گردانی شده، پیکره بزرگ AFEC را به‌اندازه 700 میلیون خط تولید کردند.
به عنوان آخرین نمونه، انجمن منابع زبان اروپا (ELRA) یک پیکره – که بصورت تجاری از طریق وب در دسترس است- شامل حدود 3500000 کلمه در زبان فارسی و انگلیسی ایجاد کرد که در سطح جمله همتراز شده، و شامل حدود 100000 جمله توزیع شده در بین 50021 مدخل است. این پیکره ترکیبی است از چندین دامنه متفاوت شامل هنر، فرهنگ، اصطلاحات، قانون، ادبیات، پزشکی، شعر، سیاست، ضرب المثل، مذهبی و علمی.

2-1. پیکره………………………………………………………….. 14
2-1-1. پیکره موازی………………………………………………. 15
2-1-2. پیکره تطبیقی……………………………………………. 17
2-2. همترازی…………………………………………………….. 18
2-2-1. همترازی در سطح سند………………………………… 19
2-2-2. همترازی در سطح جمله………………………………. 19
2-2-3. همترازی در سطح کلمه (همترازی لغوی) …………..21
همترازی لغوی با استفاده از مدل‌های آی‌بی‌ام…………….. 22
2-3. ارزیابی ترجمه ماشینی………………………………….. 23
2-3-1. بلو……………………………………………………….. 23
2-3-2. متریک NISTا…………………………………………… 24
2-3-3. نرخ خطای کلمه……………………………………….. 24
2-3-4. نرخ خطای ترجمه (TER) ا……………………………..25

فصل سوم مروری بر تحقیقات انجام شده

تا کنون برای ساخت پیکره‌های موازی تلاش‌های بسیاری شده است. در اینجا کارهای انجام شده را در سه بخش اصلی ساخت پیکره موازی از روی متون هم‌ترجمه، ساخت پیکره موازی از وب و ساخت پیکره موازی از روی پیکره تطبیقی می‌آوریم. در بخشی دیگر نیز کارهای مرتبطی که رویکردی مشابه مدل ارائه شده داشته‌اند و از طبقه‌بند آنتروپی بیشینه استفاده کرده‌اند ذکر می‌شوند. بخش نهایی اشاره‌ای کوتاه به کارهای انجام شده در زبان فارسی خواهد داشت.
3-2. ساخت پیکره موازی از روی متون هم‌ترجمه
در برخی تلاش‌ها سعی بر ساخت پیکره‌های موازی از روی متونی است که همراه ترجمه هستند. این کار با همتراز کردن سندهای هم‌ترجمه در سطح جمله انجام می‌شود.
 فیلیپ کوهن در سال 2005 [5]، پیکره‌ای از متون موازی در یازده زبان ساخت. متون این پیکره از شرح مذاکرات مجلس اروپا گرفته شده‌اند، و به همین دلیل یوروپارل (پارلمانی اروپا) نام گرفته است. پیکره ساخته شده در این کار همچنان در حال گسترش است و اکنون 21 زبان اروپایی را شامل می‌شود. پیکره یوروپارل در حال حاضر پیکره‌ای شناخته شده در حوزه ترجمه ماشینی برای زبان‌های اروپایی است که در آزمایشات زیادی مورد استفاده قرار می‌گیرد.
 چانگ در سال 2004 در [31]، برای ساخت یک پیکره موازی چینی – انگلیسی، متون همراه با ترجمه را از وب جمع آوری می‌کند. این متون از دامنه‌های مختلف مانند اخبار، مقالات تخصصی، نوشتجات ادبی و زیرنویس‌های فیلم‌ها و غیره گرفته شده‌اند. او نیز اذعان می‌کند که متون الکترونیکی ترجمه شده به زبان چینی–انگلیسی بسیار کم بوده، و ساخت یک پیکره موازی که از نظر دامنه توازن داشته باشد کاری دشوار است.
 ایشیساکا و همکاران در سال 2009 [9] برای غلبه بر مشکل کمبود پیکره موازی برای جفت زبان ژاپنی–انگلیسی، از کتابچه‌راهنماهای نرم افزارهای متن باز استفاده کردند. آنها بیان می‌کنند که کیفیت ترجمه راهنماها نسبتا بالاست، زیرا توسط کسانی ترجمه شده‌اند که عضو خود پروژه‌ها بوده‌اند بعلاوه اینکه توسط افراد دیگری از پروژه تصحیح شده‌اند. آنها ابتدا اینگونه متون را از وب جمع آوری کرده، سپس بصورت خودکار درسطح جمله همتراز کردند. روش استفاده شده برای همترازی جملات آنها، روش استفاده شده در کار یوتیاما و آیساهارا [32] بود. شباهت بین دو جمله بر مبنای تعداد کلمات مشترک (تعداد کلماتی از دو جمله که ترجمه یکدیگر هستند) در نظر گرفته شد، که برای به دست آوردن این شباهت از یک فرهنگ لغت دوزبانه با بیش از 450 هزار مدخل استفاده کردند. در نهایت پیکره‌ای موازی با نزدیک به 500 هزار جفت جمله ساختند. آنها آزمایشاتشان را با ماشین ترجمه آماری موزز انجام دادند و نشان دادند که پیکره‌شان برای ترجمه ماشینی آماری مفید است.
در بالا چندین مثال از کارهای انجام شده توسط رویکرد ساخت پیکره موازی با استفاده از متونی که همراه با ترجمه هستند آمد. اکثر متون دوزبانه یافت شده اغلب ترجمه دقیق هم نیستند و بنابراین همترازی آنها آسان نیست. در این رویکردها دو مشکل عمده وجود دارد؛ اول اینکه دسترسی بسیار کمی به متونی که همراه با ترجمه باشند وجود دارد چرا که اینگونه متون کم بوده و در صورت وجود نیز کمتر بصورت رایگان در اختیار عموم قرار میگیرند. دومین مسئله نیز این است که اینگونه منابع اغلب مربوط به یک دامنه خاص می‌شوند و در نتیجه پیکره‌های ساخته شده از روی این منابع دامنه محدودی دارند. لازم به ذکر است که این مشکلات برای جفت زبان فارسی–انگلیسی بسیار جدی‌تر است زیرا زبان فارسی به مراتب منابع ترجمه شده کمتری نسبت به زبان‌های اروپایی، چینی و عربی دارد.
کارهای اخیر در حوزه ساخت پیکره‌های موازی، بر استخراج جملات موازی از روی متون دوزبانه تمرکز دارند؛ که یا از وب به عنوان منبع جملات شبه موازی استفاده کرده‌اند و یا منابع دیگری از پیکره‌های تطبیقی را به کار برده‌اند. با بکارگیری اینگونه منابع برای استخراج جملات موازی و ساخت پیکره‌های موازی، می‌توان بر دو مشکلی که پیشتر عنوان شدند (کمبود منابع و محدودیت دامنه) غلبه کرد. چرا که متون موجود در وب – که نامحدوند – و یا متون پیکره‌های تطبیقی که لزوما ترجمه یکدیگر نبوده و تنها از نظر محتوا شباهت دارند، به میزان زیادی در دسترسند. بعلاوه اینکه این منابع محدودیت دامنه نیز ندارند. در ادامه، این رویکردها در دو بخش (1) استخراج جملات موازی از وب و (2) استخراج جملات موازی از پیکره‌های تطبیقی، ذکر می‌شوند.
3-3. استخراج جملات موازی از وب
از جمله کارهایی که از وب به عنوان منبع برای ساخت پیکره‌های موازی استفاده کرده‌اند می‌توان به موارد زیر اشاره کرد:
 کار نی و همکاران [12] را می‌توان در این دسته آورد که در آن PTMiner برای کاویدن پیکره موازی از وب با استفاده از تطبیق الگوی URL و چند معیار دیگر مانند ساختار HTML، طول فایل و غیره به کار می‌رود.
 رسنیک و اسمیت [13] از سیستم فیلترینگ ساختاری STRAN خود استفاده می‌کنند. که جفت‌های موازی کاندید شده را با توجه به مجموعه‌ای از مقادیر ساختاری مختص آن جفت که از صفحه HTML آنها بدست آمده فیلتر می‌کند. آنها برای پیکره موازی انگلیسی-چینی که توسعه دادند، دقت 98% و بازخوانی 61% گزارش دادند.
 ژانگ و همکاران [14] از یک شناساگر متن موازی چند مشخصه، از طریق طبقه‌بند k نزدیک‌ترین همسایه استفاده کردند تا جفت‌های موازی چینی-انگلیسی را از اینترنت شناسایی کنند. و دقت 95% و بازخوانی 97% را بدست آوردند.
 فانگ و همکاران (2010) در [33]، سعی بر کاویدن مستمر جملات موازی از تریلیون‌ها وب سایت به عنوان مستندات تطبیقی دارند، که نه از نظر دامنه محدود باشد و نه از نظر ساختار یو آر ال‌ها و یا تاریخ انتشار. اما آنها خاطر‌نشان می‌کنند که کار ارائه شده همچنان در حال انجام و پیشرفت است و مقاله را برای مطلع کردن دیگر محققان از اهداف کارشان ارائه داده‌اند.
 کوانگ و همکاران در سال 2010 [34]، سعی بر استخراج متون موازی از پیکره‌های تطبیقی داشتند. آنها از ترکیب سه روش (1) فیلتر کردن مبتنی بر طول جملات، (2) شرط همشکل بودن دو جمله (از نظر نشانه‌گذاری‌های جمله) و (3) شباهت مبتنی بر محتوا استفاده کردند. در مرحله اول از معیار گیل و چرچ [25] برای فیلتر کردن جملات بر مبنای طولشان استفاده کردند. ابتدا نسبت طول تمامی جفت جملات موازی که در دسترسشان بود را محاسبه و سپس میانگین و واریانس این نسبت‌ها را به دست آوردند. جفت جملات کاندیدی که نسبت طولشان در محدوده این مقدار میانگین و واریانس آنها قرار نگیرد از بین جفت جملات کاندید حذف می‌شوند. در مرحله دوم ترتیب نشانه گذاری‌های به کار رفته در دو جمله (مانند علامت سوال، پرانتز، گیومه و …) با هم مقایسه می‌شوند. در این مرحله هم باید ترتیب نشانه گذاری‌های دو جمله مشابه باشد و هم طول زیربخش‌های دو جمله شرط مرحله اول را داشته باشند تا جفت جمله کاندید از این مرحله عبور کند، در غیر اینصورت حذف خواهد شد. در مرحله سوم شباهت محتوایی بین دو جمله کاندید تخمین زده می‌شود. به این شباهت یک نمره داده می‌شود و جفت مجملاتی که نمره شباهتشان از یک حد آستانه تعیین شده بیشتر باشد به عنوان جفت جمله موازی در نظر گرفته می‌شوند. برای به دست آوردن این شباهت محتوایی ابتدا یکی از دو جمله به عنوان جمله مبدأ به زبان مقابل ترجمه شده، سپس نمره شباهت دو جمله بر مبنای میزان عبارات مشترک و طول دو جمله به دست می‌آید. آزمایشات آنها بر روی جفت زبان انگلیسی–ویتنامی و متون گرفته شده از ویکی پدیا است. آنها ارزیابی‌هایشان را در یک مرحله بر مبنای افزایش میزان حد آستانه برای نمره شباهت محتوایی قرار دادند و در مرحله‌ای دیگر میزان تأثیر پیکره موازی استخراج شده در بهبود ترجمه ماشینی آماری را با استفاده از معیار بلو ارزیابی کردند، و در این مرحله از ماشین ترجمه آماری موزز استفاده کردند.

3-1. مقدمه……………………………………………………….. 28
3-2. ساخت پیکره موازی از روی متون هم‌ترجمه…………….. 28
3-3. استخراج جملات موازی از وب……………………………. 30
3-4. استخراج جملات موازی از پیکره‌های تطبیقی………….. 32
3-5. تشخیص جملات موازی با استفاده از طبقه‌بند آنتروپی بیشینه 34
3-6. ساخت پیکره موازی انگلیسی – فارسی……………… 37

برای دانلود رایگان قسمت های بیشتراز فایل به انتهای مطلب مراجعه کنید

فصل چهارم مدل پیشنهادی

در این فصل می‌خواهیم مدلی کارآ برای تولید پیکره متنی موازی از روی پیکره متنی تطبیقی ارائه دهیم. این مدل از سه مرحله اصلی تشکیل شده است. شمای کلی این مدل در شکل 4-1 آمده است. مرحله اول، عبارت است از تولید جفت جمله‌هایی که برای موازی بودن کاندید هستند. در این مرحله، ابتدا تمام جفت جمله‌های ممکن از دو سند قابل تطبیق به دو زبان مبدأ و مقصد در نظر گرفته می‌شوند؛ سپس از بین آنها جفت جمله‌هایی که از «فیلتر نسبت طول دو جمله» و « فیلتر نرخ تعداد کلمات مشترک» بتوانند عبور کنند به عنوان جفت جمله‌های کاندید در نظرگرفته می‌شوند و به مرحله بعدی که انتخاب جفت جملات موازی است فرستاده می‌شوند. این کار باعث می‌شود جفت جملاتی که موازی نبودنشان نسبتا بدیهی است حذف شوند و در نتیجه دقت را بالا می‌برد. مرحله دوم، عبارت است از انتخاب جفت جمله‌های موازی از بین جفت جمله‌های کاندیدای موازی بودن. در این مرحله از یک طبقه‌بند آنتروپی بیشینه جهت طبقه‌بندی جفت جمله‌ها به دو دسته «موازی» و یا «غیر موازی» استفاده می‌شود. در نهایت برای بالا بردن دقت جملات استخراج شده، جملاتی که به این صورت موازی شناخته می‌شوند وارد مرحله سوم می‌شوند و از فیلتر «معیار TER» گذرانده می‌شوند. جفت جملاتی که بتوانند از این فیلتر عبور کنند، پیکره موازی را تشکیل می‌دهند. این سه مرحله اصلی از فرآیند کار در بخش‌های 4-2، 4-3 و 4-4 به تفصیل شرح داده می‌شوند.
4-2. انتخاب جفت جملات کاندید موازی بودن
یک پیکره تطبیقی دوزبانه شامل سندهایی به دو زبان است که بر اساس معیارهایی از قبیل شباهت محتوا بر هم منطبق شده‌اند. در اینجا، همانطور که گفته شد بعد از اینکه ابتدا با ضرب کارتزین تمام جملات سندهای قابل تطبیق را در مقابل هم قرار دادیم، از دو فیلتر برای انتخاب جفت جملاتی که برای موازی بودن کاندید هستند استفاده می‌کنیم. اولین فیلتر حذف جفت جملاتی است که نسبت طول دو جمله آنها از یک مقدار بیشتر باشد؛ چرا که دو جمله هم‌ترجمه اغلب نسبت طولشان از یک مقدار مشخص بیشتر نمی شود. به عبارت دیگر اغلب جملات کوتاه ترجمه کوتاهی دارند و جملات طولانی نیز ترجمه طولانی دارند. این مقدار می‌تواند به طور دلخواه در نظر گرفته شود مانند [43] که در آن مقدار ثابت 2 را در نظر گرفتند، و یا می‌تواند بر اساس میانگین نسبت طول جفت جملات موازی در یک پیکره موازی در نظر گرفته شود [25]. بخش بعدی فیلتر کلمات مشترک و نحوه به دست آوردن آن را به طور مفصل شرح می‌دهد.

4-1. مقدمه………………………………………………….. 39
4-2. انتخاب جفت جملات کاندید موازی بودن…………… 40
4-2-1. فیلتر کلمات مشترک……………………………… 41
تبدیل کدگذاری کاراکترها………………………………….. 42
مشخص کردن مرز جمله‌ها و کلمه‌ها…………………….43
ریشه‌یابی………………………………………………….. 44
حذف کلمات پرتکرار………………………………………. 45
رفع ابهام………………………………………………….. 45
جستجوی معانی از دیکشنری…………………………. 46
گروه بندی کلمات تکراری جمله به همراه تعداد رخدادشان در جمله……………………………………………………… 46
الگوریتم یافتن نرخ کلمات مشترک (از طرف مبدأ)…… 47
4-3. انتخاب جفت جملات موازی از بین جفت جملات کاندید…………………………………………………….. 48
4-3-1. طبقه‌بند آنتروپی بیشینه………………………. 48
4-3-2. ویژگی‌های عمومی……………………………. 49
ویژگی‌های مبتنی بر طول دو جمله………………….. 49
نرخ کلمات مشترک……………………………………. 50
4-3-3. ویژگی‌های مبتنی بر همترازی در سطح کلمه یک جفت جمله 50
کلمات همتراز نشده………………………………….. 51
باروری…………………………………………………… 51
محدوده پیوسته……………………………………….. 52
نمره همترازی………………………………………….. 53
4-4. بالا بردن دقت جفت جملات موازی استخراج شده 54
4-5. شیوه ارزیابی مدل……………………………… 55
5. ارزیابی و نتیجه گیری…………………………….. 58
5-1. ارزیابی طبقه‌بند آنتروپی بیشینه…………….. 58
5-1-1. ارزیابی ویژگی‌ها …………………………….58
5-1-2. حساسیت به دامنه……………………….. 60
5-2. تنظیمات و آزمایشات ساخت پیکره موازی از پیکره تطبیقی……………………………………………….. 63
5-2-1. پیکره تطبیقی مورد استفاده ………………..63
پیکره تطبیقی فارسی – انگلیسی دانشگاه تهران (UTPECC) …………………………………………………………ا63
پیکره تطبیقی گرفته شده از مقالات ویکی پدیا…. 65
5-2-2. پارامترهای تنظیم شده و ابزار مورد استفاده 66
انتخاب جفت جملات کاندید:………………………. 66
انتخاب جفت جملات موازی………………………: 68
بالا بردن دقت جفت جملات استخراج شده:……. 69
5-2-3. ارزیابی جملات موازی استخراج شده با استفاده از ماشین ترجمه………………………………………………… 69
5-3. نتیجه گیری………………………………….. 72
5-4. پیشنهادات آینده……………………………..75

Abstract

Nowadays corpus-based machine translation is the most common used approach in machine translation systems. The essential resource for corpus-based approaches is large amount of bilingual texts (or ‘parallel corpora’). Most languages are faced with a severe shortage of these resources. So it seems necessary to build more parallel corpora. Here we aim to produce parallel corpus from comparable corpus. The raw materials for comparable corpora can be obtained easily. A comparable corpus doesn’t contain texts with their translations, but contains texts in the same genre, proportions, domains and sampling periods for a range of different languages.
Comparable corpora contain sentences that are reasonable translation for each other. The goal of this thesis is to extract such sentences from a comparable corpus for building a parallel corpus automatically. The presented model has three main steps: (1) Selecting candidate sentence pairs by applying sentence pair length ratio filter and word overlap filter, (2) Selecting parallel sentences by Maximum Entropy classifier, using features based on length of two sentences and word overlap ratio between them, and features based on word alignment between sentences in each pair, (3) Increasing precision by selecting only one sentence among several ones paired with the sentence, this can be done by choosing the most similar sentence based on TER measure.
Finally the model performance will be discussed in two sections: (1) evaluating the designed Maximum Entropy classifier, (2) evaluating the extracted corpora by showing that adding them to the training data of a baseline machine translation system improves its performance.



بلافاصله بعد از پرداخت به ایمیلی که در مرحله بعد وارد میکنید ارسال میشود.


فایل pdf غیر قابل ویرایش

قیمت25000تومان

خرید فایل word

قیمت35000تومان