چکیده:

 OCR  به روش های بازشناسی دست نوشته ها و متون چاپی گفته می شود.برای بازشناسی ابتدا یک روبشگر تصویرمتن را فراهم می کند.سپس سامانه OCR اشیاء موجود دراین تصویر را که ارقام ، حروف ، علائم و کلمات هستند، بازشناسی می کند.

پروژه حاضر به بررسی روشی جهت تشخیص پلاک خودرو از روی تصویر آن از طریق استخراج ویژگی می پردازد. این الگوریتم  قابلیت تشخیص حروف با 5 ویژگی  و اعداد با 4 ویژگی را دارد.

فصل اول : معرفی مفاهیم ، تعاریف و اصطلاحات پروژه

مقدمه …………………………………………………………………………………………………. 2

از زمان های دور ، کاغذ وسیله ای برای ارتباط بین انسان ها است . سادگی استفاده از کاغذ ، استفاده از آن برای ارتباطات و بایگانی کردن اطلاعات ارزشمند را افزایش داده است . بطوری که امروزه حجم زیادی از اطلاعات کاغذی وجود دارد . با گسترش محیط الکترونیکی به دلیل کم حجم بودن و بالا بودن سرعت دسترسی به اطلاعات در این محیط علاقه به استفاده از آن برای برقراری ارتباط وبایگانی اطلاعات روز به روز بیشتر می شود. برای دسترسی به اطلاعات کاغذی موجود به صورت الکترونیکی و استفاده از مزایای این محیط باید روشی برای تبدیل این اطلاعات به شکل الکترونیکی ایجاد شود.

نویسه خوانی نوری حروف یکی از کاربردهای موفق و جالب بازشناسی الگوهای تصویری است . در زمینه بازشناسی الگو می توان تا حد زیادی شرایط تولید الگوها را کنترل کرد و به میزان قابل قبولی از بازشناسی رسید. برای مثال با تعریف قلم های مخصوص یا انتخاب شکل خاص برای برخی از اعداد یا حروف و ایجاد محدودیت در هنگام نگارش می توان شرایط تولید الگوها را کنترل کرد. الگوهای مربوط به حروف شامل انواع متون چاپی و دستنویس ، حجم زیادی از اطلاعات اطراف ما را تشکیل می دهند. این الگوها معمولاً بصورت تصاویر دو سطحی هستند ، هر چندروش های بازشناسی حروف نیز وجود دارند که براساس تصاویر با سطوح خاکستری عمل می کنند . بازشناسی یا پردازش اسناد ، خواندن فرم های مخصوص ، توزیع خودکار مرسولات پستی و خواندن خودکار پک های بانکی از کاربردهای مهم بازشناسی حروف هستند .

دراین فصل مفاهیم ،تعاریف و اصطلاحات بازشناسی متن معرفی می شود.

1-1  معرفی کلی یک سیستم بازشناسی متن …………………………………………………..3

برای تبدیل اطلاعات داخل تصاویر ، متن به شکل قابل فهم برای ماشین نیاز به یک سیستم بازشناسی متن می باشد . بازشناسی متن OCR تبدیل تصویر متن به متن فایل ویرایش است .

اجزای اصلی یک سیستم بازشناسی متن عبارتند از :

جداسازی : جداسازی بلوک های تصویر مانند متن ، گراف و شکل در این مرحله انجام می شود. بلوک های متن به اجزای کوچکتر مانند کلمات ، زیر – کلمات ، حروف و شبه حروف جدا می شوند.

استخراج ویژگی : برای معرفی هر یک از اجزای تصویر به شکل قابل فهم برای رایانه ، مشخصات هر یک از اجزای تصویر در این مرحله استخراج می شوند.

بازشناسی یا طبقه بندی متن : بلوک های متن استخراج شده درمرحله قبل در این مرحله بازشناسی می شوند. بازشناسی هر یک از اجزای تصویر متن با طبقه بندی آن ها در یک مجموعه حروف ، یا ارقام معتبر انجام می شود.

کرسی خط ( خط زمینه ) : خط افقی که بیشترین تعداد نقاط سیاه در امتداد آن باشد کرسی خط یا خط زمینه نامیده می شود. نوار وظیفه نوار افقی است با پهنای قلم که بیشترین تعداد عناصر سیاه در تصویر یک خط از متن را درخود داشته باشد.

مجموعه داده : مجموعه ای است از تصاویر نمونه های مختلف حروف زیر کلمات یا کلمات که برای آموزش و آزمایش سیستم بازشناسی استفاده می شود.

نویسه خوانی نوری حروف : برای تبدیل اطلاعات داخل تصاویر متن به شکل قابل فهم برای ماشین ، نیاز به یک سیستم بازشناسی متن می باشد. بازشناسی متن OCR تبدیل تصویر متن به متن قابل ویرایش است .

نویز : هر چیز ناخواسته در تصویر که باعث افت کیفیت آن شود مانند نقاط سیاه پراکنده نویز نامیده می شود.

هر قلمی : دربرخی اسناد قلم استفاده شده در چاپ متن آن ها برای سیستم بازشناسی مشخص نیست و ممکن است از هر قلمی استفاده شده باشد چنین متنی را متن چند قلمی می گویند.

ICR : به بازشناسی حروف دستنویس ICR گفته می شود به عنوان مثال بازشناسی خودکار حروف دستنویس نوشته شده در یک فرم توسط یک سیستم ICR انجام می­شود.

1-2 منابع خطا در سیستم بازشناسی متون …………………………………………………….. 4

1-3 مروری بر فصول آینده ……………………………………………………………………………. 4

در فصل دوم نگاهی به تاریخچه OCR، وضعیت OCR فارسی و شرکت هایی که درمورد نرم افزارهای مربوط به OCR فعالیت می کنند، خواهیم داشت. فصل سوم شامل توضیحاتی درمورد روش پیشنهادی جهت تشخیص پلاک خودرو از روی تصویرش از جمله مراحل کلی بازشناسی نوری حروف وارقام شامل پردازش های اولیه، استخراج ویژگی، و بازشناسی را دربرخواهد داشت.فصل چهارم نیز درمورد نتیجه گیری کلی از انجام پروژه خواهد بود.

1-4 اهداف پروژه ……………………………………………………………………………………… 5

تشخیص پلاک خودرو از روی تصویر آن در بسیاری از کاربردها می تواند بسیار مفید واقع گردد، از این رو دراین پروژه به دنبال این هستیم روشی را پیشنهاد کنیم که به کمک آن بتوان با داشتن تصویر پلاک یک خودرو،مشخصات پلاک را شناسایی نمود. مشخصات پلاک شامل 7 عدد و یک حرف می باشند. از آنجا که در پلاک یک خودرو حرف درکنار اعداد قرار می گیرد، به دنبال ارائه الگوریتمی هستیم که بتواند جهت تشخیص اعداد و حروف بکار گرفته شود.

فصل دوم : مروری بر تاریخچه OCR و نگاهی به وضعیت OCR فارسی

مقدمه ………………………………………………………………………………………………….. 7

Optical character recognition یا کوته نوشت بازشناسی نوری است. OCR  ابتدا تنها در مورد بازشناسی ارقام وحروف چاپی بکار گرفته می­شد. واژه نوری درمقابل عبارت مرکب مغناطیسی قرار داده شد تا این روش را از روش قدیمی­تر بازشناسی نویسه ها با مرکب مغناطیسی، MICR متمایز کند. با گذشت زمان و پیشرفت قابل توجه دراین زمینه، روش های بازشناسی دست نوشته ومتون چاپی مطرح شدند که دامنه کار را به کلمات و عبارات رساندند. با وجود عدم تطبیق دقیق OCR با این موارد، این نام برای این روش ها وتا حدی برای بازشناسی دستنوشته­های برخط هم استفاده شد و رواج پیدا کرد. این روزها OCR را بیشتر برای بازشناسی مستندات چاپی مثل صفحات کتابها ، مجله هاو نامه های چاپی بکار می­برند.

یک سامانه OCR مثل یک نفر ماشین نویس ، یک متن را می خواند وآن را به قالب مناسب برای ذخیره درکامپیوتر تبدیل می کند. معمولاً یک روبشگر تصویر متن را برای OCR فراهم می کند .این تصویر معمولاً از نقاط سیاه و سفید تشکیل می شود. سامانه OCR اشیاء موجود دراین تصویر را که ارقام ، حروف ، علائم و کلمات هستند، بازشناسی می کند و نام آنهارا در قالب مناسب ذخیره می کند . یک فایل تصویری حجم زیادی دارد و جستجوی متنی در آن ممکن نیست . این درحالی است که فایل خروجی یک سامانه OCR بسیار کم حجم و قابل جستجو است .

2-1 سیر تحویل عمومی OCR………………………ا…………………………………………………7

2-1-1 پیدایش OCR  ………………………………………….ا……………………………………….7

2-1-2- روند تحقیقات ……………………………………………………………………………………8

2-1-3 روند تولید محصولات تجاری …………………………………………………………………..12

2-2 نسل های مختلف نویسه خوان های نوری …………………………………………………..13

2-2-1 نسل اول   …………………………………………………………………………………….13

2-2-2 نسل دوم………………………………………………………………………………………..14

2-2-3 نسل سوم ……………………………………………………………………………………..14

2-2-4 نسل چهارم …………………………………………………………………………………….16

2-3- محصولات جدید OCR …………….ا……………………………………………………………..18

2-4- تاریخچه کوتاه سه شرکت مطرح در زمینه OCR  ………….ا………………………………..19

2-5- کارهای آینده …………………………………………………………………………………….23

2-6- سیر تحول OCR عربی…………………………………………………………………………..25

2-6-1- روند تحقیقات …………………………………………………………………………………25

2-6-2- روند تولید محصولات تجاری …………………………………………………………………27

2-6-3- نرم افزارهای مطرح OCR عربی  ……………………………………………………………29

2-7- سیر تحول OCR فارسی …………………………………………………………………………29

2-7-1- روند تحقیقات ……………………………………………………………………………………29

2-7-2- روند تولید محصولات تجاری ……………………………………………………………………..31

فصل سوم: بررسی روش پیشنهادی جهت تشخیص پلاک خودرو از روی تصویر آن

مقدمه ……………………………………………………………………………………………………. 35

دراین فصل ابتدا مقدمه ای درمورد پلاک های خودروهای ایرانی آورده شده، سپس الگوریتم کلی دریک سیستم بازشناسی حروف و اعداد بیان می شود و مراحل کلی بازشناسی حروف و ارقام در یک متن، پلاک یا یک تصویر بیان می گردد .درنهایت الگوریتم پیشنهادی جهت تشخیص پلاک خودرو به تفصیل شرح داده می شود.

3-1- معرفی ویژگی های پلاک یک خودرو ایرانی …………………………………………………… 35

الف- پلاک یک خودرو ایرانی از کلمه « ایران »، 7 رقم و یک حرف تشکیل شده است  با توجه به شکل پلاک به 2 بخش تقسیم می شود که این دو بخش به وسیله یک خط از هم جدا می شوند.

ب- بخش اول شامل  5 رقم و یک حرف می باشد که حرف سومین کاراکتر از سمت چپ است .

ج- بخش دوم از کلمه ایران و 2 رقم تشکیل شده که این 2 رقم نسبت به ارقام بخش اول با فونت کوچکتری نوشته شده اند. دو رقم بخش دوم مشخصه منطقه صدور پلاک است .

د- پلاک های ایران سفید، ویژه خودروهای شخصی ، پلاک های ایران قرمز ویژه خودروهای دولتی و پلاک های ایران زرد ویژه خودروهای عمومی هستند که دراین پروژه پلاکهای خودروهای شخصی بررسی می شوند .

هـ – پلاک های خودروهای شخصی بازمینه سفید و نوشته های مشکی برجسته می باشند.

و- حروف موجود در پلاک ها یکی از 32 حروف الفبای فارسی هستند. 17 حرف از 32 حرف فارسی نقطه دارند. تعداد نقاط بین 1 تا 3 متغیر است . نقاط ممکن است در بالا و پایین یا داخل بدنه باشند. حروف ک و گ سرکش دارند. حروف ط و ظ نیز دسته دارند.

ز- تفاوت شکل برخی حروف مانند ( ب ، پ ، ت ، ث ) تنها درتعداد یا محل قرار گرفتن نقاط آنهاست.

ح- اندازه تمام حروف فارسی یکسان نیستند مثلاً حروف (ب) و (س) درحالت جدا اندازه بزرگری نسبت به حروف (د) و (ه) دارند اما همه این حروف در پلاک خودرو حوزه برابری را اشغال می کنند.

ط- فضای ارقام در بخش اول پلاک با هم برابر و در بخش دوم هم با هم برابر هستند.

ی- سبک چاپ حروف را قلم می گویند. قلم های متفاوت برای خط فارسی ایجاد شده اند که به عنوان مثال می توان نازنین ، میترا ، لوتوس ، زر و یا قوت را نام برد. تفاوت این قلم ها در شکل چاپ حروف است . پروژه حاضر با فونت نازنین کارکرده است اما برنامه های نوشته شده برای همه فونت های فارسی قابل اجراست و نتیجه آن نیز مطلوب می باشد . در واقع پروژه انجام شده نسبت به فونت حساس نیست .

3-2- مراحل کلی بازشناسی نوری حروف و ارقام ………………………………………………….. 36

3-3- بخش های مختلف یک سیستم  OCR……………………………….ا……………………….. 36

3-4- رویکرد های مختلف در بازشناسی برون خط کلمات ………………………………………….. 37

3-4-1- رویکرد مبتنی بر جداسازی کلمات به حروف یا زیر حروف …………………………………. 37

3-4-2- رویکرد مبتنی بر شناسایی بدون جداسازی ………………………………………………….37

3-4-3- رویکرد ترکیبی ……………………………………………………………………………………..38

3-5- الگوی پیشنهادی جهت تشخیص پلاک خودرو ……………………………………………………38

3-6- جزئیات برنامه ی نوشته شده برای الگوریتم پیشنهادی ……………………………………….. 48

فصل چهارم : نتیجه گیری

مقدمه ………………………………………………………………………………………………………..50

دراین پروژه الگوریتمی پیشنهاد شد که به کمک آن می توان از روی تصویر یک پلاک خودرو، مشخصات پلاک را استخراج نمود.

4-1- ویژگی های الگوریتم پیشنهادی …………………………………………………………………….50

4-2- پیشنهاد برای کارهای آینده …………………………………………………………………………..50

منابع و مآخذ…………………………………………………………………………………………………..51


 


بلافاصله بعد از پرداخت به ایمیلی که در مرحله بعد وارد میکنید ارسال میشود.


فایل pdf غیر قابل ویرایش

قیمت25000تومان

خرید فایل word

قیمت35000تومان