جدول ۱- ۲ گروهبندی ویزمها در زبان فارسی
۱٫ ف، و
۵٫ ر
۹٫ آ
۲٫ ث، س، ص، ز، ذ، ظ، ض
۶٫ج، چ، گ، ک، ن، ت، د، ی، ط
۱۰٫ ٳ
۳٫ ژ، ش
۷٫ ای
۱۱٫ ٱ
۴٫ ب، پ، م
۸٫ ٲ
۱۲٫ او
به طور کلی سه روش برای شناسایی صحبت وجود دارد شامل شناسایی صوتی صحبت[۳]، شناسایی تصویری صحبت[۴]، شناسایی صوتی و تصویری صحبت[۵]، که در این تحقیق به شناسایی تصویری صحبت پرداخته میشود.
۱-۲ ساختار پایان نامه
در فصلهای مختلف این پایان نامه روشهای شناسایی دیداری صحبت بررسی شده است. در فصل اول مقدمهای در مورد شناسایی گفتار بیان شد. در فصل دوم به بررسی تحقیقات انجام شده در زمینه شناسایی دیداری صحبت و روشهای مختلف برای انجام این کار پرداخته شده است. در فصل سوم روشهای مختلف جداسازی دهان از بقیه قسمتهای صورت معرفی شده است تا با بهره گرفتن از این روشها بتوانیم علاوه برکوچک نمودن اندازه تصاویر، از پیچیدگی و نیز ابعاد زیاد ویژگیها جلوگیری نماییم. در فصل چهارم نحوه محاسبه و استخراج ویژگیهای فرکانسی - زمانی از ناحیه مورد نظر از دهان از فریمهای مختلف ویدیو و نیز عملکرد آنها با تغییر تعداد فریمهای انتخابی و سایز تصاویر با یکی از روشهای کاهش ویژگی نیز بررسی شده است. که این ویژگیهای استخراجی برای تشخیص به شبکه عصبی اعمال شده اند و همچنین پایگاه دادهای که ما در این تحقیق از آن استفاده نمودیم معرفی شده است.
فصل دوم : مروری بر تحقیقات انجام شده
۲- ۱ مقدمه
شناسایی تصویری صحبت یا به عبارتی دیگر، لب خوانی شامل دو قسمت میباشد ابتدا استخراج ویژگی از تصاویر لب و سپس طبقه بندی (کلاسهبندی) ویژگیها میباشد. برای استخراج ویژگیهای تصویری دو روش مبتنی بر تصویر و مبتنی بر مدل را میتوان استفاده نمود. در روش مبتنی بر تصویر ویژگیها به طور مستقیم با اعمال تبدیلهای ریاضی مانند تبدیل فوریه[۶]، تبدیل موجک[۷]، تبدیل کسینوسی گسسته[۸]، آنالیز مؤلفههای خاص[۹]، آنالیز مجزا ساز خطی[۱۰] بر روی تصاویر استخراج میشوند. مشکل این روشها، ابعاد بزرگ و تکراری بودن داده ها و حساس بودن به چرخش و جا به جایی لب است. در روش مبتنی بر مدل، مدلی از لب ساخته شده و به وسیله مجموعه کوچکی از پارامترها توصیف می شود همچون مدلهای شکل فعال[۱۱]، مدلهای مرز فعال[۱۲]، الگوهای انعطاف پذیر[۱۳]، که مزیت این روش، بیان ویژگیها در ابعاد کوچک و تأثیر ناپذیری مدل از روشنایی تصویر، چرخش، اندازه و جا به جایی لب است.
۲-۲ مدلهای مرز فعال
یکی از روش های مبتنی بر مدل که روش بالا به پایین نیز نامیده می شوند مدل کانتور فعال می باشد. پتاجان[۱۴] احتمالاً اولین محقق برای توسعه سیستم لب خوانی بوده است [۳]. مدل مرز فعال توسط منحنی باز یا بسته با تعدادی نقاط کنترل نزدیک تصویر شیای که میخواهیم شکل آن را استخراج کنیم مدل می شود. برای فرمپذیری آن چند فاکتور انرژی در نظر گرفته می شود و با کمینه کردن این انرژیها منحنی فرم لازم را به خود میگیرد. این مدل توسط گس و همکارانش معرفی شد[۴] که به دلیل شباهت حرکت کانتور[۱۵] به خزش مار[۱۶]، آنها این مدل را مار نامیدند. مار می تواند توسط تعدادی نقطه، انرژی کشسان داخلی[۱۷]و یا انرژی بر اساس لبه خارجی بیان شود.
۲-۲-۱ تابع انرژی
یک مار می تواند توسط n نقطه به صورت Vi= (xi , yi) , i=0, 1, 2, …., n-1 نمایش داده شود.
تابع انرژی مار به صورت زیر بیان می شود.
E*snake= (V(s)) ds= (V(s)) + E image (V(s)) + E con(V(s)))ds
رابطه (۲- ۱)
رابطه (۲- ۲)E external = E image + E con
رابطه (۲- ۳)E internal = E cont + E curv
که انرژی خارجی از مجموع انرژی تصویر و انرژی محدودیت خارجی[۱۸] که توسط کاربر اعمال می شود تشکیل شده است. انرژی داخلی مجموع انرژی کانتور مار و انرژی خمش مار[۱۹] میباشد.
E internal = (α(s)|Vs(s)|2 + β(s)|V ss(s)|2 ) /۲
رابطه ( ۲- ۴) = (α(s) || d(s) ||۲ +β(s) ||d2 (s)||2)/2
مقادیر بزرگ(s) α و(s) β انرژی داخلی مار را هنگامیکه خیلی زیاد گسترش مییابد افزایش خواهد داد و مقادیر کوچک آنها محدودیتهای کمتری روی اندازه و شکل مار قرار می دهند.