نام فایل : روش-جدید-برای-لبخوانی-با-استفاده-از-پردازش-تصویر-13-ص
فرمت : .doc
تعداد صفحه/اسلاید : 12
حجم : 801 کیلوبایت
روش جدید برای لبخوانی با استفاده از پردازش تصویر
وحیده نیکفرجام هفتآسیا
گروه کامپیوتر- دانشگاه آزاد اسلامی مشهد
Vahideh_nikfarjam@yahoo.com
چکیده :
بازشناسی تصویری گفتار به عنوان فرآیندی برای کمک به افرادی که دچار آسیب در سیستم صوتی شدهاند، در سالهای اخیر مورد توجه محققین قرار گرفته است. در این مقاله سعی در این بوده که سه روش برای استخراج ویژگی شکل لب ارائه شود : استخراج کانتور لب ، قطعهبندی
Watershed
، پارامترهای پویانمایی چهره . سپس برای شناسایی گفتار از روی حرکات لب از الگوریتم
HMM
و شبکههای عصبی پرسپترون دولایه با ساختاری ساده استفاده شده است.
واژههای کلیدی :
بازشناسی تصویری گفتار ،استخراج کانتور لب ، قطعهبندی
Watershed
، پویانمایی چهره ، ردیابی علائم .
1- مقدمه :
سامانهی لبخوانی رایانهای به معلولینی کمک می کند که دچار آسیب در سیستم صوتی بوده و قادر به برقراری ارتباط با دیگران نیستند. این افراد معمولا توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و در حالت ایدهآل میتوان با انجام لبخوانی به مقصود آنها پی برد. این نرمافزار به معلولینی که از صندلی چرخدار استفاده میکنند و فقط توانایی انجام صحیح حرکات لبشان را دارند کمک میکند؛ بدین ترتیب که با کمک دوربین فیلمبرداری حرکات لب آنها ثبت میشود و پس از آنالیز ، فرامین لازم به ویلچر داده میشود.
از جمله کاربرد های این سامانه میتوان به تشخیص فرامین ناتوانان گفتاری ،تشخیص برخی کلمات خاص، مکمل بازشناسی گفتار صوتی و همچنین کاربردهای نظامی و اطلاعاتی ذکر کرد .در کاربرد حفاظتی ، این سامانه میتواند با بهرهگیری از حرکات لب و بدون ثبت سیگنال صوتی ،کلمات خاصی را شناسایی و تصویر گویندهی آن را در مراکز عمومی و محلهای تردد ثبت کند.
فرآیند بازشناسی تصویری گفتار شامل دو مرحلهی استخراج ویژگی از دنباله تصاویر لب و طبقهبندی ویژگیهای بدست آمده است. ویژگی گفتاری تصویر حرکات لب معلولین که دارای رنگ پوست و ظاهر متفاوتی هستند ، به کمک طراحی یک الگوریتم جدید استخراج شده و در مرحلهی بعد با استفاده از الگوریتم مدل مخفی مارکوف ، حرکات و گفتار تصویری تشخیص داده میشود . بهرهگیری از اطلاعات تصویری از شکلهای لب و حرکات آن ، دقت و اطمینان سیستمهای تشخیص اتوماتیک گفتار صوتی را ـ خصوصا در محیطهای نویزی ـ بطور قابل توجهی بهبود می بخشد .
آزمایش این نرمفزار بر روی مجموعهی دادگان جمعآوری شده ،شامل 20 نفر زن و مردِ 20 تا50 سال صورت گرفته و روی 6 واژه گفتاری 1،2،3،4،5،6 با 91درصد موفقیت ، بازشناسی گفتار انجام شده است . این پژوهشها در مراحل تکمیلی می توانند با افزایش تعداد کلماتِ قابل شناسایی ، محدودهی تشخیص را هر چه بیشتر افزایش دهند .
2- استخراج كانتورلب
به منظوراستخراج ويژگيهاي تصويري مربوط به توليد گفتار،استخراج دقيق شكل لب حياتي مي باشد.استفاده ازرويكردهاي مبتني برلبه براي استخراج لب داراي مشكلات فراواني مي باشد؛ زيرانگاشتهاي بدست آمده براساس ويژگي لبه معمولأ داراي نويزواشتباهات فراواني مي باشد. به علاوه لبه هااغلب درمرزلب مفقود بوده ياازنظردامنه خيلي ضعيف هستند.باتوجه به اين مشكلات، رويكرد استخراج كانتورلب مابه آشكارسازي لبه هادرلب استناد نكرده است، بلكه هدف ماتقسيم بندي تصاويرلب داده شده به ناحيه لب وغيرلب براساس شدت روشنايي ورنگ پيكسلهامي باشد.دراين روش،فرض نمي شود كه لب داراي يك رنگ خاص باشد بلكه جستجو بر اساس تفاوت شدت روشنايي ورنگ بين نواحي لب وغيرلب صورت مي گيرد.درادامه درابتدا مدل پيشنهادي باجزئيات شرح داده مي شود.سپس تابع هزينه براي پيداكردن بهينه مرزبين ناحيه لب وغيرلب ولگوريتم بهينه سازي پارامترهاي مدل توضيح داده مي شود.
3-2- مدل لب
ازمدلهاي انعطاف پذيرهندسي براي مدل كردن شكل لب استفاده شده است .مدل هندسي به شكل لب اجازه مي دهد كه بوسيله يك مجموعه كوچكي ازپارامترهاباتفسيرفيزيكي توصيف شود. مدل هندسي لب درشكل (1) نشان داده شده است وبامعادلات(1) و(2) توصيف مي شود:
(1) و (2)
...
مبلغ قابل پرداخت 25,800 تومان