تحقیق ترکیب روشهای مبتنی بر مدل و پردازش چندباندی

ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز

چکیده: سیستمهای بازشناسی چندباندی گفتار که بر اساس مکانیزم شنوایی انسان عمل می کنند، نرخ بازشناسی را نسبت به سیستم تمام باند به ویژه در حضور نویز بهبود می بخشند. در بازشناسی چندباندی گفتار، سیگنال گفتار ابتدا به چند زیرباند فرکامسی تقسیم می شود و پس از استخراج بردارهای ویژگی از هر زیرباند، این بردارها یا احتمال تخمینی برای آنها با یکدیگر ترکیب می شوند. در کار حاضر سیستم چندباندی بازشناسی گفتار بر مبنای ترکیب ویژگیها مد نظر قرار گرفته است و ترکیب این شیوه با یک شیوه مبتنی بر مدل موسوم به معیار تصویردهی وزن دار پیشنهاد گردیده است. نتایج آزمایشها نشان می دهند که علاوه بر بهتر بودن کارآیی شیوه ترکیب ویژگیها نسبت به سیستم تمام باند، روش پیشنهادی نیز سبب بهبود چشمگیر کارآیی روش ترکیب ویژگیها می گردد.

کلمات کلیدی: باشناسی چندباندی گفتار، زیرباند، ترکیب ویژگیها، تبدیل موجک، معیار تصویردهی وزن دار

1-مقدمه

مسئله مقاوم سازی سیستمهای بازشناسی گفتار در برابر نویز را می توان به صورت کاهش میزان عدم تطبیق میان شرایط آموزش و آزمون سیستم درنظر گرفت. روشهایی را که برای کاهش این عدم تطبیق بکار یم روند، می توان به سه گروه اصلی تقسیم کرد: روشهای مبتنی بر داده، روشهای مبتنی بر مدل و شیوه های پردازش چندباندی. روشهای مبتنی بر داده تلاش می کنند تا تاثیرات نویز را بر سیگنالهای گفتار یا ویژگیهای آن کاهش دهند، حال آنکه روشهای مبتنی بر مدل بحای خود سیگنال گفتار یا ویژگیهای آن مدل آلکوستیک گفتار را اصلاح می نمایند. شیوه پردازش چندباندی معمولاً در مورد نویزهایی بکار گرفته می شود که سبب تخریب بخشی از طیف فرکانسی سیگنال گفتار می شوند. در شیوه بازشناسی چندباندی، گفتار تمام باند به چندین زیرباند فرکانسی تقسیم می شود و پس از استخراج بردارهای ویژگی از هر زیرباند، بردارهای ویژگی زیرباندها یا احتمال تخمینی برای آنها توسط بازشناس متناظر با هر زیرباند، با یکدیگر ترکیب می شوند و به این ترتیب پاسخ بازشناسی بدست می آید.روشهای مبتین بر داده را می توان معمولاً به دو گروه عمده تقسیم کرد: شیوه بهبود گفتار و روشهای جبران ویژگی. شیوه های بهبود گفتار مستقیماً با سیگنال نویزی گفتار سر و کار دارند و با تخمین سیگنال تمیز از سیگنال نویزی در جهت کاهش میزان عدم تطبیق تلاش می کنند. روش تفاضل طیف و آستانه گذاری ضرایب تبدیل موجک سیگنال گفتار نمونه هایی از این دسته هستند. روشهای جبران ویژگی معمولاً عدم تطبیق را به دو طریق کاهش می دهند. در طریق اول، یک تبدیل به ویژگیها اعمال یم شود تا اثر نویز از آنها حذف گردد. تفاضل میانگین ضرایب کپسترال (CMS) و RASTA PLP از جمله چنین روشهایی هتسند. در طریق دیگر، ویژگیهای جدیدی استخراج می شوند که نسبت به تاثیرات نویز مقاوم باشند، همانند ویژگیهای خود همبستگی فاز.

روشهای مبتنی بر مدل، مدل آماری محیط را به نحوی اصلاح می کنند که با شرایط جدید محیطی همانند شرایط نویزی تطبیق یابد. در این تطبیق هیچ نوع فرض یا دانش خاصی در باره خود سیگنال گفتار لازم نیست. این روشها معمولاً نیازمند آموزش برون خط برروی دادگان گفتار نویزی هستند. به عنوان نمونه ای از این روشها می توان به ترکیب موازی مدلها (PMC) و بازگشت خطی با بیشترین شباهت (MLLR) اشاره کرد.

در بازشناسی چند باندی گفتار، ابتدا سیگنال به چند باند فرکانسی تقسیم می شود. به این ترتیب می توان بخشهای تخریب شده طیق گفتار را از دیگر بخشهای طیف جدا کرد. سپس یک بردار ویژگی از هر زیرباند استخراج می شود که زیربردار ویژگی نامیده می شود. دو روش برای برخورد با این زیربردارها وجود دارد. در روش اول می توان آنها را در کنار یکدیگر قرار داد و به عنوان جایگزینی برای ویژگیهای اصلی استفاده نمود که این شیوه ترکیب ویژگیها نامیده می شود. در روش دیگر زیربردارهای ویژگی بوسیله بازشناس مجزای متناظر یا هر زیرباند، مورد پردازش قرار می گیرند و احتمالی برای آنها تخمین شده می شود و این احتمالات به شیوه خطی یا غیرخطی با یکدیگر ترکیب می شوند. این شیوه ترکیب احتمالات یا ترکیب مدلها نامیده می شود.

در کار حاضر، ما ترکیبی از روشهای مبتنی بر مدل و بازسازی چندباندی گفتار را برای بهبود کارآیی روش بازشناسی مقاوم چندباندی گفتار ارائه می کنیم. در این مقاله، سیستم ترکیب ویژگیها در بازشناسی چندباندی گفتار مد نظر قرار گرفته است و با بکاربردن یک روش مبتنی بر مدل موسوم به معیار تصویردهی وزن دار (WPM)، کارآیی آن بهبود داده شده است. ساختار ادامه مقاله به این صورت است. بخش دوم به بررسی اصول بازشناسی چندباندی گفتار و ترکیب ویژگیها می پردازد. در بخش سوم چگونگی استفاده از تبدیل موجک برای تقسیم سیگنال گفتار به زیرباندهای فرکانسی شرح داده می شود. بخش چهارم معیار تصویردهی وزن دار را بررسی می کند. در بخش پنجم نتایج آزمایشها ذکر می شود. بخش ششم نیز به جمع بندی و نتیجه گیری کلی اختصاص دارد.

2-بتزشماسی چندباندی گفتار

چنانکه گفته شد، روشهای بازشناسی چندباندی گفتار به دو دسته کلی تقسیم می شوند: ترکیب ویژگیها و ترکیب احتمالات. ترکیب ویژگی زیرباندها از طریق قراردادن زیربردارهای ویژگی در کنار یکدیگر، ابتدا توسط Okawa در سال 1998 پیشنهاد گردید. الحاق زیربردارهای ویژگی به یکدیگر، یک بردار ویژگی را ایجاد می کند که می توان آن را با شیوه های استاندارد پردازش تمام باند مدل کرد. این امر سبب می شود که همبستگی ممکن میان زیربردارهای ویژگی در مدل آکوستیک درنظر گرفته شود که معمولاً مدل را نیرومندتر و قابل اعتمادتر می کند. مزیت دیگر این ترکیب آن است که پردازش جداگانه برروی زیربردارهای ویژگی نظیر ناهمبسته سازی و دیگر تبدیلات، سبب می شود نویز از یک مجموعه ویژگی تخریب شده به دیگری سرایت نکند. اگرچه این شیوه ترکیب ساده است، لیکن امکان وزن دهی به زیرباندها بر اساس قابلیت اعتماد و میزان اطلاعات آنها را دارا نیست که این امر نقطه ضعف این شیوه محسوب می گردد.

در روش ترکیب احتمالات با هر زیرباند فرکانسی همانند یک منبع مجزای اطلاعاتی رفتار می شود. پس از عملیات پیش پردازش و استخراج زیربردارهای ویژگی از هر زیرباند، خروجیهای احتمالی کلاس بندهای مربوط به هر زیرباند، در سطحی از تقسیم بندی زمانی با یکدیگر ترکیب می شوند، همانند ترکیب در سطح واج یا ترکیب در سطح هجا، کلمه یا جمله، بسته به نوع کلاس بندی های بکار رفته در زیرباندها شیوه های آماری این ترکیب نیز تغییر می کند. ترکیب احتمالات ممکن است به صورت خطی و با استفاده از یک تابع وزن دهی برای تعیین قابلیت اعتماد نسبی و میزان اطلاعات موجود در هر زیرباند صورت گیرد و یا به شیوه غیرخطی بوسیله ابزارهایی همچون شبکه عصبی MLP انجام شود.

ما در کار پیشین خود سیستم ترکیب احتمالات را مورد بررسی قرار دادیم. در کار حاضر سیستم ترکیب ویژگیها مد نظر قرار گرفته است و با ترکیب آن شیوه مبتنی بر مدل، کارآیی این روش بهبود یافته است.

3-تقسیم گفتار به زیرباندهای فرکانسی با استفاده از تدبیل موجک

ویژگی اصلی تبدیل موجک بهره جستن از پنجره های زمانی با طول متفاوت بریا باندهای فرکانسی مختلف است. به این ترتیب با استفاده از تبدیل موجک می توان به دقت فرکانسی بالا در باندهای فرکانسی پایین و دقت فرکانسی پایین در باندهای فرکانسی بالا دست یافت. بنا به خصوصیت، تبدیل موجک ابزار قدرتمندی برای مدل کردن سیگنالها ناایستانی همانند سیگنال گفتار است که داریا تغییرات آرام در فرکانسهای پایین و تغییرات ناگهانی در فرکانسهای بالا می باشد. به علاوه مدل فیزیکی حلزون گوش نشان می دهد که حلزون گوش همانند یک تبدیل موجک پیوسته عمل می کند و در آن هر یک از بخشهای مختلف غشای پایه به یک محرک فرکانسی متفاوت عمس العمل نشان می دهد. با توجه به این خصوصیات، ما از تبدیل موجک برای تقسیم گفتار به باندهای فرکانسی استفاده می کنیم.

تبدیل موجک یک سیگنال را می توان به صورت یک نمایش درختی از فیلترهای پایین گذر و بالاگذر در نظر گرفت که در آن هر فیلتر با کاهش نرخ نمونه برداری با ضریب دو دنبال می شود. در تبدیل موجک گسسته تنها شاخه های مربوط به فیلترهای پایین گذر گسترش می یابند، درحالیکه در تبدیل موجک بسته ای درخت بطور کامل در هر دو شاخه پایین گذر و بالاگذر گسترش می یابد. برای بیان بهینه سیگنال با استفاده از تبدیل موجک بسته ای، می توان

تحقیق ترکیب روشهای مبتنی بر مدل و پردازش چندباندی

فایل مارکت

فایل مارکت فروشگاه خرید و فروش فايل پورتال دانلود مقاله، تحقیق، پایان نامه، پژوهش، پروژه,پاورپوينت,پروژه دانشگاهي,قالب,تم وردپرس

تحقیق ترکیب روشهای مبتنی بر مدل و پردازش چندباندی

خرید این محصول:

خرید این محصول از دکمه مقابل:

پاسخ دهید لغو پاسخ