یادگیری عمیق سنتز گفتار، از شبکه های عصبی عمیق ( DNN ) برای تولید گفتار مصنوعی از متن ( متن به گفتار ) یا طیف ( رمزگذارهای صوتی ) استفاده می کند. شبکه های عصبی عمیق با استفاده از حجم زیادی از گفتار ضبط شده و در مورد سیستم متن به گفتار، برچسب های مرتبط و/یا متن ورودی آموزش داده می شوند.
بعضی از سنتز کننده های گفتار مبتنی بر DNN، رویکرد طبیعت صدای انسان را در پیش می گیرند.
با توجه به یک متن ورودی یا یک سری از واحدهای زبانی Y ، گفتار هدف X را می توان توسط رابطهٔ زیر به دست آورد:
X = arg max P ( X | Y , θ )
که θ پارامتر مدل است.
معمولاً ابتدا متن ورودی به یک تولید کنندهٔ مشخصهٔ صوتی ارسال می گردد، سپس ویژگی های آوایی به رمزگذارهای صوتی عصبی فرستاده می شود. برای تولیدکنندهٔ ویژگی صوتی، تابع زیان معمولاً L1 loss یا L2 loss است. محدودیتی که این توابع زیان دارند این است که توزیع ویژگی های صوتی خروجی باید از نوع گوسی یا لاپلاسی باشد. در عمل، از آنجایی که محدودهٔ صدای انسان در حدود ۳۰۰ تا ۴۰۰۰ هرتز متغیر است، تابع هزینه طوری طراحی می شود که جریمه بیشتری در این محدوده داشته باشد:
l o s s = α loss human + ( 1 − α ) loss other
که loss human تلفات محدودهٔ صدای انسان و α یک اسکالر ( مقدار عددی ) معمولاً در حدود ۰٫۵ است. ویژگی آوایی معمولاً طیف نگار یا طیف نگاری در مقیاس Mel است. این ویژگی ها، رابطه زمان - فرکانس سیگنال گفتار را می گیرند و بنابراین، تولید خروجی های هوشمند با این ویژگی های صوتی کافی است. ویژگی Mel - frequency cepstrum مورد استفاده در کار تشخیص گفتار، برای سنتز گفتار مناسب نیست؛ زیرا اطلاعات زیادی را کاهش می دهد.
در سپتامبر ۲۰۱۶، شرکت DeepMind، مدل WaveNet را پیشنهاد کرد، یک مدل تولید کنندهٔ عمیق از شکل موج های صوتی خام، که نشان می دهد مدل های مبتنی بر یادگیری عمیق قادر هستند شکل موج های خام را مدل سازی کنند و از روی مشخصه های آکوستیک، مانند طیف نگارها یا طیف نگارهای مل گفتار تولید کنند. اگرچه WaveNet در ابتدا از نظر محاسباتی بسیار گران و کند در نظر گرفته می شد که در آن زمان این امکان وجود نداشت که از این مدل در محصولات مصرفی استفاده شود، اما یک سال پس از انتشار، DeepMind نسخه اصلاح شده WaveNet را به نام «Paralel WaveNet» معرفی کرد که مدلی تولیدی ۱۰۰۰ سریع تر از نسخه اصلی بود. [ ۱]
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلفبعضی از سنتز کننده های گفتار مبتنی بر DNN، رویکرد طبیعت صدای انسان را در پیش می گیرند.
با توجه به یک متن ورودی یا یک سری از واحدهای زبانی Y ، گفتار هدف X را می توان توسط رابطهٔ زیر به دست آورد:
X = arg max P ( X | Y , θ )
که θ پارامتر مدل است.
معمولاً ابتدا متن ورودی به یک تولید کنندهٔ مشخصهٔ صوتی ارسال می گردد، سپس ویژگی های آوایی به رمزگذارهای صوتی عصبی فرستاده می شود. برای تولیدکنندهٔ ویژگی صوتی، تابع زیان معمولاً L1 loss یا L2 loss است. محدودیتی که این توابع زیان دارند این است که توزیع ویژگی های صوتی خروجی باید از نوع گوسی یا لاپلاسی باشد. در عمل، از آنجایی که محدودهٔ صدای انسان در حدود ۳۰۰ تا ۴۰۰۰ هرتز متغیر است، تابع هزینه طوری طراحی می شود که جریمه بیشتری در این محدوده داشته باشد:
l o s s = α loss human + ( 1 − α ) loss other
که loss human تلفات محدودهٔ صدای انسان و α یک اسکالر ( مقدار عددی ) معمولاً در حدود ۰٫۵ است. ویژگی آوایی معمولاً طیف نگار یا طیف نگاری در مقیاس Mel است. این ویژگی ها، رابطه زمان - فرکانس سیگنال گفتار را می گیرند و بنابراین، تولید خروجی های هوشمند با این ویژگی های صوتی کافی است. ویژگی Mel - frequency cepstrum مورد استفاده در کار تشخیص گفتار، برای سنتز گفتار مناسب نیست؛ زیرا اطلاعات زیادی را کاهش می دهد.
در سپتامبر ۲۰۱۶، شرکت DeepMind، مدل WaveNet را پیشنهاد کرد، یک مدل تولید کنندهٔ عمیق از شکل موج های صوتی خام، که نشان می دهد مدل های مبتنی بر یادگیری عمیق قادر هستند شکل موج های خام را مدل سازی کنند و از روی مشخصه های آکوستیک، مانند طیف نگارها یا طیف نگارهای مل گفتار تولید کنند. اگرچه WaveNet در ابتدا از نظر محاسباتی بسیار گران و کند در نظر گرفته می شد که در آن زمان این امکان وجود نداشت که از این مدل در محصولات مصرفی استفاده شود، اما یک سال پس از انتشار، DeepMind نسخه اصلاح شده WaveNet را به نام «Paralel WaveNet» معرفی کرد که مدلی تولیدی ۱۰۰۰ سریع تر از نسخه اصلی بود. [ ۱]
wiki: یادگیری عمیق سنتز گفتار