WaveNet یک شبکه عصبی عمیق برای تولید صدای خام است. WaveNet توسط محققان شرکت هوش مصنوعی مستقر در لندن DeepMind ایجاد شده است. این تکنیک که در مقاله ای در سپتامبر ۲۰۱۶ بیان شد، [ ۱] می تواند با مدل سازی مستقیم شکل موج ها با استفاده از روش شبکه عصبی آموزش دیده با ضبط گفتار واقعی، صداهایی شبیه به انسان با صدای نسبتاً واقعی ایجاد کند. طبق گزارش ها، آزمایش ها با انگلیسی US و مَندرین نشان داد که این سیستم از بهترین سیستم های تبدیل متن به گفتار ( TTS ) گوگل بهتر عمل می کند، اگرچه تا سال ۲۰۱۶ ترکیب متن به گفتار آن هنوز کمتر از گفتار واقعی انسان قانع کننده بود. [ ۲] توانایی WaveNet برای تولید شکل های موج خام به این معنی است که می تواند هر نوع صوتی از جمله موسیقی را مدل سازی کند. [ ۳]
به لطف محبوبیت نرم افزارهایی مانند سیری اپل، کورتانای مایکروسافت، آمازون الکسا و دستیار گوگل، تولید گفتار از متن به طور فزاینده ای در حال گسترش است. [ ۴]
اکثر این سیستم ها از تکنیکی استفاده می کنند که شامل قطعات صوتی به هم پیوسته برای ایجاد صداها و کلمات قابل تشخیص است. [ ۵] رایج ترین آنها TTS پیوسته نامیده می شود. این شامل کتابخانه بزرگی از قطعات گفتاری است که از یک بلندگو ضبط شده و سپس برای تولید کلمات و صداهای کامل به هم متصل می شوند. نتیجه غیرطبیعی به نظر می رسد، با آهنگ و آهنگ عجیب و غریب. [ ۶] اتکا به کتابخانه ضبط شده نیز تغییر یا تغییر صدا را دشوار می کند. [ ۷]
تکنیک دیگری که به عنوان TTS پارامتریک[ ۸] می شود، از مدل های ریاضی برای بازآفرینی صداها استفاده می کند که سپس در کلمات و جملات جمع می شوند. اطلاعات مورد نیاز برای تولید صداها در پارامترهای مدل ذخیره می شود. ویژگی های گفتار خروجی از طریق ورودی های مدل کنترل می شود، در حالی که گفتار معمولاً با استفاده از یک ترکیب کننده صدا به نام Vocoder ایجاد می شود. این همچنین می تواند منجر به صدای غیرطبیعی شود.
WaveNet نوعی شبکه عصبی پیشخور است که به عنوان یک شبکه عصبی پیچشی عمیق ( CNN ) شناخته می شود. در WaveNet, CNN یک سیگنال خام را به عنوان ورودی می گیرد و یک نمونه خروجی را در یک زمان ترکیب می کند. این کار را با نمونه برداری از یک توزیع softmax ( یعنی طبقه ای ) از یک مقدار سیگنال انجام می دهد که با استفاده از تبدیل ترکیبی μ - قانون کدگذاری شده و به ۲۵۶ مقدار ممکن کوانتیزه می شود. [ ۱۰]
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلفبه لطف محبوبیت نرم افزارهایی مانند سیری اپل، کورتانای مایکروسافت، آمازون الکسا و دستیار گوگل، تولید گفتار از متن به طور فزاینده ای در حال گسترش است. [ ۴]
اکثر این سیستم ها از تکنیکی استفاده می کنند که شامل قطعات صوتی به هم پیوسته برای ایجاد صداها و کلمات قابل تشخیص است. [ ۵] رایج ترین آنها TTS پیوسته نامیده می شود. این شامل کتابخانه بزرگی از قطعات گفتاری است که از یک بلندگو ضبط شده و سپس برای تولید کلمات و صداهای کامل به هم متصل می شوند. نتیجه غیرطبیعی به نظر می رسد، با آهنگ و آهنگ عجیب و غریب. [ ۶] اتکا به کتابخانه ضبط شده نیز تغییر یا تغییر صدا را دشوار می کند. [ ۷]
تکنیک دیگری که به عنوان TTS پارامتریک[ ۸] می شود، از مدل های ریاضی برای بازآفرینی صداها استفاده می کند که سپس در کلمات و جملات جمع می شوند. اطلاعات مورد نیاز برای تولید صداها در پارامترهای مدل ذخیره می شود. ویژگی های گفتار خروجی از طریق ورودی های مدل کنترل می شود، در حالی که گفتار معمولاً با استفاده از یک ترکیب کننده صدا به نام Vocoder ایجاد می شود. این همچنین می تواند منجر به صدای غیرطبیعی شود.
WaveNet نوعی شبکه عصبی پیشخور است که به عنوان یک شبکه عصبی پیچشی عمیق ( CNN ) شناخته می شود. در WaveNet, CNN یک سیگنال خام را به عنوان ورودی می گیرد و یک نمونه خروجی را در یک زمان ترکیب می کند. این کار را با نمونه برداری از یک توزیع softmax ( یعنی طبقه ای ) از یک مقدار سیگنال انجام می دهد که با استفاده از تبدیل ترکیبی μ - قانون کدگذاری شده و به ۲۵۶ مقدار ممکن کوانتیزه می شود. [ ۱۰]
wiki: ویونت