
بروزرسانی: 08 اردیبهشت 1404
معرفی Voicebox: همه کاره ترین هوش مصنوعی برای تولید گفتار
Voicebox می تواند کلیپ های صوتی با کیفیت بالا تولید کند و صدای از پیش ضبط شده را ویرایش کند - مانند حذف بوق ماشین یا پارس کردن سگ - همه اینها در عین حفظ محتوا و سبک صدا. این مدل همچنین چند زبانه است و می تواند به شش زبان گفتار تولید کند.
تطبیق پذیری Voicebox وظایف مختلفی را امکان پذیر می کند، از جمله:
بیشتر بدانید جعبه صدا.
منبع
نمونه گیری گفتار متنوع: با آموختن از داده های مختلف، Voicebox می تواند گفتاری تولید کند که نشان دهنده نحوه صحبت افراد در دنیای واقعی و به شش زبان ذکر شده در بالا باشد.
امروز، ما یک پیشرفت در هوش مصنوعی مولد برای گفتار را اعلام می کنیم. ما Voicebox را توسعه داده ایم، یک مدل هوش مصنوعی پیشرفته که می تواند وظایف تولید گفتار را انجام دهد - مانند ویرایش، نمونه برداری و سبک سازی - که به طور خاص برای انجام آن از طریق یادگیری درون متنی آموزش ندیده است.
Voicebox یک گام مهم رو به جلو در تحقیقات هوش مصنوعی مولد ما است و ما مشتاقانه منتظر ادامه کاوش خود در فضای صوتی هستیم و ببینیم که سایر محققان چگونه کار ما را توسعه می دهند.
در آینده، مدل های چندمنظوره هوش مصنوعی مانند Voicebox می توانند صداهایی با صدای طبیعی به دستیاران مجازی و شخصیت های غیربازیکن در متاورس بدهند. آن ها می توانند به افراد کم بینا اجازه دهند پیام های نوشتاری دوستان را که توسط هوش مصنوعی در صدایشان خوانده می شود بشنوند، ابزارهای جدیدی به سازندگان برای ایجاد و ویرایش آهنگ های صوتی برای ویدیوها و بسیاری موارد دیگر بدهند.
ویرایش گفتار و کاهش نویز: Voicebox می تواند بخشی از گفتار را که با نویز قطع می شود، بازسازی کند یا بدون نیاز به ضبط مجدد کل سخنرانی، کلمات اشتباه گفته شده را جایگزین کند. برای مثال، می توانید بخشی از یک سخنرانی را شناسایی کنید که با پارس سگ قطع می شود، آن را برش دهید، و به Voicebox دستور دهید تا آن بخش را دوباره تولید کند - مانند یک پاک کن برای ویرایش صدا.
ترکیب متن به گفتار درون متنی: با استفاده از یک نمونه صوتی به مدت دو ثانیه، Voicebox می تواند با سبک صوتی مطابقت داشته باشد و از آن برای تولید متن به گفتار استفاده کند.
انتقال سبک بین زبانی: وقتی داده می شود یک نمونه از گفتار یک نفر و یک متن به زبان انگلیسی، فرانسوی، آلمانی، اسپانیایی، لهستانی یا پرتغالی، Voicebox می تواند متن را به هر یک از آن زبان ها بخواند، حتی اگر نمونه گفتار و متن به زبان های مختلف باشد. این قابلیت می تواند در آینده برای کمک به مردم برای برقراری ارتباط طبیعی و معتبر حتی اگر به همان زبان ها صحبت نمی کنند استفاده شود.
نویسنده: تیم تحریریه معین فرجی