امروز، محققان هوش مصنوعی و متخصصان صوتی ما از تیم آزمایشگاه های واقعیت ما، با همکاری محققان دانشگاه تگزاس در آستین، در حال ساخت سه مورد هستند. مدل های جدید برای درک سمعی و بصری برای توسعه دهندگان باز است. این مدلها که بر گفتار و صداهای انسان در ویدیو تمرکز میکنند، به گونهای طراحی شدهاند که ما را با سرعت بیشتری به سمت واقعیتی فراگیرتر سوق دهند.
خواه در یک مهمانی در متاورس اختلاط کنید یا تماشای یک فیلم خانگی در اتاق نشیمن با عینک واقعیت افزوده (AR)، آکوستیک در چگونگی تجربه این لحظات نقش دارد. ما در حال ساختن برای تجارب واقعیت ترکیبی و واقعیت مجازی مانند اینها هستیم، و معتقدیم هوش مصنوعی برای ارائه کیفیت صدای واقعی نقشی اساسی خواهد داشت.
برای رسیدگی به این موضوع، ما یک مدل تطبیق تصویری-آکوستیک تحت نظارت خود به نام AViTAR ایجاد کردیم که صدا را مطابق با فضای تصویر هدف تنظیم میکند. هدف آموزشی تحت نظارت خود، علیرغم فقدان صدای ناهماهنگ و دادههای بدون برچسب، تطابق صوتی را از ویدیوهای وب درون وحشی میآموزد.
هر سه مدل با تحقیقات هوش مصنوعی ما در مورد ادراک سمعی و بصری مرتبط هستند. ما آیندهای را تصور میکنیم که در آن افراد میتوانند عینکهای واقعیت افزوده را بزنند و یک حافظه هولوگرافیک را زنده کنند که دقیقاً به همان شکلی است که از نقطه نظر خود تجربه کردهاند، یا احساس میکنند نه تنها در گرافیک، بلکه صداهایی که در بازیهای مجازی بازی میکنند، غرق میشوند. جهان
بیشتر بدانید این مدل های هوش مصنوعی چگونه کار می کنند.
به عنوان مثال، تصور کنید که بتوانید در یک جلسه گروهی در متاورس با همکارانی از سراسر جهان شرکت کنید، اما به جای اینکه افراد مکالمه کمتری داشته باشند و بر سر یکدیگر صحبت کنند، طنین و آکوستیک مطابق با حرکت آنها در فضای مجازی و پیوستن آنها تنظیم می شود. گروه های کوچکتر VisualVoice به خوبی به ویدیوهای چالش برانگیز دنیای واقعی از سناریوهای مختلف تعمیم می دهد.
VisualVoice
این مدلها ما را حتی به تجربیات چندوجهی و همهجانبهای که میخواهیم در آینده بسازیم، نزدیکتر میکنند.
تطبیق بصری-آکوستیک
دوروربراسیون با اطلاعات بصری
یکی از موارد استفاده در آینده که ما به آن علاقه مندیم، احیای خاطرات گذشته است. تصور کنید که بتوانید یک جفت عینک AR بزنید و یک شی را با گزینه پخش خاطره مرتبط با آن ببینید، مانند برداشتن توتو و دیدن هولوگرام رسیتال باله فرزندتان. صدا طنین را از بین میبرد و باعث میشود که حافظه درست مانند زمانی که آن را تجربه کردهاید، در جایگاه دقیق خود در بین مخاطبان بنشیند.
VisualVoice به روشی یاد میگیرد که شبیه نحوه تسلط افراد بر مهارتهای جدید – بهصورت چندوجهی – با یادگیری نشانههای دیداری و شنیداری از ویدیوهای بدون برچسب برای دستیابی به جداسازی گفتار شنیداری و بصری است.
هرکسی که ویدیویی را تماشا کرده باشد که در آن صدا با صحنه همخوانی ندارد، میداند که این امر چقدر میتواند برای ادراک انسان مختل کننده باشد. با این حال، هماهنگ کردن صدا و تصویر از محیط های مختلف قبلاً یک چالش بوده است.