معرفی مدل های هوش مصنوعی که درک می کنند دنیای اطراف ما چگونه به نظر می رسد


امروز، محققان هوش مصنوعی و متخصصان صوتی ما از تیم آزمایشگاه های واقعیت ما، با همکاری محققان دانشگاه تگزاس در آستین، در حال ساخت سه مورد هستند. مدل های جدید برای درک سمعی و بصری برای توسعه دهندگان باز است. این مدل‌ها که بر گفتار و صداهای انسان در ویدیو تمرکز می‌کنند، به گونه‌ای طراحی شده‌اند که ما را با سرعت بیشتری به سمت واقعیتی فراگیرتر سوق دهند.

خواه در یک مهمانی در متاورس اختلاط کنید یا تماشای یک فیلم خانگی در اتاق نشیمن با عینک واقعیت افزوده (AR)، آکوستیک در چگونگی تجربه این لحظات نقش دارد. ما در حال ساختن برای تجارب واقعیت ترکیبی و واقعیت مجازی مانند اینها هستیم، و معتقدیم هوش مصنوعی برای ارائه کیفیت صدای واقعی نقشی اساسی خواهد داشت.

هر سه مدل با تحقیقات هوش مصنوعی ما در مورد ادراک سمعی و بصری مرتبط هستند. ما آینده‌ای را تصور می‌کنیم که در آن افراد می‌توانند عینک‌های واقعیت افزوده را بزنند و یک حافظه هولوگرافیک را زنده کنند که دقیقاً به همان شکلی است که از نقطه نظر خود تجربه کرده‌اند، یا احساس می‌کنند نه تنها در گرافیک، بلکه صداهایی که در بازی‌های مجازی بازی می‌کنند، غرق می‌شوند. جهان

این مدل‌ها ما را حتی به تجربیات چندوجهی و همه‌جانبه‌ای که می‌خواهیم در آینده بسازیم، نزدیک‌تر می‌کنند.

تطبیق بصری-آکوستیک

هرکسی که ویدیویی را تماشا کرده باشد که در آن صدا با صحنه همخوانی ندارد، می‌داند که این امر چقدر می‌تواند برای ادراک انسان مختل کننده باشد. با این حال، هماهنگ کردن صدا و تصویر از محیط های مختلف قبلاً یک چالش بوده است.

برای رسیدگی به این موضوع، ما یک مدل تطبیق تصویری-آکوستیک تحت نظارت خود به نام AViTAR ایجاد کردیم که صدا را مطابق با فضای تصویر هدف تنظیم می‌کند. هدف آموزشی تحت نظارت خود، علیرغم فقدان صدای ناهماهنگ و داده‌های بدون برچسب، تطابق صوتی را از ویدیوهای وب درون وحشی می‌آموزد.

یکی از موارد استفاده در آینده که ما به آن علاقه مندیم، احیای خاطرات گذشته است. تصور کنید که بتوانید یک جفت عینک AR بزنید و یک شی را با گزینه پخش خاطره مرتبط با آن ببینید، مانند برداشتن توتو و دیدن هولوگرام رسیتال باله فرزندتان. صدا طنین را از بین می‌برد و باعث می‌شود که حافظه درست مانند زمانی که آن را تجربه کرده‌اید، در جایگاه دقیق خود در بین مخاطبان بنشیند.

GIF حافظه هولوگرافیک را نشان می دهد

دوروربراسیون با اطلاعات بصری

GIF قطع صدا با اطلاعات بصری

VisualVoice

VisualVoice به روشی یاد می‌گیرد که شبیه نحوه تسلط افراد بر مهارت‌های جدید – به‌صورت چندوجهی – با یادگیری نشانه‌های دیداری و شنیداری از ویدیوهای بدون برچسب برای دستیابی به جداسازی گفتار شنیداری و بصری است.

به عنوان مثال، تصور کنید که بتوانید در یک جلسه گروهی در متاورس با همکارانی از سراسر جهان شرکت کنید، اما به جای اینکه افراد مکالمه کمتری داشته باشند و بر سر یکدیگر صحبت کنند، طنین و آکوستیک مطابق با حرکت آنها در فضای مجازی و پیوستن آنها تنظیم می شود. گروه های کوچکتر VisualVoice به خوبی به ویدیوهای چالش برانگیز دنیای واقعی از سناریوهای مختلف تعمیم می دهد.

بیشتر بدانید این مدل های هوش مصنوعی چگونه کار می کنند.





منبع