معرفی مدل های هوش مصنوعی که درک می کنند دنیای اطراف ما چگونه به نظر می رسد

امروز، محققان هوش مصنوعی و متخصصان صوتی ما از تیم آزمایشگاه های واقعیت ما، با همکاری محققان دانشگاه تگزاس در آستین، در حال ساخت سه مورد هستند. مدل های جدید برای درک سمعی و بصری برای توسعه دهندگان باز است. این مدل‌ها که بر گفتار و صداهای انسان در ویدیو تمرکز می‌کنند، به گونه‌ای طراحی شده‌اند که ما را با سرعت بیشتری به سمت واقعیتی فراگیرتر سوق دهند.

خواه در یک مهمانی در متاورس اختلاط کنید یا تماشای یک فیلم خانگی در اتاق نشیمن با عینک واقعیت افزوده (AR)، آکوستیک در چگونگی تجربه این لحظات نقش دارد. ما در حال ساختن برای تجارب واقعیت ترکیبی و واقعیت مجازی مانند اینها هستیم، و معتقدیم هوش مصنوعی برای ارائه کیفیت صدای واقعی نقشی اساسی خواهد داشت.

برای رسیدگی به این موضوع، ما یک مدل تطبیق تصویری-آکوستیک تحت نظارت خود به نام AViTAR ایجاد کردیم که صدا را مطابق با فضای تصویر هدف تنظیم می‌کند. هدف آموزشی تحت نظارت خود، علیرغم فقدان صدای ناهماهنگ و داده‌های بدون برچسب، تطابق صوتی را از ویدیوهای وب درون وحشی می‌آموزد.

هر سه مدل با تحقیقات هوش مصنوعی ما در مورد ادراک سمعی و بصری مرتبط هستند. ما آینده‌ای را تصور می‌کنیم که در آن افراد می‌توانند عینک‌های واقعیت افزوده را بزنند و یک حافظه هولوگرافیک را زنده کنند که دقیقاً به همان شکلی است که از نقطه نظر خود تجربه کرده‌اند، یا احساس می‌کنند نه تنها در گرافیک، بلکه صداهایی که در بازی‌های مجازی بازی می‌کنند، غرق می‌شوند. جهان

بیشتر بدانید این مدل های هوش مصنوعی چگونه کار می کنند.





منبع

به عنوان مثال، تصور کنید که بتوانید در یک جلسه گروهی در متاورس با همکارانی از سراسر جهان شرکت کنید، اما به جای اینکه افراد مکالمه کمتری داشته باشند و بر سر یکدیگر صحبت کنند، طنین و آکوستیک مطابق با حرکت آنها در فضای مجازی و پیوستن آنها تنظیم می شود. گروه های کوچکتر VisualVoice به خوبی به ویدیوهای چالش برانگیز دنیای واقعی از سناریوهای مختلف تعمیم می دهد.

GIF قطع صدا با اطلاعات بصری

VisualVoice

این مدل‌ها ما را حتی به تجربیات چندوجهی و همه‌جانبه‌ای که می‌خواهیم در آینده بسازیم، نزدیک‌تر می‌کنند.

تطبیق بصری-آکوستیک

GIF حافظه هولوگرافیک را نشان می دهد

دوروربراسیون با اطلاعات بصری

یکی از موارد استفاده در آینده که ما به آن علاقه مندیم، احیای خاطرات گذشته است. تصور کنید که بتوانید یک جفت عینک AR بزنید و یک شی را با گزینه پخش خاطره مرتبط با آن ببینید، مانند برداشتن توتو و دیدن هولوگرام رسیتال باله فرزندتان. صدا طنین را از بین می‌برد و باعث می‌شود که حافظه درست مانند زمانی که آن را تجربه کرده‌اید، در جایگاه دقیق خود در بین مخاطبان بنشیند.

VisualVoice به روشی یاد می‌گیرد که شبیه نحوه تسلط افراد بر مهارت‌های جدید – به‌صورت چندوجهی – با یادگیری نشانه‌های دیداری و شنیداری از ویدیوهای بدون برچسب برای دستیابی به جداسازی گفتار شنیداری و بصری است.

هرکسی که ویدیویی را تماشا کرده باشد که در آن صدا با صحنه همخوانی ندارد، می‌داند که این امر چقدر می‌تواند برای ادراک انسان مختل کننده باشد. با این حال، هماهنگ کردن صدا و تصویر از محیط های مختلف قبلاً یک چالش بوده است.