استفاده از هوش مصنوعی برای ترجمه گفتار برای یک زبان عمدتا شفاهی

بسیاری از سیستم های ترجمه گفتار بر رونویسی تکیه می کنند. با این حال، از آنجایی که زبان‌های شفاهی عمدتاً اشکال نوشتاری استاندارد ندارند، تولید متن رونویسی شده به عنوان خروجی ترجمه کار نمی‌کند. بنابراین، ما بر ترجمه گفتار به گفتار تمرکز کردیم.

درباره ما بیشتر بدانید ترجمه گفتار مبتنی بر هوش مصنوعی.





منبع

برای مقابله با این چالش، ما اولین سیستم ترجمه گفتار به گفتار مبتنی بر هوش مصنوعی را برای هوکین ساخته‌ایم، زبانی که عمدتاً شفاهی است و به طور گسترده در چینی‌های دیاسپورا صحبت می‌شود، اما فاقد فرم نوشتاری استاندارد است. ما مدل‌های ترجمه هوکین، مجموعه داده‌های ارزیابی و مقالات تحقیقاتی خود را منبع باز می‌سازیم تا دیگران بتوانند کار ما را بازتولید کنند و بر اساس آن کار کنند.

در حالی که مدل ترجمه هوکین هنوز در حال انجام است و می تواند تنها یک جمله کامل را در هر بار ترجمه کند، این گامی به سوی آینده ای است که در آن ترجمه همزمان بین زبان ها امکان پذیر است. تکنیک هایی که ما پیشگام بودیم را می توان به بسیاری از زبان های نوشتاری و نانوشته دیگر تعمیم داد.

ما همچنین SpeechMatrix را منتشر می کنیم، که مجموعه بزرگی از ترجمه های گفتار به گفتار است که از طریق جعبه ابزار نوآورانه پردازش زبان طبیعی ما توسعه یافته است. لیزر نامیده می شود. این ابزارها سایر محققان را قادر می‌سازد تا سیستم‌های ترجمه گفتار به گفتار خود را ایجاد کنند و بر اساس کار ما کار کنند. و پیشرفت ما در چیزی که محققان از آن به عنوان یادگیری بدون نظارت یاد می کنند، امکان ساخت مدل های ترجمه گفتار به گفتار با کیفیت بالا را بدون هیچ گونه حاشیه نویسی انسانی نشان می دهد. این به گسترش آن مدل‌ها کمک می‌کند تا برای زبان‌هایی کار کنند که هیچ داده آموزشی برچسب‌گذاری‌شده‌ای برای آموزش سیستم وجود ندارد.

تحقیقات هوش مصنوعی ما به شکستن موانع زبانی هم در دنیای فیزیکی و هم در دنیای ماوراءالطبیعه کمک می‌کند تا ارتباط و درک متقابل را تشویق کند. ما مشتاقانه منتظر گسترش تحقیقات خود و ارائه این فناوری به افراد بیشتری در آینده هستیم.

نموداری که تعداد سخنرانان هوکین را در سراسر جهان نشان می دهد.

برای انجام این کار، ما روش‌های مختلفی را توسعه دادیم، مانند استفاده از ترجمه گفتار به واحد برای ترجمه گفتار ورودی به دنباله‌ای از صداهای صوتی، و ایجاد شکل موج از آنها یا تکیه بر متن از یک زبان مرتبط، در این مورد ماندارین.

نموداری که معماری مدل سیستم ترجمه گفتار UnitY را نشان می دهد.

نگاهی به آینده ترجمه

ترجمه گفتار مبتنی بر هوش مصنوعی عمدتاً بر روی زبان‌های نوشتاری متمرکز شده است، با این حال تقریباً 3500 زبان زنده عمدتاً صحبت می‌شوند و سیستم نوشتاری پرکاربردی ندارند. این امر ساخت ابزارهای ترجمه ماشینی با استفاده از تکنیک‌های استاندارد را غیرممکن می‌کند، که برای آموزش یک مدل هوش مصنوعی به مقدار زیادی متن نوشته شده نیاز دارد.

سیستم ترجمه بخشی از ماست مترجم جهانی گفتار پروژه ای که در حال توسعه روش های هوش مصنوعی جدید است که امیدواریم در نهایت امکان ترجمه گفتار به گفتار در زمان واقعی را در بسیاری از زبان ها فراهم کند. ما بر این باوریم که ارتباطات گفتاری می‌تواند افراد را در هر کجا که هستند – حتی در آن‌ها – دور هم جمع کند متاورس.

رویکرد مدلسازی جدید