کانون توجه چهار مرکز فناوری EMEA پیشگام تحقیقات هوش مصنوعی متا در سراسر جهان

DINOv2 می تواند اشیاء را در یک تصویر یا یک ویدیو بدون نظارت مطلق و بدون تعیین هدف هدفمند کشف و بخش بندی کند. به عنوان مثال، DINO می تواند بفهمد که یک تصویر حاوی نمایشی از یک سگ است بدون اینکه در وهله اول به او آموزش داده شود که سگ چیست. به عنوان بخشی از این اطلاعیه، ما یک را به اشتراک گذاشتیم نسخه ی نمایشی عمومی که هر کسی می تواند از آن برای کشف برخی از قابلیت های DINOv2 استفاده کند.

برای آخرین پیشرفت خود، SEER10B، ما از مجموعه داده های متنوعی استفاده می کنیم تا دید کامپیوتری بهتر و منصفانه تری را ایجاد کنیم. سیستم‌های بینایی رایانه‌ای سنتی عمدتاً بر روی نمونه‌هایی از ایالات متحده و کشورهای ثروتمند در اروپا آموزش داده می‌شوند، بنابراین اغلب برای تصاویر مکان‌های دیگر با ویژگی‌های اجتماعی-اقتصادی متفاوت به خوبی کار نمی‌کنند. SEER نتایج قوی را برای تصاویر از سراسر جهان – از جمله مناطق غیر آمریکایی و غیر اروپایی با طیف گسترده ای از سطوح درآمد ارائه می دهد. SEER10B عملکرد در معیارهای انصاف را در بین جنسیت، رنگ ظاهری پوست و گروه های سنی به شدت بهبود بخشید. جدا از عملکرد بهبود یافته در معیارهای انصاف، این مدل تصاویر را از سراسر جهان به خوبی درک می کند تا آنها را با دقت بی سابقه ای بومی سازی کند. ما امیدواریم که SEER یک بلوک سازنده مهم باشد زیرا جامعه هوش مصنوعی برای ساختن سیستم هایی کار می کند که برای همه به خوبی کار می کند.

پیشرفت در مدل سازی سه بعدی

ما در حال حاضر از DINOv2 برای کسب اطلاعات بیشتر در مورد دنیای فیزیکی استفاده می کنیم. متا اخیراً با موسسه منابع جهانی به از هوش مصنوعی برای نقشه برداری از جنگل ها استفاده کنید – درخت به درخت – در مناطقی به اندازه قاره ها. در حالی که مدل خود نظارت شده ما بر روی داده‌های جنگل‌ها آموزش داده شده بود آمریکای شمالی، ارزیابی‌ها تأیید می‌کند که به خوبی تعمیم می‌یابد و نقشه‌های دقیقی را در مکان‌های دیگر در سراسر جهان ارائه می‌کند.

موری گفت: «تحقیقات ما با ترکیبی منحصربه‌فرد از جاه‌طلبی و دانشگاهی هدایت می‌شود، و تیم ما در سراسر مرزهای تخصص، ارشدیت، مکان و نقش شغلی با هم کار می‌کند تا پیشرفت سریع تحقیقاتی داشته باشد.» “در این دوره فعلی در تحقیقات هوش مصنوعی، ظاهرا هر روز یک پیشرفت تحقیقاتی جدید بالقوه، از جمله از تیم EMEA ما به ارمغان می آورد.”

تحقیق مدل زبان بزرگ پیشگامانه

در اوایل امسال، محققان ما در پاریس تیمی را تشکیل دادند که ساخت و مستقر شد LLaMA (مدل زبان بزرگ Meta AI) – یک پایه پیشرفته مدل زبان بزرگ طراحی شده برای کمک به محققان در پیشبرد کار خود در این زیر شاخه از هوش مصنوعی.

با هم، ما در حال کار بر روی رابط های هوش مصنوعی متنی هستیم که می تواند به دستگاه های ما اجازه دهد تا زمینه، ترجیحات، تاریخچه و اهداف ما را درک کنند. این از چشم انداز آینده ما پشتیبانی می کند که در آن دستگاه ها به جای ابزار به عنوان شریک عمل می کنند و ما را با فناوری ای احاطه می کنند که با ما سازگار است و به ما کمک می کند تا همانطور که می خواهیم کار کنیم.

تیم پاریس ما، با همکاری همکارانش در آمریکای شمالی، همچنین با استفاده از تحقیقات جدید پیشگام شد SEER (Self-SupERvised)، مدل پیشگامانه بینایی کامپیوتری خود نظارتی تحقیقات متا AI. SEER مستقیماً از هر مجموعه تصادفی تصاویر – بدون نیاز به تنظیم دقیق داده ها و برچسب زدن که به آموزش بینایی رایانه ای مرسوم می رسد – می آموزد و سپس یک جاسازی تصویر را خروجی می دهد.

یکی از مهم‌ترین تصمیم‌هایی که در زمان راه‌اندازی FAIR گرفتیم این بود که تحقیقات اکتشافی و علوم باز را در مرکز قرار دهیم. ما به طور منظم با محققان خارجی همکاری می کنیم، زیرا فرضیه قوی داریم که این سریع ترین و مسئول ترین راه برای پیشرفت است.

تیم ما در تل‌آویو از نزدیک روی هوش مصنوعی مولد کار می‌کند و در خط مقدم برخی از جدیدترین پیشرفت‌های متا بوده است. در ژوئیه 2022، محققان و همکاران تل آویو ما در سراسر جهان ایجاد یک مدل تحقیقاتی مولد هوش مصنوعی به نام Make-A-Scene. این روش هوش مصنوعی مولد چندوجهی، کنترل خلاقانه را در دست افرادی قرار می‌دهد که از آن استفاده می‌کنند و به آن‌ها اجازه می‌دهد دید خود را از طریق توضیحات متنی و طرح‌های آزاد توصیف و نشان دهند، و در نتیجه هنر سورئال، مانند پرواز هات داگ در آسمان و آسمان‌خراش‌ها در بیابان.

در هشت سالی که مرکز نمایشگاه خود را در پاریس تأسیس کردیم، متا به یکی از سازمان‌های تحقیقاتی پیشرو در جهان تبدیل شده است، با کارهای پیشگامانه‌ای که از مراکز فناوری ما در پاریس، لندن، تل‌آویو و زوریخ سرچشمه می‌گیرد.

موری گفت: «در ماه‌های اخیر، تلاقی هیجان‌انگیزی از ادراک چندوجهی، درک و تولید زبان، یادگیری تقویتی، و تعامل انسان و ماشین وجود داشته است. این تلاقی ما را به رویای دیرینه این میدان برای ساختن سیستم‌های هوشمند واقعاً پیشرفته نزدیک‌تر می‌کند که بسیار هیجان‌انگیز است.»





منبع

ما این کار را پیگیری کردیم Make-A-Videoیک سیستم هوش مصنوعی که افراد را قادر می‌سازد تا پیام‌های متنی را به کلیپ‌های ویدیویی مختصر، با کیفیت بالا و بی‌نظیر تبدیل کنند. این سیستم همچنین می‌تواند از تصاویر ویدیوها ایجاد کند یا فیلم‌های موجود را بگیرد و ویدیوهای جدید مشابه ایجاد کند.

متاورس و فراتر از آن

LLaMA با گرفتن دنباله ای از کلمات به عنوان ورودی کار می کند و کلمه بعدی را برای تولید متن به صورت بازگشتی پیش بینی می کند. برای آموزش مدل خود، متنی را از بین 20 زبان با بیشترین گویشوران انتخاب کردیم، با تمرکز بر زبان هایی که الفبای لاتین و سیریلیک دارند. با قابلیت تولید متن خلاقانه، حل قضایای ریاضی، پیش بینی ساختارهای پروتئینی، پاسخ به سؤالات درک مطلب و موارد دیگر، مدل های زبان بزرگ یکی از واضح ترین موارد از مزایای بالقوه قابل توجهی است که هوش مصنوعی می تواند در مقیاس برای میلیاردها نفر ارائه دهد.

تحقیقات بینایی کامپیوتری خود نظارت

نایلا موری، رئیس FAIR EMEA گفت: «ما با مؤسسات برای توسعه نسل‌های محققان هوش مصنوعی، به ویژه از طریق برنامه‌های دکترا، کار کرده‌ایم. بسیاری از دانشجویان دکترای ما سهم مهمی در این زمینه داشته‌اند.»

همچنین مستقر در پاریس، تیم های ما دو پیشرفت را در تحقیقات بینایی کامپیوتری معرفی کردند. در فروردین ماه رونمایی کردیم DINOv2 – اولین روش برای آموزش مدل‌های بینایی رایانه‌ای که از یادگیری خود نظارتی برای دستیابی به نتایجی استفاده می‌کند که با رویکرد استاندارد مورد استفاده در این زمینه مطابقت یا فراتر از آن باشد.

کانون توجه پاریس، لندن، تل آویو و زوریخ

موری گفت: از نظر تاریخی، حوزه‌های مختلف تحقیقات هوش مصنوعی نسبتاً از یکدیگر جدا شده‌اند. با این حال، بنیاد مشترک FAIR که بر اساس آن ساخته شده است، یک کاتالیزور مهم برای گرد هم آوردن تیم های مختلف و پیشبرد تحقیقات بوده است.

موری به عنوان رئیس تیم FAIR EMEA گفت که یکی از بهترین بخش‌های کارش «برانگیختن همکاری‌های بین محققان با اشاره به ارتباط بین علایق تحقیقاتی مرتبط است».

دبلیواعتقاد بر این است که واقعیت افزوده و مجازی، همراه با رابط های مبتنی بر هوش مصنوعی، تغییر پارادایم بعدی در محاسبات انسان محور را تشکیل خواهند داد. در حالی که سایر مراکز EMEA ما عمدتاً بر روی تحقیقات هوش مصنوعی متمرکز هستند که به ما کمک می کند تا به آنجا برسیم، تیم ما در زوریخ از نزدیک برای پیشرفت AR و VR کار می کند.

Implicitron نمایش یک شی یا صحنه سه بعدی را با استفاده از مجموعه کمی از تصاویر ترکیبی از آن شی یا صحنه از دیدگاه های دلخواه می آموزد. برخلاف نمایش‌های سه‌بعدی سنتی مانند مش‌ها یا ابرهای نقطه‌ای، این رویکرد جدیدتر اشیاء را به عنوان یک تابع پیوسته نشان می‌دهد که امکان بازسازی دقیق‌تر اشکال با هندسه‌های پیچیده و همچنین دقت بازسازی رنگ بالاتر را فراهم می‌کند.

هوش مصنوعی مولد برای تصاویر و ویدئو

در آگوست 2022، محققان در لندن و پاریس کد منبع باز را برای ضمنی، یک چارچوب مدولار در کتابخانه منبع باز PyTorch3D ما. Implictron از بازنمایی ضمنی عصبی استفاده می‌کند، یک تکنیک بینایی رایانه‌ای که می‌تواند به طور یکپارچه اشیاء واقعی و مجازی را در واقعیت افزوده ترکیب کند – بدون نیاز به مقادیر زیادی داده برای یادگیری و بدون محدود شدن فقط به چند نقطه نظر.

امروزه تیم‌های ما در پاریس، لندن، تل‌آویو و زوریخ بر علایق مختلفی از جمله یادگیری خود نظارت، یادگیری تقویتی، گفتار و صدا، بینایی کامپیوتر، مدل‌سازی زبان طبیعی، هوش مصنوعی مسئول، نظریه یادگیری ماشین، تمرکز دارند. کارایی مدل، AR/VR، و موارد دیگر.