معرفی مجموعه داده فراگیرتر برای اندازه گیری انصاف

امروز، ما در حال انتشار هستیم مکالمات گاه به گاه نسخه 2، منبعی مبتنی بر رضایت و در دسترس عموم است که محققان را قادر می سازد تا عادلانه بودن و استحکام انواع خاصی از مدل های هوش مصنوعی را بهتر ارزیابی کنند. این مجموعه داده جامع فهرستی از 11 دسته بندی ارائه شده و حاشیه نویسی را برای اندازه گیری بیشتر عدالت و استحکام الگوریتمی در این سیستم های هوش مصنوعی ارائه می دهد. انتشار این مجموعه داده یکی از نکات برجسته ما است پیشرفت حقوق مدنی، با مشورت کارشناسان داخلی در این زمینه ایجاد شده است. مجموعه داده شامل 26467 مونولوگ ویدیویی است که در هفت کشور ضبط شده است که شامل 5567 شرکت کننده پولی است که ویژگی های خودشناس مانند سن و جنسیت را ارائه می دهند و نسل بعدی پس از نسخه اصلی است. مجموعه داده مبتنی بر رضایت مکالمات گاه به گاه، که ما در سال 2021 منتشر کردیم. طبق اطلاعات ما، این اولین مجموعه داده منبع باز با ویدیوهای جمع آوری شده از چندین کشور با استفاده از اطلاعات جمعیتی بسیار دقیق و دقیق برای کمک به آزمایش مدل های هوش مصنوعی برای عادلانه بودن و استحکام است.

برای اینکه هوش مصنوعی به طور عادلانه به جوامع خدمت کند، محققان به مجموعه داده های متنوع و فراگیر نیاز دارند به شدت انصاف را در مدل های خود ارزیابی کنند. در کاربردهای بینایی کامپیوتری و تشخیص گفتار، محققان هوش مصنوعی به داده‌هایی نیاز دارند تا ارزیابی کنند که یک مدل چقدر برای گروه‌های جمعیتی مختلف کار می‌کند. و جمع آوری این داده ها به دلیل زمینه های جغرافیایی و فرهنگی پیچیده، ناهماهنگی بین منابع مختلف و چالش های با دقت در برچسب گذاری می تواند دشوار باشد.

درباره مکالمات گاه به گاه نسخه 2 در ما بیشتر بیاموزید وبلاگ هوش مصنوعی.





منبع با Casual Conversations v2، می‌خواستیم از یک مجموعه داده چند زبانه برای پشتیبانی از توسعه مدل‌های پردازش زبان طبیعی فراگیر استفاده کنیم. علاوه بر فهرست گسترده ای از دسته ها، مکالمات گاه به گاه نسخه 2 با نسخه اول با گنجاندن مونولوگ های شرکت کنندگان که در خارج از ایالات متحده ضبط شده اند متفاوت است. هفت کشور شامل برزیل، هند، اندونزی، مکزیک، ویتنام، فیلیپین و ایالات متحده آمریکا هستند. در آینده، ما امیدواریم که مجموعه داده را به مناطق جغرافیایی بیشتر گسترش دهیم. تفاوت دیگر در آخرین مجموعه داده این است که به شرکت کنندگان این فرصت داده شد که به هر دو زبان اصلی و ثانویه خود صحبت کنند.