تحقیقات در زمینه یادگیری ماشینی و هوش مصنوعی، که اکنون یک فناوری کلیدی در تقریباً هر صنعت و شرکتی است، برای هر کسی بسیار حجیم است. هدف این ستون، Perceptron (علم عمیق سابق)، جمع آوری برخی از مرتبط ترین اکتشافات و اسناد اخیر – به ویژه در هوش مصنوعی، اما نه محدود به آن – و توضیح دلیل اهمیت آنهاست.
این هفته در زمینه هوش مصنوعی، یک مطالعه جدید نشان میدهد که چگونه سوگیری، یک مشکل رایج در سیستمهای هوش مصنوعی، میتواند با دستورالعملهایی آغاز شود که به افرادی که استخدام شدهاند برای حاشیهنویسی دادههایی که سیستمهای هوش مصنوعی از آنها پیشبینی میکنند، شروع شود. نویسندگان همکار دریافتند که حاشیه نویسان مدل هایی را در دستورالعمل ها به کار می گیرند، که منجر به اضافه کردن حاشیه نویسی می شود، که سپس بیش از حد در داده ها نشان داده می شود و سیستم هوش مصنوعی را به سمت این توضیحات هدایت می کند.
امروزه بسیاری از سیستمهای هوش مصنوعی «یاد میگیرند» که تصاویر، ویدیوها، متن و صدا را از مثالهایی که توسط حاشیهنویسها ذکر شده است، درک کنند. برچسبها به سیستمها اجازه میدهند تا روابط بین نمونهها را برونیابی کنند (مثلاً رابطه بین نوشته «سینک آشپزخانه» و عکس سینک آشپزخانه) به دادههایی که سیستمها قبلاً ندیدهاند (مثلاً عکسهای سینک آشپزخانه که در فهرست گنجانده نشدهاند). داده های مورد استفاده برای “آموزش” مدل).
این کار به طور قابل توجهی خوب است. اما حاشیه نویسی یک رویکرد ناقص است – حاشیه نویس ها سوگیری هایی را به جدول می آورند که می توانند وارد سیستم آموزش دیده شوند. برای مثال، مطالعات نشان میدهد که حاشیهنویسهای معمولی بیشتر احتمال دارد عباراتی را در انگلیسی ملی آفریقایی آمریکایی (AAVE) علامتگذاری کنند، گرامر غیررسمی که توسط برخی سیاهپوستان آمریکایی به عنوان سمی استفاده میشود، آشکارسازهای سمیت هوش مصنوعی پیشرو که روی برچسبها آموزش دیدهاند تا AAVE را بهعنوان نامتناسبی سمی ببینند.
همانطور که مشخص است، استعدادهای حاشیه نویسان ممکن است صرفاً مقصر تعصب در برچسب های آموزشی نباشد. در یک مطالعه پیش از چاپ که توسط دانشگاه ایالتی آریزونا و مؤسسه هوش مصنوعی آلن انجام شد، محققان بررسی کردند که آیا منبع سوگیری میتواند در دستورالعملهایی باشد که توسط سازندگان مجموعه داده نوشته شده است تا بهعنوان راهنما برای حاشیهنویسها عمل کند. چنین دستورالعمل هایی معمولاً شامل شرح مختصری از کار است (مثلاً “برچسب زدن به همه پرندگان در این عکس ها”) همراه با چند مثال.
اعتبار تصویر: پارمار و همکاران
محققان 14 مجموعه داده معیار متفاوتی را که برای اندازهگیری عملکرد سیستمهای پردازش زبان طبیعی یا سیستمهای هوش مصنوعی که میتوانند متن را طبقهبندی، خلاصه، ترجمه و در غیر این صورت تجزیه و تحلیل یا دستکاری کنند، مورد بررسی قرار دادند. هنگام مطالعه دستورالعملهای وظایفی که به حاشیهنویسهایی که روی مجموعههای داده کار میکردند، مطالعه کردند، شواهدی یافتند که نشان میدهد دستورالعملها بر مشروحنویسان تأثیر میگذارد تا از الگوهای خاصی پیروی کنند، که سپس در مجموعههای داده منتشر شد. به عنوان مثال، بیش از نیمی از توضیحات در Quoref، مجموعه دادهای که برای آزمایش توانایی سیستمهای هوش مصنوعی برای درک زمانی که دو یا چند عبارت به یک شخص (یا چیزی) اشاره میکنند، طراحی شده است، با عبارت “نام چیست؟” شروع میشود. در یک سوم دستورالعمل های مجموعه داده وجود دارد.
پدیدهای که محققان آن را «انحراف دستورالعمل» مینامند، بهویژه نگرانکننده است، زیرا نشان میدهد که سیستمهای آموزشدیده در دادههای دستورالعمل / حاشیهنویسی مغرضانه ممکن است آنطور که در ابتدا تصور میشد کار نکنند. در واقع، نویسندگان مشترک دریافتند که سوگیری آموزشی عملکرد سیستم ها را بیش از حد برآورد می کند و این سیستم ها اغلب در تعمیم فراتر از مدل های آموزشی شکست می خورند.
پوشش نقره ای این است که سیستم های بزرگ، مانند GPT-3 OpenAI، به طور کلی حساسیت کمتری نسبت به تعصب دستورالعمل دارند. اما این مطالعه یادآوری می کند که سیستم های هوش مصنوعی، مانند انسان ها، مستعد توسعه سوگیری از منابعی هستند که همیشه واضح نیستند. چالش حل نشدنی شناسایی این منابع و کاهش تأثیرات پایین دستی است.
محققان سوئیسی در یک سند نه چندان نگران کننده به این نتیجه رسیدند که سیستم های تشخیص چهره به راحتی توسط چهره های واقعی ویرایش شده توسط هوش مصنوعی فریب داده نمی شوند. «حملات شکلگیری» که به آنها گفته میشود، شامل استفاده از هوش مصنوعی برای تغییر عکس روی کارت شناسایی، پاسپورت یا سایر اشکال اسناد هویتی به منظور دور زدن سیستمهای امنیتی است. نویسندگان مشترک با استفاده از هوش مصنوعی (Nvidia’s StyleGAN 2) “مورف” را ایجاد کردند و آنها را بر روی چهار سیستم تشخیص چهره پیشرفته آزمایش کردند. آنها استدلال می کنند که مورف ها علیرغم ظاهر واقعی، خطر قابل توجهی ندارند.
در جاهای دیگر در زمینه بینایی کامپیوتر، محققان متا یک “دستیار” هوش مصنوعی ایجاد کرده اند که می تواند ویژگی های اتاق، از جمله مکان و زمینه اشیا را برای پاسخ به سوالات به خاطر بسپارد. جزئیات این کار در یک سند پیش از چاپ، احتمالاً بخشی از ابتکار Meta Project Nazare برای توسعه عینک های واقعیت افزوده است که از هوش مصنوعی برای تجزیه و تحلیل محیط اطراف خود استفاده می کنند.
اعتبار تصویر: هدف
سیستم محققین که برای استفاده بر روی هر وسیله ای که دارای دوربین است طراحی شده است، فیلم را تجزیه و تحلیل می کند تا “خاطرات صحنه غنی و موثر از لحاظ معنایی” ایجاد کند که “اطلاعات فضا-زمان در مورد اشیاء را رمزگذاری می کند.” این سیستم به خاطر میآورد که اشیاء در کجا قرار دارند و چه زمانی در ویدیو ظاهر میشوند و همچنین پاسخهایی را که کاربر میتواند درباره اشیا بپرسد را در حافظه خود ذخیره میکند. به عنوان مثال، هنگامی که از شما پرسیده می شود “آخرین بار کلیدهای من را کجا دیدید؟”، سیستم ممکن است نشان دهد که کلیدها روی میز کناری اتاق نشیمن آن روز صبح بوده اند.
متا، که ظاهراً قصد دارد عینکهای واقعیت افزوده کاملاً کاربردی را در سال 2024 راهاندازی کند، برنامههای خود را برای هوش مصنوعی «خودمحور» در اکتبر گذشته با راهاندازی Ego4D، یک پروژه تحقیقاتی بلندمدت در زمینه هوش مصنوعی با «ادراک خود محور» تلگراف کرد. این شرکت سپس گفت که هدف آموزش سیستمهای هوش مصنوعی، در کنار سایر وظایف، درک نشانههای اجتماعی، نحوه تأثیرگذاری اعمال یک حامل دستگاه AR بر محیط و نحوه تعامل دستها با اشیا است.
از زبان و واقعیت افزوده تا پدیدههای فیزیکی: مدل هوش مصنوعی در مطالعه امواج MIT مفید بوده است – چگونه و چه زمانی میشکنند. اگرچه کمی مرموز به نظر می رسد، اما حقیقت این است که مدل های موجی هم برای ساختن سازه ها در داخل و نزدیک آب و هم برای مدل سازی تعامل اقیانوس با جو در مدل های اقلیمی مورد نیاز است.
اعتبار تصویر: MIT
امواج معمولاً تقریباً با مجموعه ای از معادلات شبیه سازی می شوند، اما محققان یک مدل یادگیری ماشینی را بر روی صدها نمونه موج در یک مخزن آب 40 فوتی پر از حسگرها آموزش داده اند. هوش مصنوعی با مشاهده امواج و پیشبینیهای مبتنی بر شواهد تجربی و سپس مقایسه آنها با مدلهای نظری، به نشان دادن ناکافی بودن مدلها کمک کرد.
این استارت آپ از تحقیقات در EPFL متولد شد، جایی که پایان نامه دکتری تیبو اسلبورن در مورد تجزیه و تحلیل دست خط به یک برنامه آموزشی تمام عیار تبدیل شد. با استفاده از الگوریتمهایی که او توسعه داده است، این برنامه (به نام School Rebound) میتواند عادتها و اقدامات اصلاحی را تنها با 30 ثانیه نوشتن کودک روی iPad با قلم شناسایی کند. آنها در قالب بازی هایی به کودک ارائه می شوند که به او کمک می کند واضح تر بنویسد و عادات خوب را تقویت کند.
اسلبورن در یک بیانیه مطبوعاتی گفت: “مدل علمی و دقت ما مهم است و ما را از سایر برنامه های موجود متمایز می کند.” «ما نامههایی از معلمانی دریافت کردیم که دانشآموزان خود را دیدهاند که پرشها و محدودیتهای خود را بهبود میبخشند. برخی از دانش آموزان حتی یک ساعت پیش برای تمرین می آیند.”
اعتبار تصویر: دانشگاه دوک
یکی دیگر از کشفیات جدید در مدارس ابتدایی مربوط به شناسایی مشکلات شنوایی در غربالگری های معمول است. این پیش بینی ها، که ممکن است برخی از خوانندگان به خاطر بسپارند، اغلب از دستگاهی به نام تمپانومتر استفاده می کنند که باید توسط شنوایی شناسان آموزش دیده اداره شود. اگر یکی در دسترس نباشد، مثلاً در یک منطقه مدرسه ای منزوی، کودکانی که مشکلات شنوایی دارند ممکن است هرگز به موقع کمک مورد نیاز خود را دریافت نکنند.
سامانتا روبلر و سوزان امت از دوک تصمیم گرفتند یک تمپانومتر بسازند که اساساً با ارسال داده ها به یک برنامه تلفن هوشمند کار می کند، جایی که با یک مدل هوش مصنوعی تفسیر می شود. هر چیزی که مضطرب است مشخص می شود و کودک ممکن است تحت غربالگری اضافی قرار گیرد. این جایگزینی برای متخصص نیست، اما بسیار بهتر از هیچ است و می تواند به شناسایی زودتر مشکلات شنوایی در مکان های بدون منابع کافی کمک کند.