منو سایت

Deep Science: ترکیب بینایی و زبان می تواند کلیدی برای هوش مصنوعی توانمندتر باشد

 تاریخ انتشار :
/
  اخبار استارتاپ
تصاویر پس زمینه از جولای 1401

بسته به تئوری هوشی که در آن مشترک هستید، دستیابی به هوش مصنوعی در “سطح انسانی” به سیستمی نیاز دارد که بتواند از روش‌های بسیاری – مانند صدا، بینایی و متن – برای تفکر در مورد جهان استفاده کند. به عنوان مثال، هنگامی که تصویری از یک کامیون سرنگون شده و یک رزمناو پلیس در یک بزرگراه برفی نمایش داده می شود، یک هوش مصنوعی در سطح یک فرد می تواند نتیجه بگیرد که شرایط خطرناک جاده باعث تصادف شده است. یا با فرار با یک ربات، هنگامی که از آنها خواسته می شود یک جعبه نوشابه را از یخچال خارج کنند، در اطراف افراد، مبلمان و حیوانات خانگی حرکت می کنند تا جعبه را جدا کرده و در دسترس متقاضی قرار دهند.

هوش مصنوعی امروزی کافی نیست. اما تحقیقات جدید نشانه‌هایی از پیشرفت تشویق‌کننده را نشان می‌دهد، از روبات‌هایی که می‌توانند گام‌هایی را برای اجرای دستورات اولیه (مانند “بطری آب بردارید”) تا سیستم‌های ایجاد متن که از توضیحات یاد می‌گیرند، طراحی کنند. در این نسخه احیا شده Deep Science، مجموعه هفتگی ما در مورد آخرین پیشرفت‌های هوش مصنوعی و حوزه علمی گسترده‌تر، کار DeepMind، Google و OpenAI را پوشش می‌دهیم که گام‌هایی را به سوی سیستم‌هایی برمی‌دارد که می‌توانند -اگر نه به طور کامل دنیا را درک کنند. حل وظایف باریک مانند تولید تصاویر با قدرت چشمگیر.

آزمایشگاه تحقیقاتی هوش مصنوعی DALL-E پیشرفته OpenAI، DALL-E 2، به راحتی چشمگیرترین پروژه ای است که از اعماق یک آزمایشگاه تحقیقاتی هوش مصنوعی بیرون آمده است. همانطور که همکار من دوین کالدوی می نویسد، در حالی که DALL-E اصلی تسلط قابل توجهی را در ایجاد تصاویری که تقریباً با هر درخواستی مطابقت دارند نشان می دهد (مانند “سگی که کلاه بر تن دارد”)، DALL-E 2 این را فراتر می برد. تصاویری که ایجاد می‌کند بسیار دقیق‌تر هستند و DALL-E 2 می‌تواند به طور هوشمندانه‌ای جایگزین یک ناحیه در تصویر شود – به عنوان مثال، قرار دادن یک میز در یک عکس روی یک کف مرمری پر از بازتاب‌های مناسب.

OpenAI DALL-E 2

نمونه ای از انواع تصاویری که DALL-E 2 می تواند ایجاد کند.

DALL-E 2 در این هفته بیشترین توجه را به خود جلب کرد. اما روز پنجشنبه، محققان گوگل در پستی در وبلاگ هوش مصنوعی گوگل یک سیستم درک بصری به همان اندازه چشمگیر به نام Visually-Driven Prosody for Text-to-Speech – VDTTS را با جزئیات توصیف کردند. VDTTS می تواند صدایی واقع گرایانه ایجاد کند که با گفتار شفاهی همگام شده است و چیزی بیش از متن و فیلم ویدئویی به فرد صحبت کننده نمی دهد.

گفتار تولید شده توسط VDTTS، اگرچه جایگزین ایده آلی برای دیالوگ های ضبط شده نیست، اما هنوز کاملاً خوب است، با بیان انسانی و زمان متقاعدکننده. گوگل می بیند که یک روز از آن در استودیو برای جایگزینی صدای اصلی استفاده می شود که ممکن است در شرایط نویز ضبط شده باشد.

البته درک بصری تنها یک قدم در مسیر رسیدن به هوش مصنوعی توانمندتر است. مؤلفه دیگر درک زبان است که از بسیاری جهات عقب است – حتی سمیت مستند و سوگیری هوش مصنوعی را کنار بگذاریم. در یک مثال قابل توجه، سیستم پیشرفته گوگل، مدل زبان مسیرها (PaLM)، 40 درصد از داده های مورد استفاده برای “آموزش” آنها را ذخیره می کند، طبق سندی که منجر به سرقت ادبی PalM از اعلامیه های حق چاپ در قطعه کد می شود.

خوشبختانه، DeepMind، آزمایشگاه هوش مصنوعی با پشتیبانی از حروف الفبا، از جمله افرادی است که در حال بررسی تکنیک‌هایی برای مقابله با این موضوع هستند. در یک مطالعه جدید، محققان DeepMind بررسی می‌کنند که آیا سیستم‌های زبان هوش مصنوعی – که یاد می‌گیرند متن را از بسیاری از نمونه‌های متن موجود (کتاب‌های فکری و رسانه‌های اجتماعی) تولید کنند – می‌توانند از ارائه سود ببرند. توضیحات از این متون پس از حاشیه نویسی ده ها تکلیف زبانی (مثلاً با تعیین اینکه آیا جمله دوم نقل قولی استعاری اولی است یا نه) با توضیحات (مثلاً چشمان دیوید به معنای واقعی کلمه خنجر نبود، به این سؤالات پاسخ دهید، این استعاره ای است برای اشاره به اینکه دیوید از پل خشمگین بود.») و با ارزیابی عملکرد سیستم‌های مختلف روی آن‌ها، تیم DeepMind متوجه شد که نمونه‌ها واقعاً عملکرد سیستم‌ها را بهبود می‌بخشد.

رویکرد DeepMind، در صورت تایید جامعه دانشگاهی، روزی می‌تواند در رباتیک اعمال شود و بلوک‌های سازنده رباتی را تشکیل دهد که می‌تواند درخواست‌های مبهم (مانند «دفع زباله») را بدون دستورالعمل‌های گام به گام درک کند. پروژه جدید گوگل «آنطور که می‌توانم انجام بده، نه آن‌طور که می‌گویم» به این آینده می‌نگرد – البته با محدودیت‌های قابل توجه.

همکاری بین رباتیک Google و تیم رباتیک آزمایشگاه X-Day Alphabet هر کاری در نظر گرفته شده است. ربات به عنوان “دست و چشم” سیستم زبان عمل می کند، در حالی که سیستم دانش معنایی سطح بالایی را برای این کار ارائه می دهد – تئوری این است که سیستم زبان دانش مفیدی را برای ربات رمزگذاری می کند.

گوگل رباتیک

اعتبار تصویر: رباتیک در گوگل

سیستمی به نام SayCan با در نظر گرفتن (1) احتمال مفید بودن یک مهارت و (2) توانایی اجرای موفقیت آمیز آن مهارت را انتخاب می کند. برای مثال، SayCan در پاسخ به کسی که می‌گوید: “من کوکای خود را ریختم، می‌توانی چیزی برای تمیز کردن من بیاوری؟ .

SayCan توسط سخت افزار رباتیک محدود شده است – بیش از یک بار، تیم تحقیقاتی رباتی را مشاهده کردند که آنها برای انجام آزمایش با انداختن تصادفی اشیا انتخاب کردند. و با این حال، همراه با کار DALL-E 2 و DeepMind در درک زمینه‌ای، این نشان می‌دهد که چگونه سیستم‌های هوش مصنوعی، در صورت ترکیب، می‌توانند ما را تا این حد به نوع جتسون آینده.