
بسته به تئوری هوشی که در آن مشترک هستید، دستیابی به هوش مصنوعی در “سطح انسانی” به سیستمی نیاز دارد که بتواند از روشهای بسیاری – مانند صدا، بینایی و متن – برای تفکر در مورد جهان استفاده کند. به عنوان مثال، هنگامی که تصویری از یک کامیون سرنگون شده و یک رزمناو پلیس در یک بزرگراه برفی نمایش داده می شود، یک هوش مصنوعی در سطح یک فرد می تواند نتیجه بگیرد که شرایط خطرناک جاده باعث تصادف شده است. یا با فرار با یک ربات، هنگامی که از آنها خواسته می شود یک جعبه نوشابه را از یخچال خارج کنند، در اطراف افراد، مبلمان و حیوانات خانگی حرکت می کنند تا جعبه را جدا کرده و در دسترس متقاضی قرار دهند.
هوش مصنوعی امروزی کافی نیست. اما تحقیقات جدید نشانههایی از پیشرفت تشویقکننده را نشان میدهد، از روباتهایی که میتوانند گامهایی را برای اجرای دستورات اولیه (مانند “بطری آب بردارید”) تا سیستمهای ایجاد متن که از توضیحات یاد میگیرند، طراحی کنند. در این نسخه احیا شده Deep Science، مجموعه هفتگی ما در مورد آخرین پیشرفتهای هوش مصنوعی و حوزه علمی گستردهتر، کار DeepMind، Google و OpenAI را پوشش میدهیم که گامهایی را به سوی سیستمهایی برمیدارد که میتوانند -اگر نه به طور کامل دنیا را درک کنند. حل وظایف باریک مانند تولید تصاویر با قدرت چشمگیر.
آزمایشگاه تحقیقاتی هوش مصنوعی DALL-E پیشرفته OpenAI، DALL-E 2، به راحتی چشمگیرترین پروژه ای است که از اعماق یک آزمایشگاه تحقیقاتی هوش مصنوعی بیرون آمده است. همانطور که همکار من دوین کالدوی می نویسد، در حالی که DALL-E اصلی تسلط قابل توجهی را در ایجاد تصاویری که تقریباً با هر درخواستی مطابقت دارند نشان می دهد (مانند “سگی که کلاه بر تن دارد”)، DALL-E 2 این را فراتر می برد. تصاویری که ایجاد میکند بسیار دقیقتر هستند و DALL-E 2 میتواند به طور هوشمندانهای جایگزین یک ناحیه در تصویر شود – به عنوان مثال، قرار دادن یک میز در یک عکس روی یک کف مرمری پر از بازتابهای مناسب.

نمونه ای از انواع تصاویری که DALL-E 2 می تواند ایجاد کند.
DALL-E 2 در این هفته بیشترین توجه را به خود جلب کرد. اما روز پنجشنبه، محققان گوگل در پستی در وبلاگ هوش مصنوعی گوگل یک سیستم درک بصری به همان اندازه چشمگیر به نام Visually-Driven Prosody for Text-to-Speech – VDTTS را با جزئیات توصیف کردند. VDTTS می تواند صدایی واقع گرایانه ایجاد کند که با گفتار شفاهی همگام شده است و چیزی بیش از متن و فیلم ویدئویی به فرد صحبت کننده نمی دهد.
گفتار تولید شده توسط VDTTS، اگرچه جایگزین ایده آلی برای دیالوگ های ضبط شده نیست، اما هنوز کاملاً خوب است، با بیان انسانی و زمان متقاعدکننده. گوگل می بیند که یک روز از آن در استودیو برای جایگزینی صدای اصلی استفاده می شود که ممکن است در شرایط نویز ضبط شده باشد.
البته درک بصری تنها یک قدم در مسیر رسیدن به هوش مصنوعی توانمندتر است. مؤلفه دیگر درک زبان است که از بسیاری جهات عقب است – حتی سمیت مستند و سوگیری هوش مصنوعی را کنار بگذاریم. در یک مثال قابل توجه، سیستم پیشرفته گوگل، مدل زبان مسیرها (PaLM)، 40 درصد از داده های مورد استفاده برای “آموزش” آنها را ذخیره می کند، طبق سندی که منجر به سرقت ادبی PalM از اعلامیه های حق چاپ در قطعه کد می شود.
خوشبختانه، DeepMind، آزمایشگاه هوش مصنوعی با پشتیبانی از حروف الفبا، از جمله افرادی است که در حال بررسی تکنیکهایی برای مقابله با این موضوع هستند. در یک مطالعه جدید، محققان DeepMind بررسی میکنند که آیا سیستمهای زبان هوش مصنوعی – که یاد میگیرند متن را از بسیاری از نمونههای متن موجود (کتابهای فکری و رسانههای اجتماعی) تولید کنند – میتوانند از ارائه سود ببرند. توضیحات از این متون پس از حاشیه نویسی ده ها تکلیف زبانی (مثلاً با تعیین اینکه آیا جمله دوم نقل قولی استعاری اولی است یا نه) با توضیحات (مثلاً چشمان دیوید به معنای واقعی کلمه خنجر نبود، به این سؤالات پاسخ دهید، این استعاره ای است برای اشاره به اینکه دیوید از پل خشمگین بود.») و با ارزیابی عملکرد سیستمهای مختلف روی آنها، تیم DeepMind متوجه شد که نمونهها واقعاً عملکرد سیستمها را بهبود میبخشد.
رویکرد DeepMind، در صورت تایید جامعه دانشگاهی، روزی میتواند در رباتیک اعمال شود و بلوکهای سازنده رباتی را تشکیل دهد که میتواند درخواستهای مبهم (مانند «دفع زباله») را بدون دستورالعملهای گام به گام درک کند. پروژه جدید گوگل «آنطور که میتوانم انجام بده، نه آنطور که میگویم» به این آینده مینگرد – البته با محدودیتهای قابل توجه.
همکاری بین رباتیک Google و تیم رباتیک آزمایشگاه X-Day Alphabet هر کاری در نظر گرفته شده است. ربات به عنوان “دست و چشم” سیستم زبان عمل می کند، در حالی که سیستم دانش معنایی سطح بالایی را برای این کار ارائه می دهد – تئوری این است که سیستم زبان دانش مفیدی را برای ربات رمزگذاری می کند.

اعتبار تصویر: رباتیک در گوگل
سیستمی به نام SayCan با در نظر گرفتن (1) احتمال مفید بودن یک مهارت و (2) توانایی اجرای موفقیت آمیز آن مهارت را انتخاب می کند. برای مثال، SayCan در پاسخ به کسی که میگوید: “من کوکای خود را ریختم، میتوانی چیزی برای تمیز کردن من بیاوری؟ .
SayCan توسط سخت افزار رباتیک محدود شده است – بیش از یک بار، تیم تحقیقاتی رباتی را مشاهده کردند که آنها برای انجام آزمایش با انداختن تصادفی اشیا انتخاب کردند. و با این حال، همراه با کار DALL-E 2 و DeepMind در درک زمینهای، این نشان میدهد که چگونه سیستمهای هوش مصنوعی، در صورت ترکیب، میتوانند ما را تا این حد به نوع جتسون آینده.