
در ابتدای سال گذشته، OpenAI یک مدل هوش مصنوعی قابل توجه جدید به نام DALL-E (ترکیبی از WALL-E و Dali) را به نمایش گذاشت که قادر به ترسیم تقریباً هر چیزی و تقریباً در هر سبکی بود. اما نتایج به ندرت چیزی بود که بخواهید به دیوار آویزان کنید. اکنون DALL-E 2 منتشر شده است و همان کاری را انجام می دهد که نسخه قبلی خود بسیار بسیار بهتر انجام داده است – در واقع به طرز وحشتناکی خوب. اما فرصتهای جدید با محدودیتهای جدیدی برای جلوگیری از سوء استفاده همراه است.
DALL-E در پست اصلی ما درباره او به تفصیل توضیح داده شد، اما نکته اینجاست که او میتواند درخواستهای بسیار پیچیدهای را بپذیرد، مانند “خرس دوچرخه سواری در یک مرکز خرید، به تصویری از گربه در حال دزدیدن اعلامیه استقلال.” خوشحال خواهد شد که مطابقت داشته باشد و از میان صدها نتیجه، بیشترین احتمال را خواهد داشت که استانداردهای مصرف کننده را برآورده کند.
DALL-E 2 اساساً همین کار را انجام می دهد و یک پیام متنی را به یک تصویر شگفت آور دقیق تبدیل می کند. اما چند ترفند جدید یاد گرفته است.
اول، فقط بهتر است کار اصلی را انجام دهید. تصاویری که در انتهای دیگر DALL-E 2 ظاهر می شوند چندین برابر بزرگتر و جزئیات بیشتری هستند. در واقع سریعتر است، اگرچه تصاویر بیشتری ایجاد میکند، به این معنی که میتوان تغییرات بیشتری را در چند ثانیه ایجاد کرد، که ممکن است کاربر مایل به صبر باشد.

«سمور دریایی به سبک دخترانه با گوشواره مرواریدی» بسیار خوب کار می کند.
بخشی از این پیشرفت ناشی از انتقال به مدل انتشار است، نوعی ایجاد تصویر که با نویز خالص شروع میشود و تصویر را در طول زمان اصلاح میکند و به طور مکرر آن را کمی شبیه تصویر مورد نظر میکند تا زمانی که هیچ نویز باقی نماند. اما برخی از مهندسانی که روی آن کار کردند به من گفتند این فقط یک مدل کوچکتر و کارآمدتر است.
دوم، DALL-E کاری را انجام می دهد که آن ها “نقاشی” می نامند، که اساساً جایگزین هوشمندانه یک ناحیه در تصویر است. بگویید که عکسی در جای خود دارید، اما ظروف کثیف روی میز وجود دارد. فقط این قسمت را انتخاب کنید و به جای آن آنچه را که می خواهید توصیف کنید: “میز چوبی خالی” یا “میز بدون میز”، هر چه منطقی به نظر می رسد. در عرض چند ثانیه، مدل تعداد انگشت شماری از تفسیرهای این فرمان را به شما نشان می دهد و می توانید بهترین به نظر را انتخاب کنید.
ممکن است با چیزی شبیه به این در فتوشاپ آشنا باشید، “پر کردن حساس به متن”. اما این ابزار بیشتر برای پر کردن فضا با بیش از یکسان است، به عنوان مثال اگر میخواهید پرندهای را در یک آسمان صاف جایگزین کنید و نمیخواهید با کلونهای مهر زنی مقابله کنید. امکانات DALL-E 2 بسیار بیشتر است و می تواند چیزهای جدیدی اختراع کند، مانند نوع دیگری از پرنده، یا یک ابر، یا در مورد میز، یک گلدان گل یا یک بطری سس کچاپ ریخته شده. تصور برنامه های کاربردی مفید برای این کار دشوار نیست.
به طور خاص، این مدل شامل مواردی مانند نور و سایه های مناسب می شود یا مواد مناسب را همانطور که از بقیه صحنه آگاه است انتخاب می کند. در اینجا من از “informed” رایگان استفاده می کنم – هیچ کس، حتی سازندگان آن، نمی دانند که DALL-E چگونه این مفاهیم را در داخل ارائه می دهد، اما آنچه برای این اهداف مهم است این است که نتایج نشان می دهد که نوعی درک وجود دارد.

نمونه هایی از خرس های عروسکی ukiyo-e و یک گل فروشی جذاب.
سومین امکان جدید «تغییرها» است که کاملاً دقیق است: شما یک تصویر نمونه به سیستم میدهید و هر چقدر که بخواهید روی آن تغییرات ایجاد میکند، از تقریبهای بسیار نزدیک تا تکرارهای امپرسیونیستی. حتی می توانید یک تصویر دوم به او بدهید و او آنها را گرده افشانی متقابل می کند و درخشان ترین جنبه های هر کدام را با هم ترکیب می کند. دمویی که به من نشان دادند DALL-E 2 بود که نقاشیهای دیواری خیابانی را بر اساس نسخه اصلی ایجاد میکرد و واقعاً سبک هنرمند را در بیشتر قسمتها تسخیر میکرد، حتی اگر احتمالاً هنگام بررسی اینکه اصل کیست مشخص میشد.
به سختی می توان کیفیت این تصاویر را در مقایسه با سایر ژنراتورهایی که دیده ام، دست بالا گرفت. اگرچه تقریباً همیشه انواع «داستانهایی» وجود دارد که شما از تصاویر تولید شده با هوش مصنوعی انتظار دارید، اما آنها کمتر واضح هستند و بقیه تصویر بسیار بهتر از بهترین تصاویر تولید شده توسط دیگران است.
تقریبا هیچی
قبلاً نوشتم که DALL-E 2 می تواند “تقریباً هر چیزی” را ترسیم کند، اگرچه در واقع هیچ محدودیت فنی وجود ندارد که مانع از ترسیم متقاعد کننده هر آنچه که فکر می کنید مدل باشد. اما OpenAI از خطرات ناشی از جعل عمیق و سایر سوء استفاده از تصاویر و محتوای تولید شده توسط هوش مصنوعی آگاه است و محدودیت هایی را به آخرین مدل خود اضافه کرده است.
DALL-E 2 در حال حاضر بر روی یک پلت فرم میزبان اجرا می شود، یک محیط آزمایشی فقط با دعوت نامه ها، که در آن توسعه دهندگان می توانند آن را به روشی کنترل شده امتحان کنند. بخشی از این بدان معنی است که همه درخواستهای مدل آنها برای نقض خطمشی محتوایی ارزیابی میشوند که به قول خودشان «تصاویر غیر دارای رتبه G» را ممنوع میکنند.
این به این معنی نیست: نفرت، آزار و اذیت، خشونت، آسیب رساندن به خود، تصاویر صریح یا “تکان دهنده”، فعالیت های غیرقانونی، تقلب (به عنوان مثال اخبار جعلی)، بازیگران یا موقعیت های سیاسی، تصاویر پزشکی یا مرتبط با بیماری یا هرزنامه های عمومی. در واقع، بسیاری از این امکان پذیر نخواهد بود، زیرا تصاویر تحریف کننده از کیت آموزشی حذف شدند: DALL-E 2 می تواند شیبا را در کلاهک بسازد، اما حتی نمی داند چه حمله موشکی است.
علاوه بر ارزیابی دستورات، تصاویر دریافتی (فعلا) توسط بازرسان انسانی بررسی خواهد شد. این بدیهی است که مقیاس پذیر نیست، اما تیم به من گفت که این بخشی از فرآیند یادگیری است. آنها دقیقاً مطمئن نیستند که مرزها چگونه باید کار کنند، بنابراین در حال حاضر پلت فرم را کوچک و خود میزبان نگه می دارند.
با گذشت زمان، DALL-E 2 احتمالاً یک API خواهد بود که میتوان آن را مانند سایر ویژگیهای OpenAI فراخوانی کرد، اما تیم گفت که میخواست قبل از حذف چرخهای آموزشی از معقول بودن آن مطمئن شود.
میتوانید درباره DALL-E 2 اطلاعات بیشتری کسب کنید و نمونههای نیمه تعاملی را در پست وبلاگ OpenAI امتحان کنید.