منو سایت

DALL-E جدید OpenAI همه چیز را به تصویر می کشد – اما بزرگتر، بهتر و سریعتر از قبل

 تاریخ انتشار :
/
  اخبار استارتاپ
DALL-E جدید OpenAI همه چیز را به تصویر می کشد - اما بزرگتر، بهتر و سریعتر از قبل

در ابتدای سال گذشته، OpenAI یک مدل هوش مصنوعی قابل توجه جدید به نام DALL-E (ترکیبی از WALL-E و Dali) را به نمایش گذاشت که قادر به ترسیم تقریباً هر چیزی و تقریباً در هر سبکی بود. اما نتایج به ندرت چیزی بود که بخواهید به دیوار آویزان کنید. اکنون DALL-E 2 منتشر شده است و همان کاری را انجام می دهد که نسخه قبلی خود بسیار بسیار بهتر انجام داده است – در واقع به طرز وحشتناکی خوب. اما فرصت‌های جدید با محدودیت‌های جدیدی برای جلوگیری از سوء استفاده همراه است.

DALL-E در پست اصلی ما درباره او به تفصیل توضیح داده شد، اما نکته اینجاست که او می‌تواند درخواست‌های بسیار پیچیده‌ای را بپذیرد، مانند “خرس دوچرخه سواری در یک مرکز خرید، به تصویری از گربه در حال دزدیدن اعلامیه استقلال.” خوشحال خواهد شد که مطابقت داشته باشد و از میان صدها نتیجه، بیشترین احتمال را خواهد داشت که استانداردهای مصرف کننده را برآورده کند.

DALL-E 2 اساساً همین کار را انجام می دهد و یک پیام متنی را به یک تصویر شگفت آور دقیق تبدیل می کند. اما چند ترفند جدید یاد گرفته است.

اول، فقط بهتر است کار اصلی را انجام دهید. تصاویری که در انتهای دیگر DALL-E 2 ظاهر می شوند چندین برابر بزرگتر و جزئیات بیشتری هستند. در واقع سریع‌تر است، اگرچه تصاویر بیشتری ایجاد می‌کند، به این معنی که می‌توان تغییرات بیشتری را در چند ثانیه ایجاد کرد، که ممکن است کاربر مایل به صبر باشد.

DALL-E جدید OpenAI همه چیز را به تصویر می کشد - اما بزرگتر، بهتر و سریعتر از قبل

«سمور دریایی به سبک دخترانه با گوشواره مرواریدی» بسیار خوب کار می کند.

بخشی از این پیشرفت ناشی از انتقال به مدل انتشار است، نوعی ایجاد تصویر که با نویز خالص شروع می‌شود و تصویر را در طول زمان اصلاح می‌کند و به طور مکرر آن را کمی شبیه تصویر مورد نظر می‌کند تا زمانی که هیچ نویز باقی نماند. اما برخی از مهندسانی که روی آن کار کردند به من گفتند این فقط یک مدل کوچکتر و کارآمدتر است.

دوم، DALL-E کاری را انجام می دهد که آن ها “نقاشی” می نامند، که اساساً جایگزین هوشمندانه یک ناحیه در تصویر است. بگویید که عکسی در جای خود دارید، اما ظروف کثیف روی میز وجود دارد. فقط این قسمت را انتخاب کنید و به جای آن آنچه را که می خواهید توصیف کنید: “میز چوبی خالی” یا “میز بدون میز”، هر چه منطقی به نظر می رسد. در عرض چند ثانیه، مدل تعداد انگشت شماری از تفسیرهای این فرمان را به شما نشان می دهد و می توانید بهترین به نظر را انتخاب کنید.

ممکن است با چیزی شبیه به این در فتوشاپ آشنا باشید، “پر کردن حساس به متن”. اما این ابزار بیشتر برای پر کردن فضا با بیش از یکسان است، به عنوان مثال اگر می‌خواهید پرنده‌ای را در یک آسمان صاف جایگزین کنید و نمی‌خواهید با کلون‌های مهر زنی مقابله کنید. امکانات DALL-E 2 بسیار بیشتر است و می تواند چیزهای جدیدی اختراع کند، مانند نوع دیگری از پرنده، یا یک ابر، یا در مورد میز، یک گلدان گل یا یک بطری سس کچاپ ریخته شده. تصور برنامه های کاربردی مفید برای این کار دشوار نیست.

به طور خاص، این مدل شامل مواردی مانند نور و سایه های مناسب می شود یا مواد مناسب را همانطور که از بقیه صحنه آگاه است انتخاب می کند. در اینجا من از “informed” رایگان استفاده می کنم – هیچ کس، حتی سازندگان آن، نمی دانند که DALL-E چگونه این مفاهیم را در داخل ارائه می دهد، اما آنچه برای این اهداف مهم است این است که نتایج نشان می دهد که نوعی درک وجود دارد.

DALL-E جدید OpenAI همه چیز را به تصویر می کشد - اما بزرگتر، بهتر و سریعتر از قبل

نمونه هایی از خرس های عروسکی ukiyo-e و یک گل فروشی جذاب.

سومین امکان جدید «تغییرها» است که کاملاً دقیق است: شما یک تصویر نمونه به سیستم می‌دهید و هر چقدر که بخواهید روی آن تغییرات ایجاد می‌کند، از تقریب‌های بسیار نزدیک تا تکرارهای امپرسیونیستی. حتی می توانید یک تصویر دوم به او بدهید و او آنها را گرده افشانی متقابل می کند و درخشان ترین جنبه های هر کدام را با هم ترکیب می کند. دمویی که به من نشان دادند DALL-E 2 بود که نقاشی‌های دیواری خیابانی را بر اساس نسخه اصلی ایجاد می‌کرد و واقعاً سبک هنرمند را در بیشتر قسمت‌ها تسخیر می‌کرد، حتی اگر احتمالاً هنگام بررسی اینکه اصل کیست مشخص می‌شد.

به سختی می توان کیفیت این تصاویر را در مقایسه با سایر ژنراتورهایی که دیده ام، دست بالا گرفت. اگرچه تقریباً همیشه انواع «داستان‌هایی» وجود دارد که شما از تصاویر تولید شده با هوش مصنوعی انتظار دارید، اما آنها کمتر واضح هستند و بقیه تصویر بسیار بهتر از بهترین تصاویر تولید شده توسط دیگران است.

تقریبا هیچی

قبلاً نوشتم که DALL-E 2 می تواند “تقریباً هر چیزی” را ترسیم کند، اگرچه در واقع هیچ محدودیت فنی وجود ندارد که مانع از ترسیم متقاعد کننده هر آنچه که فکر می کنید مدل باشد. اما OpenAI از خطرات ناشی از جعل عمیق و سایر سوء استفاده از تصاویر و محتوای تولید شده توسط هوش مصنوعی آگاه است و محدودیت هایی را به آخرین مدل خود اضافه کرده است.

DALL-E 2 در حال حاضر بر روی یک پلت فرم میزبان اجرا می شود، یک محیط آزمایشی فقط با دعوت نامه ها، که در آن توسعه دهندگان می توانند آن را به روشی کنترل شده امتحان کنند. بخشی از این بدان معنی است که همه درخواست‌های مدل آنها برای نقض خط‌مشی محتوایی ارزیابی می‌شوند که به قول خودشان «تصاویر غیر دارای رتبه G» را ممنوع می‌کنند.

این به این معنی نیست: نفرت، آزار و اذیت، خشونت، آسیب رساندن به خود، تصاویر صریح یا “تکان دهنده”، فعالیت های غیرقانونی، تقلب (به عنوان مثال اخبار جعلی)، بازیگران یا موقعیت های سیاسی، تصاویر پزشکی یا مرتبط با بیماری یا هرزنامه های عمومی. در واقع، بسیاری از این امکان پذیر نخواهد بود، زیرا تصاویر تحریف کننده از کیت آموزشی حذف شدند: DALL-E 2 می تواند شیبا را در کلاهک بسازد، اما حتی نمی داند چه حمله موشکی است.

علاوه بر ارزیابی دستورات، تصاویر دریافتی (فعلا) توسط بازرسان انسانی بررسی خواهد شد. این بدیهی است که مقیاس پذیر نیست، اما تیم به من گفت که این بخشی از فرآیند یادگیری است. آنها دقیقاً مطمئن نیستند که مرزها چگونه باید کار کنند، بنابراین در حال حاضر پلت فرم را کوچک و خود میزبان نگه می دارند.

با گذشت زمان، DALL-E 2 احتمالاً یک API خواهد بود که می‌توان آن را مانند سایر ویژگی‌های OpenAI فراخوانی کرد، اما تیم گفت که می‌خواست قبل از حذف چرخ‌های آموزشی از معقول بودن آن مطمئن شود.

می‌توانید درباره DALL-E 2 اطلاعات بیشتری کسب کنید و نمونه‌های نیمه تعاملی را در پست وبلاگ OpenAI امتحان کنید.