
دنیای هوش مصنوعی هنوز در حال کشف چگونگی مقابله با نمایش شگفت انگیز تسلط است، یعنی توانایی DALL-E 2 برای رنگ آمیزی / نقاشی / نمایش تقریباً هر چیزی … اما OpenAI تنها کسی نیست که روی چیزی شبیه به این کار می کند. . Google Research برای انتشار مدل مشابهی که روی آن کار می کند عجله کرده است – که ادعا می کند حتی بهتر است.
Imagen (فهمید؟) آیا یک مولد انتشار متن به تصویر بر روی مدل های بزرگ زبان یک ترانسفورماتور ساخته شده است که … خوب، بیایید سرعت را کم کنیم و خیلی سریع آن را باز کنیم.
مدلهای متن به تصویر، ورودی متن را بهعنوان «سگ روی چرخ» میپذیرند و تصویر مربوطه را ایجاد میکنند، کاری که سالها انجام میشود، اما اخیراً جهشهای زیادی در کیفیت و دسترسی وجود داشته است.
بخشی از این کار استفاده از تکنیکهای انتشار است که اساساً با یک تصویر واضح از نویز شروع میشود و به آرامی آن را بهبود میبخشد، در حالی که مدل فکر میکند نمیتواند آن را بیشتر از آنچه که قبلاً شبیه یک سگ روی چرخ است جلوه دهد. . این یک پیشرفت نسبت به ژنراتورهای بالا به پایین بود که می توانست در نگاه اول گیج کننده باشد و سایر ژنراتورها به راحتی گمراه شوند.
بخش دیگر، درک بهتر زبان از طریق مدلهای زبانی بزرگ با استفاده از رویکرد ترانسفورماتور است، که در اینجا به جنبههای فنی آن نمیپردازم (و نمیتوانم) به آن بپردازم، اما این و چندین پیشرفت اخیر دیگر به مدلهای زبانی قانعکنندهای مانند GPT-3 منجر شده است. و دیگران.

اعتبار تصویر: تحقیق گوگل
Imagen با تولید یک تصویر کوچک (64 × 64 پیکسل) شروع می شود و سپس دو “رزولوشن فوق العاده” روی آن ایجاد می کند تا آن را به 1024 × 1024 برساند. با این حال، این شبیه زوم معمولی نیست، زیرا وضوح فوق العاده هوش مصنوعی جزئیات جدیدی را در هماهنگی با تصویر کوچکتر ایجاد می کند و از اصلی به عنوان پایه استفاده می کند.
به عنوان مثال فرض کنید که شما یک سگ روی چرخ دارید و قطر چشم سگ در تصویر اول 3 پیکسل است. جای زیادی برای بیان نیست! اما تصویر دوم 12 پیکسل قطر دارد. جزئیات مورد نیاز برای این کار از کجا می آید؟ خوب، هوش مصنوعی می داند که چشم سگ چگونه به نظر می رسد، بنابراین هنگام نقاشی جزئیات بیشتری ایجاد می کند. زمانی که چشم دوباره ساخته می شود، این دوباره تکرار می شود، اما در قطر 48 پیکسل. اما هیچ وقت هوش مصنوعی مجبور نبود فقط چشم یک سگ 48 پیکسلی را از مثلاً کیف جادویی اش بیرون بکشد. مانند بسیاری از هنرمندان، او با معادل یک طرح اولیه شروع کرد، آن را در یک مطالعه تکمیل کرد و سپس واقعاً بر روی بوم نهایی به شهر رفت.
این بیسابقه نیست و در واقع، هنرمندانی که با مدلهای هوش مصنوعی کار میکنند، در حال حاضر از این تکنیک برای ایجاد قطعاتی بسیار بزرگتر از آن چیزی که هوش مصنوعی میتواند بهطور همزمان تحمل کند، استفاده میکنند. اگر یک بوم را به چند قطعه تقسیم کنید و آنها را به طور جداگانه با وضوح فوق العاده قرار دهید، در نهایت به چیزی بسیار بزرگتر و پیچیده تر در جزئیات خواهید رسید. شما حتی می توانید آن را به طور مکرر انجام دهید. یک مثال جالب از هنرمندی که می شناسم:
چندین پیشرفت که محققان گوگل با Imagen انجام داده اند وجود داشته است. آنها می گویند که مدل های متن موجود را می توان برای بخش رمزگذاری متن استفاده کرد و کیفیت آنها مهم تر از افزایش دقت بصری است. این به طور شهودی منطقی است، زیرا تصویر دقیق از مزخرفات قطعا بدتر از تصویر کمی با جزئیات کمتر از آنچه شما خواسته اید است.
به عنوان مثال، در مقالهای در توصیف ایمیجن، نتایج را برای او و DALL-E 2 مقایسه کردند که «پاندایی که هنر دیرینه میسازد» را میسازد. در تمام تصاویر دومی، هنر اواخر پاندا است. در بیشتر Imagen این پاندا است که هنر می سازد. (هیچ یک از آنها نتوانستند اسبی را سوار بر یک فضانورد به تصویر بکشند که در تمام تلاش ها عکس آن را نشان می دهد. کار در حال انجام است.)

اعتبار تصویر: تحقیق گوگل
در تستهای گوگل، Imagen در تستهای ارزیابی انسانی از نظر دقت و وفاداری پیشتاز شد. این بدیهی است که کاملا ذهنی است، اما حتی اگر با کیفیت درک شده DALL-E 2 مطابقت داشته باشد، که تا به امروز یک جهش بزرگ نسبت به هر چیز دیگری در نظر گرفته می شد، کاملاً چشمگیر است. من فقط اضافه می کنم که اگرچه بسیار خوب است، اما هیچ یک از این تصاویر (از هیچ ژنراتوری) بیش از یک نگاه گذرا قبل از اینکه مردم متوجه شوند که آنها تولید شده اند یا سوء ظن جدی دارند تحمل نمی کنند.
با این حال، OpenAI از چندین جهت یک یا دو قدم جلوتر از گوگل است. DALL-E 2 بیش از یک مقاله تحقیقاتی است، این یک نسخه بتا خصوصی است که افرادی از آن استفاده می کنند، درست مانند نسخه قبلی و GPT-2 و 3. -مطالعه تصویر، در حالی که غول بزرگ اینترنتی برنده هنوز تلاش نکرده است.
این موضوع از انتخابهایی که محققان DALL-E 2 برای نظارت بر مجموعه دادههای آموزشی پیش از موعد انجام دادهاند و هر محتوایی که ممکن است دستورالعملهای خودشان را نقض میکند حذف کنند، بسیار واضح است. مدل اگر تلاش می کرد نمی توانست هیچ کاری NSFW انجام دهد. با این حال، تیم Google از مجموعه دادههای بزرگی استفاده میکند که حاوی مطالب نامناسب هستند. محققان در بخشی از وب سایت Imagen که “محدودیت ها و تاثیر عمومی” را توصیف می کند، می نویسند:
کاربردهای پایین دستی مدل های متن به تصویر متنوع هستند و می توانند جامعه را به روش های پیچیده ای تحت تأثیر قرار دهند. خطرات بالقوه سوء استفاده باعث ایجاد نگرانی در مورد کد منبع باز مسئول و نمایش ها می شود. ما در حال حاضر تصمیم گرفته ایم که کد یا نمایش عمومی را اجرا نکنیم.
الزامات داده برای مدلهای متن به تصویر، محققان را وادار کرده است تا به شدت به مجموعه دادههای بزرگ، عمدتاً جدا نشده و خراشیده شده وب، تکیه کنند. اگرچه این رویکرد در سالهای اخیر به پیشرفت الگوریتمی سریع اجازه داده است، مجموعه دادههایی با این ماهیت اغلب منعکسکننده کلیشههای اجتماعی، دیدگاههای سرکوبگرانه، و ارتباطات تحقیرآمیز یا در غیر این صورت مضر با گروههای هویتی به حاشیه رانده شدهاند. در حالی که برخی از داده های آموزشی ما برای حذف نویز و محتوای ناخواسته، مانند تصاویر مستهجن و زبان سمی فیلتر شده بود، ما همچنین از مجموعه داده LAION-400M استفاده کردیم، که به داشتن طیف گسترده ای از محتوای نامناسب، از جمله تصاویر مستهجن شناخته شده است. توهین های نژادپرستانه و کلیشه های مضر اجتماعی. Imagen متکی به رمزگذارهای متنی است که بر روی دادههای غیرمجاز در مقیاس وب آموزش داده شدهاند و بنابراین تعصبات اجتماعی و محدودیتهای مدلهای زبان بزرگ را به ارث میبرند. به این ترتیب، این خطر وجود دارد که Imagen کلیشه ها و مفاهیم مضر را رمزگذاری کرده باشد، که تصمیم ما را برای عدم انتشار Imagen برای استفاده عمومی بدون حفاظت اضافی راهنمایی می کند.
در حالی که برخی ممکن است اشتباه کنند که میگویند گوگل میترسد که هوش مصنوعی آن از نظر سیاسی به اندازه کافی صحیح نباشد، این دیدگاهی نامطلوب و کوتهبینانه است. مدل هوش مصنوعی به اندازه دادههایی است که روی آن آموزش داده شده است، و هر تیمی نمیتواند زمان و تلاش لازم را برای حذف چیزهای واقعا وحشتناکی که این خراشها هنگام جمعآوری چند میلیون تصویر یا میلیاردها مجموعه کلمه میگیرند صرف کنند. .
چنین سوگیریهایی طراحی شدهاند تا در طول فرآیند تحقیق آشکار شوند، که نشان میدهد سیستمها چگونه کار میکنند و یک سایت آزمایشی نامحدود برای شناسایی این محدودیتها و سایر محدودیتها فراهم میکند. از کجا میدانیم که هوش مصنوعی نمیتواند مدلهای موی رایج در بین سیاهپوستان را نقاشی کند – مدلهایی که هر کودکی میتواند بکشد؟ یا اینکه وقتی از او خواسته می شود داستان هایی در مورد محیط کار بنویسد، هوش مصنوعی همیشه رئیس را مرد می کند؟ در این موارد، مدل هوش مصنوعی کاملاً و همانطور که طراحی شده است کار می کند – با موفقیت سوگیری هایی را که در رسانه ای که در آن آموزش دیده نفوذ می کند، یاد گرفته است. بی شباهت به انسان نیست!
اما در حالی که حذف سوگیری سیستم برای بسیاری یک پروژه مادام العمر است، هوش مصنوعی این کار را آسانتر میکند و سازندگان آن میتوانند محتوایی را حذف کنند که در وهله اول باعث بدرفتاری آن میشود. شاید روزی نیاز به هوش مصنوعی برای نوشتن به سبک متخصصان نژادپرست و جنسیتگرای دهه 1950 وجود داشته باشد، اما در حال حاضر مزایای گنجاندن این دادهها ناچیز و خطرات آن بسیار زیاد است.
در هر صورت، ایمیجن، مانند سایرین، هنوز در مرحله آزمایشی است و آماده استفاده در هیچ چیز غیر از کنترل دقیق انسان نیست. همانطور که گوگل قابلیت های خود را در دسترس تر می کند، مطمئن هستم که درباره نحوه و چرایی کارکرد آن بیشتر خواهیم آموخت.