منو سایت

OpenAI: تولید کننده تصویر عالی ما را بررسی کنید! گوگل: شیبا اینو من را نگه دارید

 تاریخ انتشار :
/
  اخبار استارتاپ
Log4Shell برای هک سرورهای VMWare استفاده می شود

دنیای هوش مصنوعی هنوز در حال کشف چگونگی مقابله با نمایش شگفت انگیز تسلط است، یعنی توانایی DALL-E 2 برای رنگ آمیزی / نقاشی / نمایش تقریباً هر چیزی … اما OpenAI تنها کسی نیست که روی چیزی شبیه به این کار می کند. . Google Research برای انتشار مدل مشابهی که روی آن کار می کند عجله کرده است – که ادعا می کند حتی بهتر است.

Imagen (فهمید؟) آیا یک مولد انتشار متن به تصویر بر روی مدل های بزرگ زبان یک ترانسفورماتور ساخته شده است که … خوب، بیایید سرعت را کم کنیم و خیلی سریع آن را باز کنیم.

مدل‌های متن به تصویر، ورودی متن را به‌عنوان «سگ روی چرخ» می‌پذیرند و تصویر مربوطه را ایجاد می‌کنند، کاری که سال‌ها انجام می‌شود، اما اخیراً جهش‌های زیادی در کیفیت و دسترسی وجود داشته است.

بخشی از این کار استفاده از تکنیک‌های انتشار است که اساساً با یک تصویر واضح از نویز شروع می‌شود و به آرامی آن را بهبود می‌بخشد، در حالی که مدل فکر می‌کند نمی‌تواند آن را بیشتر از آنچه که قبلاً شبیه یک سگ روی چرخ است جلوه دهد. . این یک پیشرفت نسبت به ژنراتورهای بالا به پایین بود که می توانست در نگاه اول گیج کننده باشد و سایر ژنراتورها به راحتی گمراه شوند.

بخش دیگر، درک بهتر زبان از طریق مدل‌های زبانی بزرگ با استفاده از رویکرد ترانسفورماتور است، که در اینجا به جنبه‌های فنی آن نمی‌پردازم (و نمی‌توانم) به آن بپردازم، اما این و چندین پیشرفت اخیر دیگر به مدل‌های زبانی قانع‌کننده‌ای مانند GPT-3 منجر شده است. و دیگران.

نمونه هایی از هنر تولید شده توسط Imagen.

اعتبار تصویر: تحقیق گوگل

Imagen با تولید یک تصویر کوچک (64 × 64 پیکسل) شروع می شود و سپس دو “رزولوشن فوق العاده” روی آن ایجاد می کند تا آن را به 1024 × 1024 برساند. با این حال، این شبیه زوم معمولی نیست، زیرا وضوح فوق العاده هوش مصنوعی جزئیات جدیدی را در هماهنگی با تصویر کوچکتر ایجاد می کند و از اصلی به عنوان پایه استفاده می کند.

به عنوان مثال فرض کنید که شما یک سگ روی چرخ دارید و قطر چشم سگ در تصویر اول 3 پیکسل است. جای زیادی برای بیان نیست! اما تصویر دوم 12 پیکسل قطر دارد. جزئیات مورد نیاز برای این کار از کجا می آید؟ خوب، هوش مصنوعی می داند که چشم سگ چگونه به نظر می رسد، بنابراین هنگام نقاشی جزئیات بیشتری ایجاد می کند. زمانی که چشم دوباره ساخته می شود، این دوباره تکرار می شود، اما در قطر 48 پیکسل. اما هیچ وقت هوش مصنوعی مجبور نبود فقط چشم یک سگ 48 پیکسلی را از مثلاً کیف جادویی اش بیرون بکشد. مانند بسیاری از هنرمندان، او با معادل یک طرح اولیه شروع کرد، آن را در یک مطالعه تکمیل کرد و سپس واقعاً بر روی بوم نهایی به شهر رفت.

این بی‌سابقه نیست و در واقع، هنرمندانی که با مدل‌های هوش مصنوعی کار می‌کنند، در حال حاضر از این تکنیک برای ایجاد قطعاتی بسیار بزرگ‌تر از آن چیزی که هوش مصنوعی می‌تواند به‌طور هم‌زمان تحمل کند، استفاده می‌کنند. اگر یک بوم را به چند قطعه تقسیم کنید و آنها را به طور جداگانه با وضوح فوق العاده قرار دهید، در نهایت به چیزی بسیار بزرگتر و پیچیده تر در جزئیات خواهید رسید. شما حتی می توانید آن را به طور مکرر انجام دهید. یک مثال جالب از هنرمندی که می شناسم:

چندین پیشرفت که محققان گوگل با Imagen انجام داده اند وجود داشته است. آنها می گویند که مدل های متن موجود را می توان برای بخش رمزگذاری متن استفاده کرد و کیفیت آنها مهم تر از افزایش دقت بصری است. این به طور شهودی منطقی است، زیرا تصویر دقیق از مزخرفات قطعا بدتر از تصویر کمی با جزئیات کمتر از آنچه شما خواسته اید است.

به عنوان مثال، در مقاله‌ای در توصیف ایمیجن، نتایج را برای او و DALL-E 2 مقایسه کردند که «پاندایی که هنر دیرینه می‌سازد» را می‌سازد. در تمام تصاویر دومی، هنر اواخر پاندا است. در بیشتر Imagen این پاندا است که هنر می سازد. (هیچ یک از آنها نتوانستند اسبی را سوار بر یک فضانورد به تصویر بکشند که در تمام تلاش ها عکس آن را نشان می دهد. کار در حال انجام است.)

تصاویر رایانه‌ای از پانداهایی که هنرهای قدیمی را می‌سازند یا هستند.

اعتبار تصویر: تحقیق گوگل

در تست‌های گوگل، Imagen در تست‌های ارزیابی انسانی از نظر دقت و وفاداری پیشتاز شد. این بدیهی است که کاملا ذهنی است، اما حتی اگر با کیفیت درک شده DALL-E 2 مطابقت داشته باشد، که تا به امروز یک جهش بزرگ نسبت به هر چیز دیگری در نظر گرفته می شد، کاملاً چشمگیر است. من فقط اضافه می کنم که اگرچه بسیار خوب است، اما هیچ یک از این تصاویر (از هیچ ژنراتوری) بیش از یک نگاه گذرا قبل از اینکه مردم متوجه شوند که آنها تولید شده اند یا سوء ظن جدی دارند تحمل نمی کنند.

با این حال، OpenAI از چندین جهت یک یا دو قدم جلوتر از گوگل است. DALL-E 2 بیش از یک مقاله تحقیقاتی است، این یک نسخه بتا خصوصی است که افرادی از آن استفاده می کنند، درست مانند نسخه قبلی و GPT-2 و 3. -مطالعه تصویر، در حالی که غول بزرگ اینترنتی برنده هنوز تلاش نکرده است.

DALL-E جدید OpenAI همه چیز را به تصویر می کشد – اما بزرگتر، بهتر و سریعتر از قبل

این موضوع از انتخاب‌هایی که محققان DALL-E 2 برای نظارت بر مجموعه داده‌های آموزشی پیش از موعد انجام داده‌اند و هر محتوایی که ممکن است دستورالعمل‌های خودشان را نقض می‌کند حذف کنند، بسیار واضح است. مدل اگر تلاش می کرد نمی توانست هیچ کاری NSFW انجام دهد. با این حال، تیم Google از مجموعه داده‌های بزرگی استفاده می‌کند که حاوی مطالب نامناسب هستند. محققان در بخشی از وب سایت Imagen که “محدودیت ها و تاثیر عمومی” را توصیف می کند، می نویسند:

کاربردهای پایین دستی مدل های متن به تصویر متنوع هستند و می توانند جامعه را به روش های پیچیده ای تحت تأثیر قرار دهند. خطرات بالقوه سوء استفاده باعث ایجاد نگرانی در مورد کد منبع باز مسئول و نمایش ها می شود. ما در حال حاضر تصمیم گرفته ایم که کد یا نمایش عمومی را اجرا نکنیم.

الزامات داده برای مدل‌های متن به تصویر، محققان را وادار کرده است تا به شدت به مجموعه داده‌های بزرگ، عمدتاً جدا نشده و خراشیده شده وب، تکیه کنند. اگرچه این رویکرد در سال‌های اخیر به پیشرفت الگوریتمی سریع اجازه داده است، مجموعه داده‌هایی با این ماهیت اغلب منعکس‌کننده کلیشه‌های اجتماعی، دیدگاه‌های سرکوبگرانه، و ارتباطات تحقیرآمیز یا در غیر این صورت مضر با گروه‌های هویتی به حاشیه رانده شده‌اند. در حالی که برخی از داده های آموزشی ما برای حذف نویز و محتوای ناخواسته، مانند تصاویر مستهجن و زبان سمی فیلتر شده بود، ما همچنین از مجموعه داده LAION-400M استفاده کردیم، که به داشتن طیف گسترده ای از محتوای نامناسب، از جمله تصاویر مستهجن شناخته شده است. توهین های نژادپرستانه و کلیشه های مضر اجتماعی. Imagen متکی به رمزگذارهای متنی است که بر روی داده‌های غیرمجاز در مقیاس وب آموزش داده شده‌اند و بنابراین تعصبات اجتماعی و محدودیت‌های مدل‌های زبان بزرگ را به ارث می‌برند. به این ترتیب، این خطر وجود دارد که Imagen کلیشه ها و مفاهیم مضر را رمزگذاری کرده باشد، که تصمیم ما را برای عدم انتشار Imagen برای استفاده عمومی بدون حفاظت اضافی راهنمایی می کند.

در حالی که برخی ممکن است اشتباه کنند که می‌گویند گوگل می‌ترسد که هوش مصنوعی آن از نظر سیاسی به اندازه کافی صحیح نباشد، این دیدگاهی نامطلوب و کوته‌بینانه است. مدل هوش مصنوعی به اندازه داده‌هایی است که روی آن آموزش داده شده است، و هر تیمی نمی‌تواند زمان و تلاش لازم را برای حذف چیزهای واقعا وحشتناکی که این خراش‌ها هنگام جمع‌آوری چند میلیون تصویر یا میلیاردها مجموعه کلمه می‌گیرند صرف کنند. .

چنین سوگیری‌هایی طراحی شده‌اند تا در طول فرآیند تحقیق آشکار شوند، که نشان می‌دهد سیستم‌ها چگونه کار می‌کنند و یک سایت آزمایشی نامحدود برای شناسایی این محدودیت‌ها و سایر محدودیت‌ها فراهم می‌کند. از کجا می‌دانیم که هوش مصنوعی نمی‌تواند مدل‌های موی رایج در بین سیاه‌پوستان را نقاشی کند – مدل‌هایی که هر کودکی می‌تواند بکشد؟ یا اینکه وقتی از او خواسته می شود داستان هایی در مورد محیط کار بنویسد، هوش مصنوعی همیشه رئیس را مرد می کند؟ در این موارد، مدل هوش مصنوعی کاملاً و همانطور که طراحی شده است کار می کند – با موفقیت سوگیری هایی را که در رسانه ای که در آن آموزش دیده نفوذ می کند، یاد گرفته است. بی شباهت به انسان نیست!

اما در حالی که حذف سوگیری سیستم برای بسیاری یک پروژه مادام العمر است، هوش مصنوعی این کار را آسان‌تر می‌کند و سازندگان آن می‌توانند محتوایی را حذف کنند که در وهله اول باعث بدرفتاری آن می‌شود. شاید روزی نیاز به هوش مصنوعی برای نوشتن به سبک متخصصان نژادپرست و جنسیت‌گرای دهه 1950 وجود داشته باشد، اما در حال حاضر مزایای گنجاندن این داده‌ها ناچیز و خطرات آن بسیار زیاد است.

در هر صورت، ایمیجن، مانند سایرین، هنوز در مرحله آزمایشی است و آماده استفاده در هیچ چیز غیر از کنترل دقیق انسان نیست. همانطور که گوگل قابلیت های خود را در دسترس تر می کند، مطمئن هستم که درباره نحوه و چرایی کارکرد آن بیشتر خواهیم آموخت.

زمانی که آزمایشگاه‌های بزرگ هوش مصنوعی از باز کردن مدل‌های خود سرباز می‌زنند، جامعه مداخله می‌کند