کاربردهای هوش مصنوعی به صورت پیوسته در حال گسترش است و یکی از جالبترین موارد استفاده از آن، خلق تصاویر و آثار شبه هنری است که میتواند جنبههای جدیدی از این فناوری را پیش روی علاقهمندان قرار دهد. هم اکنون ابزارهای هوش مصنوعی تبدیل متن به عکس به شکل رایگان یا پولی در دسترس کاربران قرار دارند؛ اما کدام یک از آنها نسبت به رقبای خود برتری دارد؟ در ادامه این مطلب با شمیم همراه باشید تا به پاسخ سوال مطرح شده و قابلیتهای ابزارهای گوناگون بپردازیم.
هوش مصنوعی تبدیل متن به عکس
در اوایل سال ۲۰۲۲ تعداد انگشت شماری از هوش های مصنوعی تبدیل نوشته به عکس به صورت عمومی در دسترس عموم قرار داشت؛ اما با انتشار نسخه آزمایشی ابزار DALL-E 2 شرایط فرق کرد و کمی بعد هم ابزار Stable Diffusion منتشر شد. در حال حاضر هم تعداد زیادی از وب سایتها و اپلیکیشنها به همین منظور ارائه شدهاند که برخی از آنها امکانات خود را به شکل رایگان عرضه میکنند. در پایین میتوانید لیستی از ابزارهای مبتنی بر هوش مصنوعی برای تبدیل متن به عکس را مشاهده نمایید.
۱. ابزار ساخت تصویر DALL-E 2
هوش مصنوعی DALL-E 2 محصولی از لابراتوار تحقیقاتی OpenAI است که ایلان ماسک یکی از همبنیانگذاران آن به شمار میرود و در بیشتر مواقع تنها با عنوان DALL-E از آن یاد میشود. این ابزار یکی از شناخته شدهترین گزینههای این لیست است که احتمالا نام آن برای بسیاری از کاربران آشنا به نظر میرسد.
توانایی این هوش مصنوعی در تبدیل نوشته به عکس های واقعگرایانه در ابتدای عرضه موجب جلب توجه رسانهها شد و توانست افکار عمومی را روی قابلیتهای خود، متمرکز سازد. هنگامی که تنها افراد معدودی امکان استفاده از ابزار DALL-E 2 را داشتند، خلق یک تصویر از راکون فضانورد با بازتاب جهان در کلاه فضانوردی او توانست سر و صدای زیادی به پا کند و در ادامه هم شاهد انتشار تصویری از یک خرس عروسکی در حال خرید روزمره درون مصر باستان بودیم.
در واقع یکی از نقاط قوت اصلی هوش مصنوعی DALL-E 2، تبدیل نوشتههای کوتاه به عکسهای نسبتا واقعگرایانه است و در مقایسه با رقبای خود، نیاز کمتری به توضیحات دستوری تکمیلی دارد. همین مسئله موجب شده است تا استفاده از این ابزار بسیار آسان باشد و بتواند بهترین نتیجه را با کمترین تلاش برای کاربران فراهم سازد.
واضح است که DALL-E 2 تنها هوش مصنوعی آموزش دیده با یادگیری ماشینی نیست و نرم افزارهای متعدد دیگری به همین منظور توسعه یافتهاند. اما چه چیزی باعث شهرت محصول OpenAI شده است؟ و چرا بسیاری از افراد معتقدند که این فناوری جنجالی و انقلابی محسوب میشود؟
اولین و شاید مهمترین دلیل موفقیت DALL-E 2، خروجی واقعگرایانه آن است که از لحاظ بصری چشمنواز و جذاب به نظر میرسد. این در حالی است که سایر ابزارهای هوش مصنوعی فعال در این زمینه، بیشتر خروجیهایی مشابه با آثار هنری ارائه میکنند که حس تاریک و فضای آخرالزمانی را تداعی مینمایند. اما DALL-E 2 توانسته است به خوبی از چنین فضایی فاصله بگیرد و خود را به واقعیت روزمره نزدیکتر کند. همچنین تصاویر ساخته شده از نظر زیبایی شناختی هم بسیار بیشتر به مذاق اهالی هنر خوش میآید.
بدون شک DALL-E 2 پیشرفت بزرگی در زمینه هوش مصنوعی تبدیل نوشته به عکس محسوب میشود و بهبود زیادی را نسبت به نسلهای قبلی خود شاهده بوده است. برای مثال در این نسخه، امکان کنترل جنبههای بیشتری به کاربر داده میشود که شامل استایل، سوژه و حتی انتخاب نوع لنز و فاصله کانونی آن میشود. به همین دلیل به نظر برسد که کاربردهای بینهایتی برای این فناوری در آینده متصور باشیم.
یکی دیگر از نقاط قوت DALL-E 2، توانایی بالای آن در درک نوشتههای وارد شده از سوی کاربران در مقایسه با رقبای خود است. یکی از دلایل این امر، بهرهگیری از الگوریتم GPT-3 است که توسط OpenAI توسعه یافته و بدون شک پیشرفتهترین الگوریتم یادگیری ماشینی و پردازش زبانهای طبیعی به شمار میرود. همین موضوع موجب شده است تا این هوش مصنوعی بتواند با دقت بالایی دستورات نوشتاری را تشخیص دهد و آنها را به خروجی بصری تبدیل نماید.
هوش مصنوعی DALL-E 2 تنها برای تبدیل متن به عکس کاربرد ندارد و میتواند با دریافت یک تصویر، مجموعهای از خروجیهای مشابه با آن را هم تحویل کاربر دهد. یکی دیگر از قابلیتهای انقلابی آن، امکان دریافت دستورات ویرایش از طریق نوشته و اعمال آنها روی تصاویر آماده است. برای مثال میتوانید به هوش مصنوعی دستور بدهید تا قسمتی از عکس را حذف کند یا سوژه جدید در محل دلخواه اضافه نماید. این ابزار به خوبی میتواند جزئیاتی مثل بازتاب نور را تشخیص دهد و خروجی نهایی را با توجه به تغییرات صورت گرفته، به روزرسانی خواهد کرد.
از دیگر ویژگیهای جدید و مهم DALL-E 2 باید به قابلیت Outpainting اشاره نمود که به کمک آن میتوان یک تصویر را خارج از قاب اصلی آن توسعه داد. در نتیجه تصویری بزرگتر از نسخه اصلی با ابعاد دلخواه در اختیار خواهیم داشت. هوش مصنوعی قادر است با تحلیل المانهای موجود در تصویر اصلی، اقدام به گسترش آنها در حاشیه عکس نماید. تمامی سایهها، بازتابها و بافتهای نسخه اصلی در قسمتهای جدید هم ظاهر میشوند و پسزمینه از تطابق بالایی با نمونه اصلی برخوردار خواهد بود.
قابلیتهای قدرتمند DALL-E 2 موجب شده است تا به کاندیدای احتمالی برای ویرایش عکسها توسط عکاسان در آینده تبدیل شود. البته OpenAI به تازگی نسل دوم این هوش مصنوعی را در اختیار عموم قرار داده است و تنها از طریق دعوت دیگر کاربران عضو میتوان از آن استفاده نمود. همچنین DALL-E 2 هنوز در حالت بتا قرار دارد و تعداد زیادی از علاقهمندان در لیست انتظار قرار دارند. شرکت سازنده، چندین ماه قبل اعلام کرد که به صورت تدریجی دسترسی ۱ میلیون نفر از افراد حاضر در صف انتظار را به این محصول برقرار خواهد کرد.
هر حساب کاربری DALL-E 2 شامل ۵۰ واحد اعتبار رایگان میشود و در آینده نیز به ازای هر ماه، ۱۵ اعتبار رایگان دریافت خواهد کرد. اعتبار بیشتر از طریق پرداخت هزینه امکانپذیر است و در حال حاضر مبلغ ۱۵ دلار برای هر ۱۱۵ واحد اعتبار در نظر گرفته شده است. OpenAI صریحاً اعلام کرده است که کاربران تمامی حقوق تجاری تصاویر ساخته شده توسط این هوش مصنوعی را در اختیار خواهند داشت و میتوانند اقدام به بازنشر، چاپ و فروش آثار کنند. البته هنوز هم ابهامات قانونی متعددی در این زمینه وجود دارد.
در نهایت باید اشاره کنیم که DALL-E 2 به نحوی طراحی شده است که از ساخت تصاویر افراد مشهور یا چهرههای عمومی خودداری به عمل میآورد. در سوی دیگر این سیستم از تولید محتوای مستهجن، خشونت آمیز و سیاسی خودداری به عمل میآورد. جهت ثبت نام در لیست انتظار این ابزار میتوانید از آدرس زیر اقدام نمایید:
labs.openai.com/waitlist
۲. ابزار ساخت تصویر Stable Diffusion
با وجود تمام مزایای DALL-E 2، دسترسی سریع به آن چندان امکانپذیر نیست و علاقهمندان باید برای مدت نسبتاً طولانی در صف انتظار باقی بمانند. همین موضوع باعث شده گزینههای دیگری مثل Stable Diffusion در میان کاربران محبوب شوند که در کنار قابلیتهای مناسب، دسترسی به آنها بدون دردسر ممکن است.
یکی دیگر از نقاط قوت هوش مصنوعی Stable Diffusion، انتشار کد منبع آن به صورت عمومی از سوی شرکت Stability AI است که آن را در نزد طرفداران دنیای متن باز مطرح نموده است. این مدل کاملا در تناقض با عملکرد DALL-E 2 است که بیشتر سعی دارد عملکردهای پسزمینه ابزار خود را از دید دیگران به دور نگه دارد.
به دلیل متن باز بودن Stable Diffusion، کاربران به بهبود و ارتقای آن نیز کمک شایانی میکنند. در حال حاضر مخازن مختلفی وجود دارند که قابلیتها و بهینهسازیهای متعددی را در اختیار علاقهمندان قرار میدهند. حتی یکی از کاربران شبکه اجتماعی ردیت، موفق شده است یک افزونه مختص به فتوشاپ برای این هوش مصنوعی ایجاد کند و یک افزونه هم برای نرم افزار Krita منتشر شده است.
اگر به دنبال استفاده از نسخه اصلی و بدون دستکاری Stable Diffusion هستید، میتوانید نرم افزار آن را روی رایانه خود اجرا کنید یا به سراغ نسخه بتای تحت وب بروید. کاربران هنگام ثبت نام در وب سایتDreamStudio ، ۲۰۰ واحد اعتبار هدیه دریافت میکنند که میتوانند از آن برای ساخت تصاویر بهره بگیرند. در ادامه مبلغ یک پوند به ازای هر ۱۰۰ عکس یا ۱۰۰ پوند برای ۱۰ هزار عکس از کاربر دریافت خواهد شد.
نحوه استفاده از ابزار Stable Diffusion هم مشابه با DALL-E 2 است و کاربران میتوانند با وارد کردن دستورات نوشتاری، تصاویر دلخواه خود را خلق کنند. خروجی این هوش مصنوعی تقریباً واقعگرایانه است و فایلهایی با رزولوشن ۵۱۲ در ۵۱۲ پیکسل را در اختیار کاربران خود قرار میدهد. همچنین امکان آپلود کردن عکس همراه با توضیحات جهت دریافت خروجی هم وجود دارد.
شرکت Stability AI جهت ساخت Stable Diffusion از ۴ هزار کارت گرافیک مدل A100 انویدیا و دیتاست LAION-5B کمک گرفته است. به همین دلیل این هوش مصنوعی میتواند تصاویر خلاقانه از افراد مشهور تحویل دهد؛ قابلیتی که اجازه انجام آن توسط DALL-E 2 داده نمیشود.
کیفیت خروجی Stable Diffusion در مقایسه با رقبا، تحسین برانگیز است؛ اما کار با آن نسبت به DALL-E 2 دشوارتر به نظر میرسد. باید اشاره کنیم که نسخه بتا هم امکانات چندان پیشرفتهای در اختیار کاربران نمیگذارد؛ درحالی که ویژگیهای بهتری در نمونههای رقیب به چشم میخورد. کاربران باید با صرف زمان، دستورات مناسب را جهت دریافت تصویر مطلوب و با کیفیت پیدا کنند؛ البته یک راهنما نیز از سوی شرکت سازنده به همین منظور منتشر شده است. برای دانلود فایل نصب یا استفاده از نسخه تحت وب این هوش مصنوعی تبدیل نوشته به عکس میتوانید از آدرسهای زیر استفاده نمایید.
beta.dreamstudio.ai/dream
github.com/CompVis/stable-diffusion
۳. هوش مصنوعی تبدیل نوشته به عکس Midjourney
یکی دیگر از نامهای مطرح در زمینه ساخت خودکار تصویر، ابزار Midjourney است که میتواند تصاویری هنری را خلق کند. حتی چندی پیش شاهد این بودیم که تصویر ساخته شده با هوش مصنوعی مذکور توانست در یک جشنواره هنری مقام اول را به خود اختصاص دهد. شاید جالب باشد که بدانید ابزار گفته شده از طریق یک سرور دیسکورد فعالیت دارد و از بات دستورات این پلتفرم برای ساخت تصاویر با کیفیت و هنری بهره میگیرد.
برخلاف DALL-E 2، هوش مصنوعی Midjourney محدودیتی در ساخت عکسهای افراد مشهور و چهرههای سرشناس پیش روی کاربران خود قرار نمیدهد. به همین دلیل کاربران دیسکورد از آن برای تصور کردن بازیگران مورد علاقه خود در نقشهای مختلف استفاده مینمایند.
البته Midjourney بدون مشکل هم نیست و یکی از بزرگترین محدودیتهای آن، استایل هنری دائمی است که روی عکسها قرار میگیرد. همین مسئله باعث شده تا ساخت تصاویر واقعگرایانه با آن، تقریباً غیر ممکن به نظر برسد. البته سازندگان آن هم هیچ وقت به دنبال چنین هدفی نبودند و احتمالا قصدی هم برای حرکت به این سمت نخواهند داشت.
یکی دیگر از مشکلات مرتبط با این هوش مصنوعی تبدیل نوشته به عکس، نیاز به استفاده از یک سرور دیسکورد جهت وارد کردن دستورات است که میتواند در ابتدا برای برخی از افراد پیچیده به نظر برسد. همچنین رابط کاربری خود دیسکورد هم چندان چشمنواز نیست و در بلند مدت فراساینده خواهد بود. گاهی اوقات هم ممکن است دستورات خود را در میان لیست بلند بالایی از نوشتههای دیگر کاربران گم کنید. البته خالق Midjourney معتقد است این روش موجب شده تا پروژه ماهیت اجتماعی خود را حفظ کند و کاربران در زمانی که منتظر دریافت خروجی دستور خود هستند، میتوانند از عکسهای خلق شده توسط دیگر افراد هم لذت ببرند.
ابزار Midjourney چندین ماه است که به صورت بتا در اختیار علاقهمندان قرار دارد. برای استفاده از آن باید مراحل زیر را طی کنید.
- وارد وب سایت یا اپلیکیشن Discord شوید و در صورتی که حساب کاربری ندارد، در آن ثبت نام نمایید.
- در ادامه به یک کانال (مثل #newbies-126) بروید.
- دستور بات imagine/ را در کانال تایپ کرده و منتظر بمانید تا عبارت prompt ظاهر شود.
- اکنون میتوانید دستور دلخواه خود را برای ساخت عکس وارد کنید.
هنگام استفاده از بات Midjourney باید به حقوق دیگر کاربران احترام بگذارید و از تولید محتوای نامناسب هم خودداری نمایید. ۲۵ تصویر اول ساخته شده توسط این ابزار رایگان خواهد بود، اما برای ادامه کار میتوانید با پرداخت مبلغ ۱۰ دلار در ماه، صاحب ۲۰۰ عکس دیگر شوید. البته اشتراک استاندارد این سرویس هم با قیمت ۳۰ دلار در ماه، امکان استفاده نامحدود از امکانات آن را فراهم میسازد.
۴. هوش مصنوعی تبدیل متن به عکس Craiyon
هوش مصنوعی Craiyon یکی از ابزارهای ساخت تصویر تحت وب است که در گذشته با نام DALL-E Mini شناخته میشد. البته این شباهت اسمی ربطی به شرکت Open AI (خالق DALL-E 2) ندارد؛ اما سازنده Craiyon از اطلاعاتی که به صورت عمومی توسط شرکت مذکور منتشر شده است، بهره جسته است.
برخلاف DALL-E 2 و سایر گزینههای مطرح شده در این لیست، استفاده از قابلیتهای Craiyon کاملا رایگان است و به راحتی با هر دستگاهی میتوان با مراجعه به وب سایت آن، خلق عکسها را شروع کرد. همچنین خبری از سانسور محتوا در این هوش مصنوعی نیست و هرگونه دستوری توسط آن پذیرش میشود. حتی کاربران میتوانند درخواست کنند که خروجی در یک استایل مشخص ارائه شود. شایان ذکر است که ساخت هر عکس حدود ۲ دقیقه زمان میبرد.
اما مشکل اصلی Craiyon، کیفیت عکسهای خروجی آن است که توان رقابت با DALL-E 2 و دیگر گزینههای اشاره شده را ندارد. برای مثال چهره افراد مشهور معمولا واضح نیست و نقایص متعددی در آنها دیده میشود. البته کاربران میتوانند با صرف تلاش و زمان بیشتر، جزئیات تصاویر را بهبود ببخشند و خروجی بهتری را دریافت نمایند. برخی افراد گزارش کردهاند که وارد کردن دستورات طولانی با توصیفات دقیق از جمله اندازه و موقعیت اجزای چهره به آنها در افزایش کیفیت عکسها کمک کرده است.
ناگفته نماند که Craiyon امکان دانلود فایل با کیفیت عکسهای ساخته شده را به کاربران خود نمیدهد و تنها راه ذخیره کردن آنها، اسکرین شات گرفتن است. با این حال اگر میخواهید بدون پرداخت هزینه به امکانات نامحدود یک هوش مصنوعی تبدیل نوشته به عکس دسترسی داشته باشید، این سرویس میتواند گزینه مطلوبی برای شما باشد.
برای استفاده از هوش مصنوعی تبدیل متن به عکس Craiyon میتوانید از آدرس زیر جهت بهرهمندی از نسخه تحت وب استفاده کنید یا به سراغ اپلیکیشن موبایل آن بروید. در حال حاضر اپلیکیشن این ابزار تنها برای سیستم عامل اندروید منتشر شده است و خبری از نسخه iOS نیست.
craiyon.com