فناوری و ترفندها, ويژه ها

معرفی بهترین سایت‌هایی که با هوش مصنوعی متن را به عکس تبدیل می‌کنند

خرداد 9, 1402
12:23
No Comments
تعداد بازدید 1283 نفر

کاربردهای هوش مصنوعی به صورت پیوسته در حال گسترش است و یکی از جالب‌ترین موارد استفاده از آن‌، خلق تصاویر و آثار شبه هنری است که می‌تواند جنبه‌های جدیدی از این فناوری را پیش روی علاقه‌مندان قرار دهد. هم اکنون ابزارهای هوش مصنوعی تبدیل متن به عکس به شکل رایگان یا پولی در دسترس کاربران قرار دارند؛ اما کدام یک از آن‌ها نسبت به رقبای خود برتری دارد؟ در ادامه این مطلب با شمیم همراه باشید تا به پاسخ سوال مطرح شده و قابلیت‌های ابزارهای گوناگون بپردازیم.

هوش مصنوعی تبدیل متن به عکس

در اوایل سال ۲۰۲۲ تعداد انگشت شماری از هوش های مصنوعی تبدیل نوشته به عکس به صورت عمومی در دسترس عموم قرار داشت؛ اما با انتشار نسخه آزمایشی ابزار DALL-E 2 شرایط فرق کرد و کمی بعد هم ابزار Stable Diffusion منتشر شد. در حال حاضر هم تعداد زیادی از وب سایت‌ها و اپلیکیشن‌ها به همین منظور ارائه شده‌اند که برخی از آن‌ها امکانات خود را به شکل رایگان عرضه می‌کنند. در پایین می‌توانید لیستی از ابزارهای مبتنی بر هوش مصنوعی برای تبدیل متن به عکس را مشاهده نمایید.

۱. ابزار ساخت تصویر DALL-E 2

هوش مصنوعی DALL-E 2 محصولی از لابراتوار تحقیقاتی OpenAI است که ایلان ماسک یکی از هم‌بنیان‌گذاران آن به شمار می‌رود و در بیشتر مواقع تنها با عنوان DALL-E از آن یاد می‌شود. این ابزار یکی از شناخته شده‌ترین گزینه‌های این لیست است که احتمالا نام آن برای بسیاری از کاربران آشنا به نظر می‌رسد.

دو تصویر مشهوری که در فروردین ماه ۱۴۰۱ توسط هوش مصنوعی DALL-E 2 خلق شدند و توانستند توجه رسانه‌ای زیادی را به سوی خود جلب کنند.

توانایی این هوش مصنوعی در تبدیل نوشته به عکس های واقع‌گرایانه در ابتدای عرضه موجب جلب توجه رسانه‌ها شد و توانست افکار عمومی را روی قابلیت‌های خود، متمرکز سازد. هنگامی که تنها افراد معدودی امکان استفاده از ابزار DALL-E 2 را داشتند، خلق یک تصویر از راکون فضانورد با بازتاب جهان در کلاه فضانوردی او توانست سر و صدای زیادی به پا کند و در ادامه هم شاهد انتشار تصویری از یک خرس عروسکی در حال خرید روزمره درون مصر باستان بودیم.

در واقع یکی از نقاط قوت اصلی هوش مصنوعی DALL-E 2، تبدیل نوشته‌های کوتاه به عکس‌های نسبتا واقع‌گرایانه است و در مقایسه با رقبای خود، نیاز کمتری به توضیحات دستوری تکمیلی دارد. همین مسئله موجب شده است تا استفاده از این ابزار بسیار آسان باشد و بتواند بهترین نتیجه را با کمترین تلاش برای کاربران فراهم سازد.

تصویری ساخته شده از گذاره «یک مرد که در حال عکاسی با دوربین دیجیتال خود است» توسط هوش مصنوعی DALL-E 2.

واضح است که DALL-E 2 تنها هوش مصنوعی آموزش دیده با یادگیری ماشینی نیست و نرم افزارهای متعدد دیگری به همین منظور توسعه یافته‌اند. اما چه چیزی باعث شهرت محصول OpenAI شده است؟ و چرا بسیاری از افراد معتقدند که این فناوری جنجالی و انقلابی محسوب می‌شود؟

اولین و شاید مهم‌ترین دلیل موفقیت DALL-E 2، خروجی واقع‌گرایانه آن است که از لحاظ بصری چشم‌نواز و جذاب به نظر می‌رسد. این در حالی است که سایر ابزارهای هوش مصنوعی فعال در این زمینه، بیشتر خروجی‌هایی مشابه با آثار هنری ارائه می‌کنند که حس تاریک و فضای آخرالزمانی را تداعی می‌نمایند. اما DALL-E 2 توانسته است به خوبی از چنین فضایی فاصله بگیرد و خود را به واقعیت روزمره نزدیک‌تر کند. همچنین تصاویر ساخته شده از نظر زیبایی شناختی هم بسیار بیشتر به مذاق اهالی هنر خوش می‌آید.

تصویر ساخته شده توسط DALL-E 2 با گذاره «مغازه شست و شوی لباس در نیمه شب، مه‌آلود، نئون».

بدون شک DALL-E 2 پیشرفت بزرگی در زمینه هوش مصنوعی تبدیل نوشته به عکس محسوب می‌شود و بهبود زیادی را نسبت به نسل‌های قبلی خود شاهده بوده است. برای مثال در این نسخه، امکان کنترل جنبه‌های بیشتری به کاربر داده می‌شود که شامل استایل، سوژه و حتی انتخاب نوع لنز و فاصله کانونی آن می‌شود. به همین دلیل به نظر برسد که کاربردهای بی‌نهایتی برای این فناوری در آینده متصور باشیم.

یکی دیگر از نقاط قوت DALL-E 2، توانایی بالای آن در درک نوشته‌های وارد شده از سوی کاربران در مقایسه با رقبای خود است. یکی از دلایل این امر، بهره‌گیری از الگوریتم GPT-3 است که توسط OpenAI توسعه یافته و بدون شک پیشرفته‌ترین الگوریتم یادگیری ماشینی و پردازش زبان‌های طبیعی به شمار می‌رود. همین موضوع موجب شده است تا این هوش مصنوعی بتواند با دقت بالایی دستورات نوشتاری را تشخیص دهد و آن‌ها را به خروجی بصری تبدیل نماید.

مجموعه‌ای از خروجی‌ها که با وارد کردن تصویر قبلی توسط DALL-E 2 ساخته شده است.

هوش مصنوعی DALL-E 2 تنها برای تبدیل متن به عکس کاربرد ندارد و می‌تواند با دریافت یک تصویر، مجموعه‌ای از خروجی‌های مشابه با آن را هم تحویل کاربر دهد. یکی دیگر از قابلیت‌های انقلابی آن، امکان دریافت دستورات ویرایش از طریق نوشته و اعمال آن‌ها روی تصاویر آماده است. برای مثال می‌توانید به هوش مصنوعی دستور بدهید تا قسمتی از عکس را حذف کند یا سوژه جدید در محل دلخواه اضافه نماید. این ابزار به خوبی می‌تواند جزئیاتی مثل بازتاب نور را تشخیص دهد و خروجی نهایی را با توجه به تغییرات صورت گرفته، به روزرسانی خواهد کرد.

از دیگر ویژگی‌های جدید و مهم DALL-E 2 باید به قابلیت Outpainting اشاره نمود که به کمک آن می‌توان یک تصویر را خارج از قاب اصلی آن توسعه داد. در نتیجه تصویری بزرگ‌تر از نسخه اصلی با ابعاد دلخواه در اختیار خواهیم داشت. هوش مصنوعی قادر است با تحلیل المان‌های موجود در تصویر اصلی، اقدام به گسترش آن‌ها در حاشیه عکس نماید. تمامی سایه‌ها، بازتاب‌ها و بافت‌های نسخه اصلی در قسمت‌های جدید هم ظاهر می‌شوند و پس‌زمینه از تطابق بالایی با نمونه اصلی برخوردار خواهد بود.

نسخه گسترش یافته از نقاشی مشهور «دختری با گوشواره مروارید» اثر یوهانس فرمیر که با قابلیت Outpainting هوش مصنوعی DALL-E 2 ساخته شده است.

قابلیت‌های قدرتمند DALL-E 2 موجب شده است تا به کاندیدای احتمالی برای ویرایش عکس‌ها توسط عکاسان در آینده تبدیل شود. البته OpenAI به تازگی نسل دوم این هوش مصنوعی را در اختیار عموم قرار داده است و تنها از طریق دعوت دیگر کاربران عضو می‌توان از آن استفاده نمود. همچنین DALL-E 2 هنوز در حالت بتا قرار دارد و تعداد زیادی از علاقه‌مندان در لیست انتظار قرار دارند. شرکت سازنده، چندین ماه قبل اعلام کرد که به صورت تدریجی دسترسی ۱ میلیون نفر از افراد حاضر در صف انتظار را به این محصول برقرار خواهد کرد.

هر حساب کاربری DALL-E 2 شامل ۵۰ واحد اعتبار رایگان می‌شود و در آینده نیز به ازای هر ماه، ۱۵ اعتبار رایگان دریافت خواهد کرد. اعتبار بیشتر از طریق پرداخت هزینه امکان‌پذیر است و در حال حاضر مبلغ ۱۵ دلار برای هر ۱۱۵ واحد اعتبار در نظر گرفته شده است. OpenAI صریحاً اعلام کرده است که کاربران تمامی حقوق تجاری تصاویر ساخته شده توسط این هوش مصنوعی را در اختیار خواهند داشت و می‌توانند اقدام به بازنشر، چاپ و فروش آثار کنند. البته هنوز هم ابهامات قانونی متعددی در این زمینه وجود دارد.

تصویری که با گذاره «یک همستر پیتزاخور روی ساحل هاوایی» توسط DALL-E 2 ایجاد شده است.

در نهایت باید اشاره کنیم که DALL-E 2 به نحوی طراحی شده است که از ساخت تصاویر افراد مشهور یا چهره‌های عمومی خودداری به عمل می‌آورد. در سوی دیگر این سیستم از تولید محتوای مستهجن، خشونت آمیز و سیاسی خودداری به عمل می‌آورد. جهت ثبت نام در لیست انتظار این ابزار می‌توانید از آدرس زیر اقدام نمایید:

labs.openai.com/waitlist

۲. ابزار ساخت تصویر Stable Diffusion

با وجود تمام مزایای DALL-E 2، دسترسی سریع به آن چندان امکان‌پذیر نیست و علاقه‌مندان باید برای مدت نسبتاً طولانی در صف انتظار باقی بمانند. همین موضوع باعث شده گزینه‌های دیگری مثل Stable Diffusion در میان کاربران محبوب شوند که در کنار قابلیت‌های مناسب، دسترسی به آن‌ها بدون دردسر ممکن است.

یکی دیگر از نقاط قوت هوش مصنوعی Stable Diffusion، انتشار کد منبع آن به صورت عمومی از سوی شرکت Stability AI است که آن را در نزد طرفداران دنیای متن باز مطرح نموده است. این مدل کاملا در تناقض با عملکرد DALL-E 2 است که بیشتر سعی دارد عملکردهای پس‌زمینه ابزار خود را از دید دیگران به دور نگه دارد.

تصویر ساخته شده با گذاره «یک مرد که در حال عکس گرفتن با دوربین دیجیتال خود است» توسط هوش مصنوعی Stable Diffusion.

به دلیل متن باز بودن Stable Diffusion، کاربران به بهبود و ارتقای آن نیز کمک شایانی می‌کنند. در حال حاضر مخازن مختلفی وجود دارند که قابلیت‌ها و بهینه‌سازی‌های متعددی را در اختیار علاقه‌مندان قرار می‌دهند. حتی یکی از کاربران شبکه اجتماعی ردیت، موفق شده است یک افزونه مختص به فتوشاپ برای این هوش مصنوعی ایجاد کند و یک افزونه هم برای نرم افزار Krita منتشر شده است.

اگر به دنبال استفاده از نسخه اصلی و بدون دستکاری Stable Diffusion هستید، می‌توانید نرم افزار آن را روی رایانه خود اجرا کنید یا به سراغ نسخه بتای تحت وب بروید. کاربران هنگام ثبت نام در وب سایتDreamStudio ، ۲۰۰ واحد اعتبار هدیه دریافت می‌کنند که می‌توانند از آن برای ساخت تصاویر بهره بگیرند. در ادامه مبلغ یک پوند به ازای هر ۱۰۰ عکس یا ۱۰۰ پوند برای ۱۰ هزار عکس از کاربر دریافت خواهد شد.

تصویر ساخته شده با گذاره «مغازه شست و شوی لباس در نیمه شب، مه‌آلود، نئون» توسط Stable Diffusion.

نحوه استفاده از ابزار Stable Diffusion هم مشابه با DALL-E 2 است و کاربران می‌توانند با وارد کردن دستورات نوشتاری، تصاویر دلخواه خود را خلق کنند. خروجی این هوش مصنوعی تقریباً واقع‌گرایانه است و فایل‌هایی با رزولوشن ۵۱۲ در ۵۱۲ پیکسل را در اختیار کاربران خود قرار می‌دهد. همچنین امکان آپلود کردن عکس همراه با توضیحات جهت دریافت خروجی هم وجود دارد.

شرکت Stability AI جهت ساخت Stable Diffusion از ۴ هزار کارت گرافیک مدل A100 انویدیا و دیتاست LAION-5B کمک گرفته است. به همین دلیل این هوش مصنوعی می‌تواند تصاویر خلاقانه از افراد مشهور تحویل دهد؛ قابلیتی که اجازه انجام آن توسط DALL-E 2 داده نمی‌شود.

تصویر ساخته شده توسط Stable Diffusion با دستور «برد پیت در جنگل».

کیفیت خروجی Stable Diffusion در مقایسه با رقبا، تحسین برانگیز است؛ اما کار با آن نسبت به DALL-E 2 دشوارتر به نظر می‌رسد. باید اشاره کنیم که نسخه بتا هم امکانات چندان پیشرفته‌ای در اختیار کاربران نمی‌گذارد؛ درحالی که ویژگی‌های بهتری در نمونه‌های رقیب به چشم می‌خورد. کاربران باید با صرف زمان، دستورات مناسب را جهت دریافت تصویر مطلوب و با کیفیت پیدا کنند؛ البته یک راهنما نیز از سوی شرکت سازنده به همین منظور منتشر شده است. برای دانلود فایل نصب یا استفاده از نسخه تحت وب این هوش مصنوعی تبدیل نوشته به عکس می‌توانید از آدرس‌های زیر استفاده نمایید.

beta.dreamstudio.ai/dream

github.com/CompVis/stable-diffusion

۳. هوش مصنوعی تبدیل نوشته به عکس Midjourney

یکی دیگر از نام‌های مطرح در زمینه ساخت خودکار تصویر، ابزار Midjourney است که می‌تواند تصاویری هنری را خلق کند. حتی چندی پیش شاهد این بودیم که تصویر ساخته شده با هوش مصنوعی مذکور توانست در یک جشنواره هنری مقام اول را به خود اختصاص دهد. شاید جالب باشد که بدانید ابزار گفته شده از طریق یک سرور دیسکورد فعالیت دارد و از بات دستورات این پلتفرم برای ساخت تصاویر با کیفیت و هنری بهره می‌گیرد.

برخلاف DALL-E 2، هوش مصنوعی Midjourney محدودیتی در ساخت عکس‌های افراد مشهور و چهره‌های سرشناس پیش روی کاربران خود قرار نمی‌دهد. به همین دلیل کاربران دیسکورد از آن برای تصور کردن بازیگران مورد علاقه خود در نقش‌های مختلف استفاده می‌نمایند.

خروجی دستور «یک مرد که در حال عکس گرفتن با دوربین دیجیتال خود است» در هوش مصنوعی Midjourney.

البته Midjourney بدون مشکل هم نیست و یکی از بزرگ‌ترین محدودیت‌های آن، استایل هنری دائمی است که روی عکس‌ها قرار می‌گیرد. همین مسئله باعث شده تا ساخت تصاویر واقع‌گرایانه با آن، تقریباً غیر ممکن به نظر برسد. البته سازندگان آن هم هیچ وقت به دنبال چنین هدفی نبودند و احتمالا قصدی هم برای حرکت به این سمت نخواهند داشت.

یکی دیگر از مشکلات مرتبط با این هوش مصنوعی تبدیل نوشته به عکس، نیاز به استفاده از یک سرور دیسکورد جهت وارد کردن دستورات است که می‌تواند در ابتدا برای برخی از افراد پیچیده به نظر برسد. همچنین رابط کاربری خود دیسکورد هم چندان چشم‌نواز نیست و در بلند مدت فراساینده خواهد بود. گاهی اوقات هم ممکن است دستورات خود را در میان لیست بلند بالایی از نوشته‌های دیگر کاربران گم کنید. البته خالق Midjourney معتقد است این روش موجب شده تا پروژه ماهیت اجتماعی خود را حفظ کند و کاربران در زمانی که منتظر دریافت خروجی دستور خود هستند، می‌توانند از عکس‌های خلق شده توسط دیگر افراد هم لذت ببرند.

نتیجه دستور «مغازه شست و شوی لباس در نیمه شب، مه‌آلود، نئون» در هوش مصنوعی Midjourney.

ابزار Midjourney چندین ماه است که به صورت بتا در اختیار علاقه‌مندان قرار دارد. برای استفاده از آن باید مراحل زیر را طی کنید.

وارد وب سایت یا اپلیکیشن Discord شوید و در صورتی که حساب کاربری ندارد، در آن ثبت نام نمایید.
در ادامه به یک کانال (مثل #newbies-126) بروید.
دستور بات imagine/ را در کانال تایپ کرده و منتظر بمانید تا عبارت prompt ظاهر شود.
اکنون می‌توانید دستور دلخواه خود را برای ساخت عکس وارد کنید.

هنگام استفاده از بات Midjourney باید به حقوق دیگر کاربران احترام بگذارید و از تولید محتوای نامناسب هم خودداری نمایید. ۲۵ تصویر اول ساخته شده توسط این ابزار رایگان خواهد بود، اما برای ادامه کار می‌توانید با پرداخت مبلغ ۱۰ دلار در ماه، صاحب ۲۰۰ عکس دیگر شوید. البته اشتراک استاندارد این سرویس هم با قیمت ۳۰ دلار در ماه، امکان استفاده نامحدود از امکانات آن را فراهم می‌سازد.

۴. هوش مصنوعی تبدیل متن به عکس Craiyon

هوش مصنوعی Craiyon یکی از ابزارهای ساخت تصویر تحت وب است که در گذشته با نام DALL-E Mini شناخته می‌شد. البته این شباهت اسمی ربطی به شرکت Open AI (خالق DALL-E 2) ندارد؛ اما سازنده Craiyon از اطلاعاتی که به صورت عمومی توسط شرکت مذکور منتشر شده است، بهره جسته‌ است.

تصاویر ساخته شده با دستور «یک مرد که در حال عکس گرفتن با دوربین دیجیتال خود است» توسط هوش مصنوعی Craiyon.

برخلاف DALL-E 2 و سایر گزینه‌های مطرح شده در این لیست، استفاده از قابلیت‌های Craiyon کاملا رایگان است و به راحتی با هر دستگاهی می‌توان با مراجعه به وب سایت آن، خلق عکس‌ها را شروع کرد. همچنین خبری از سانسور محتوا در این هوش مصنوعی نیست و هرگونه دستوری توسط آن پذیرش می‌شود. حتی کاربران می‌توانند درخواست کنند که خروجی در یک استایل مشخص ارائه شود. شایان ذکر است که ساخت هر عکس حدود ۲ دقیقه زمان می‌برد.

اما مشکل اصلی Craiyon، کیفیت عکس‌های خروجی آن است که توان رقابت با DALL-E 2 و دیگر گزینه‌های اشاره شده را ندارد. برای مثال چهره افراد مشهور معمولا واضح نیست و نقایص متعددی در آن‌ها دیده می‌شود. البته کاربران می‌توانند با صرف تلاش و زمان بیشتر، جزئیات تصاویر را بهبود ببخشند و خروجی بهتری را دریافت نمایند. برخی افراد گزارش کرده‌اند که وارد کردن دستورات طولانی با توصیفات دقیق از جمله اندازه و موقعیت اجزای چهره به آن‌ها در افزایش کیفیت عکس‌ها کمک کرده است.

تصاویر ساخته با دستور «برد پیت در جنگل» توسط هوش مصنوعی Craiyon.

ناگفته نماند که Craiyon امکان دانلود فایل با کیفیت عکس‌های ساخته شده را به کاربران خود نمی‌دهد و تنها راه ذخیره کردن آن‌ها، اسکرین شات گرفتن است. با این حال اگر می‌خواهید بدون پرداخت هزینه به امکانات نامحدود یک هوش مصنوعی تبدیل نوشته به عکس دسترسی داشته باشید، این سرویس می‌تواند گزینه مطلوبی برای شما باشد.

برای استفاده از هوش مصنوعی تبدیل متن به عکس Craiyon می‌توانید از آدرس زیر جهت بهره‌مندی از نسخه تحت وب استفاده کنید یا به سراغ اپلیکیشن موبایل آن بروید. در حال حاضر اپلیکیشن این ابزار تنها برای سیستم عامل اندروید منتشر شده است و خبری از نسخه iOS نیست.