کلیپ
پادکست
متن
مقدمه و الزامات دوره
امروز جلسه را در رابطه با هوش مصنوعی تصویری بهصورت اختصاصی شروع میکنیم. هدف اصلی این است که یاد بگیرید چگونه تصویری را که در ذهن دارید، بهراحتی با استفاده از ابزارهایی که امروزه به آنها هوش مصنوعی میگوییم، بسازید. این قابلیت در حال حاضر یکی از ضروریات محسوب میشود.
قبل از شروع رسمی، لازم است چند نکته را ذکر کنم:
- حتماً مطمئن شوید که مرورگر کروم شما با ایمیلتان وارد (لاگین) شده باشد. این امر برای انجام تمرینها و ورود به سایتهای مورد نیاز، ضروری است.
- ما تعدادی محتوای تصویری و ویدیو آماده کردهایم (از کارهای خودمان و دیگران) تا شما ابتدا با خروجیها، قابلیتها و کارهایی که میتوان با هوش مصنوعی انجام داد، آشنا شوید.
——————————————————————————–
نمایش داستان: کارگاه مبلسازی و میراث دهقان
(در این بخش، یک ویدیوی کوتاه حاوی داستانهای انگیزشی پخش شد)
داستان آرش و کیان:
این ویدیو با داستان سلمان، صاحب کارگاه مبلسازی، و پسرانش آرش و کیان آغاز میشود. آقا سلمان که دیگر توانایی کافی برای اداره کارگاه نداشت، از پسرانش خواست که مسئولیت آن را بر عهده بگیرند. او به آنها گفت که برای گرداندن کارگاه، باید از تمام جزئیات و چموخمش سر دربیاورند. شروع کار باید از جابهجا کردن وسایل، سپس نجاری و بعد رویهکوبی باشد. کیان، این کار را کارگری میدانست و نپذیرفت. او کارگاه را رها کرد تا دنبال «کار حسابی» (که از دید او موقعیت عالی در شرکتهای بزرگ بود) بگردد. آرش در کارگاه ماند، سخت کار کرد و رشد کرد و هر روز چیز جدیدی آموخت. اما کیان، به دلیل نداشتن مهارت کافی، در هیچ شرکتی موقعیت مناسبی به دست نیاورد و تنها شغلی که یافت، کار در یک کافه بود.
- در نهایت، کیان به این نتیجه رسید که موفقیت پلهپله است و برای رسیدن به آن، نه از «راه صدساله در شب»، بلکه از صبر، تلاش و پشتکار باید کمک گرفت.
حکایت دهقان دانا:
سپس حکایت دهقان دانا و فرزندانش روایت شد. دهقان به فرزندانش گفت که میراث خود را دوست بدارند، چرا که گنجی در آن نهفته است و پژوهیدن و یافتن آن با فرزندان است. پس از مرگ پدر، پسران به امید یافتن گنج، زمین را با گاوآهن شخم زدند. گنجی پیدا نشد، اما این زحمت و رنج باعث شد که محصول آن سال، هفت برابر سالهای قبل شود.
- این داستان نشان میدهد که کار، سرمایه جاودانی است.
——————————————————————————–
قابلیتهای هوش مصنوعی تصویری
آنچه در این ویدیو مشاهده شد، مجموعهای از تولیدات هوش مصنوعی تصویری بود که به کامیک موشن یا انیمیشن کوتاه تبدیل شده بودند. تمام این محتواها کاملاً با هوش مصنوعی ساخته شده و از ابزارهای سنتی (مانند فتوشاپ یا ایلاستریتور، که امروزه در دستهبندی نرمافزارهای سنتی قرار میگیرند) در تولید اولیه استفاده نشده بود.
در ادامه، به بررسی دلایل انتخاب هوش مصنوعی برای تولید تصاویر میپردازیم:
- سرعت بالا و کیفیت تولید
مهمترین ویژگی این ابزار، سرعت بالای آن است. شما میتوانید در عرض چند دقیقه، با داشتن یک پرامپت (متن دستورالعمل) درست، به تصویری با دقت بالا دست پیدا کنید. این در حالی است که یک هنرمند برای رسیدن به تصاویر مشابه (مانند آنچه در مقایسه با تصاویر تولیدشده با «دیجیتال پینت» دیده شد)، به زمان و زحمت بسیار زیادی نیاز دارد.
- کاهش نیاز به مهارت فنی
استفاده از هوش مصنوعی نیاز به مهارت فنی را در مقایسه با ابزارهایی چون فتوشاپ یا دیجیتال پینت، به شدت کاهش میدهد. مدت زمان لازم برای یادگیری مقدمات و مهارتهای لازم برای کار با نرمافزارهای سنتی، بسیار طولانیتر از تسلط بر هوش مصنوعی است. با این حال، هوش مصنوعی یک ابزار است؛ استفاده بهینه از آن مستلزم افزایش ذوق هنری، خلاقیت و اطلاعات فردی در مورد سبکهای هنری است.
- تنوع و استفاده بهینه از خلاقیت
هوش مصنوعی تنوع بسیار بالایی در سبکها (آرتاستایلها) فراهم میکند. برخلاف یک آرتیست که ممکن است سالها تمرین کند تا در یک آرتاستایل مشخص حرفهای شود، شما با هوش مصنوعی میتوانید به تمام سبکهای هنری مورد نیازتان دسترسی داشته باشید. همچنین، هوش مصنوعی به شما کمک میکند تا ایدههای خلاقانهای را که قبلاً به دلیل نداشتن امکانات قادر به تولید یا تصویر کشیدن آنها نبودید، به نحو بهینه تولید کنید.
- قابلیت استفاده در حوزههای گسترده
هوش مصنوعی تصویری در حوزههای بسیار گستردهای کاربرد دارد:
- تبلیغات و انیمیشن
- فیلم (مانند تیتراژ، افکتهای خاص و تولید فیلمهای کوتاه)
- محتوای فضای مجازی (که ترندترین و رایجترین حوزه استفاده است) هوش مصنوعی، کیفیت این تولیدات را بهبود میبخشد و سرعت کار را بالا میبرد، بهطوری که یک نفر میتواند کار چند نفر را در این زمینه انجام دهد.
- ارزانی و صرفه اقتصادی
هوش مصنوعی تصویری ارزان است. این ارزانی به چند دلیل است:
- رایگان بودن برخی ابزارها: برخی هوشهای مصنوعی (مانند چتجیپیتی یا جِمینای) تا حدی رایگان هستند.
- صرفه اقتصادی اکانتهای پولی: حتی ابزارهایی که خریداری میشوند (مانند اکانت میدجرنی)، در مقایسه با تولید سنتی محتوا (که به چندین نیروی متخصص، زمان طولانی و امکانات نیاز دارد)، از لحاظ زمانی، کیفی و تعداد نفرات بسیار ارزانتر تمام میشوند.
- ضرورت یادگیری در آینده
در حال حاضر، یادگیری هوش مصنوعی تصویری یک ابزار پیشرو محسوب میشود که به شما مزیت رقابتی میدهد. اما باید دانست که در آینده، دانستن هوش مصنوعی یک ضرورت خواهد بود. هوش مصنوعیها بهشدت در حال تغییر هستند (مانند میدجرنی که از ابتدا در دیسکورد شروع به کار کرد و امکانات کنونیاش با چهار ماه پیش متفاوت است).
——————————————————————————–
معرفی و مقایسه ابزارهای پیشرو
تعداد هوشهای مصنوعی تصویری بسیار زیاد شده است (مانند ایدئوگرام). در اینجا، کاربردیترین ابزارها معرفی و مقایسه میشوند:
- میدجرنی (Midjourney)
میدجرنی یکی از پیشتازترین و شاید پیشتازترین هوش مصنوعی در زمینه تولید تصویر در حال حاضر است. این ابزار با آپدیتهای خود توانسته است این جایگاه پیشرو را حفظ کند.
نقطه ضعف اصلی: میدجرنی پولی است. برای کار با آن، حتماً باید اکانت خریداری شود و هیچ بونسی برای استفاده رایگان اولیه وجود ندارد.
- نانو به نانا (Nanonanana)
نانو به نانا ابزاری تازه مطرحشده است که زیرمجموعه جِمینای و گوگل AI محسوب میشود. این هوش مصنوعی، برخی از نقاط ضعف میدجرنی را برطرف کرده است.
کاربرد مکمل: نانو به نانا در حال حاضر یک ابزار کمکی برای میدجرنی محسوب میشود. بهعنوان مثال، اگر کاراکتری با جزئیات دقیق در میدجرنی ساخته شود، ممکن است گرفتن خروجی از زوایای مختلف (مانند نیمرخ، پشت، یا در حال خندیدن) دشوار و زمانبر باشد. در این شرایط، میتوان تصویر کاراکتر نهایی را در نانو به نانا آپلود کرد و درخواست داد که همان کاراکتر را از زاویهای دیگر تولید کند.
(توجه داشته باشید که آموزشهای عملی کار با این ابزارها، بهخصوص جمینای و نانو به نانا، در ادامه ارائه خواهد شد)
- لئوناردو (Leonardo AI)
لئوناردو هوش مصنوعی دیگری در این زمینه است. اگرچه میدجرنی عملکرد بهتری نسبت به لئوناردو دارد، اما نکته مثبت لئوناردو این است که شما میتوانید محدود و رایگان از آن استفاده کنید. این استفاده رایگان به واسطه اعتباراتی (سکه/کِرِدیت) است که بهصورت محدود روزانه یا ماهانه برای استخراج تصویر در اختیار کاربران قرار میگیرد.
ابزارهای آفلاین و تدوین حرفهای
علاوه بر ابزارهای آنلاین، گروهی از هوشهای مصنوعی وجود دارند که بهصورت آفلاین (بدون نیاز به اینترنت و ویپیاِن) کار میکنند:
- استیبل دیفیوژن (Stable Diffusion – SD/SDXL)
این ابزارها (که نسخههای مختلفی دارند) کاملاً آفلاین هستند. با این حال، استفاده از آنها نیازمند یک سیستم بسیار بسیار قوی است و حتی با یک لپتاپ خوب نیز نمیتوان به راحتی با آن کار کرد. کار با استیبل دیفیوژن بسیار حرفهای است، اما نقطه ضعف اصلی آن این است که چون از سختافزار خود سیستم (کارت گرافیک) برای تولید تصویر استفاده میکند، استهلاک آن را بالا میبرد و به کالا مصرفی تبدیل میشود. شما میتوانید در پلتفرمهای مختلفی (مانند اینوک و پینوکیو) با این ابزار آفلاین کار کنید.
ویرایش جزئی با ابزارهای آفلاین
یکی از ضعفهای هوشهای مصنوعی آنلاین مانند میدجرنی این است که ادیتهای جزئی را سختتر میتوان روی خروجیهایشان اعمال کرد. در مقابل، نرمافزارهای آفلاین مانند اینوک (Invoke) به کاربران این امکان را میدهند که سریعتر، تمیزتر و نقطه به نقطه تصویر را ادیت کنند. برای مثال، اگر نیاز باشد طرح یک گردنبند در کاراکتر تغییر کند، ابزارهای آفلاین نتایج تمیزتر و دقیقتری میدهند. اگرچه سایر ابزارهای آنلاین نیز از این قابلیت پشتیبانی میکنند، اما درجهبندی آنها متفاوت است و اینوک در کار با جزئیات فوقالعاده است.
——————————————————————————–
ابزارهای کمکی برای بهینهسازی جریان کار
برای حرفهایتر شدن، علاوه بر ابزارهای اصلی، از ابزارهایی استفاده میشود که اگرچه مطلقاً هوش مصنوعی نیستند، اما جریان کار را تسهیل میکنند:
- آپاسکیلر (Upscaler)
برای افزایش کیفیت تصاویر تولیدشدهای که کیفیت پایینی دارند یا بزرگتر کردن آنها استفاده میشود. با جستجو در سایتهای آپاسکلر، میتوانید عکس را آپلود کرده و یک خروجی خوب دریافت کنید.
- ریمُو بکگراند (Remove Background)
این ابزار برای حذف پسزمینه از کاراکترها یا عناصر تولیدشده استفاده میشود. برای مثال، اگر کاراکتری در میدجرنی با پسزمینه بازار تولید شده باشد، میتوان با این ابزار پسزمینه را حذف کرد و کاراکتر را در محیط جدید (مانند قنادی) قرار داد. اگرچه نانو به نانا نیز این کار را تمیز انجام میدهد، اما برای صرفهجویی در اعتبارات میتوان از نرمافزارهای رایگان دیگر برای حذف پسزمینه بهره گرفت.
——————————————————————————–
نکات فنی و مالی: خرید اکانت و اعتبارات
بهجز ابزارهای آفلاین، اگر استفاده شما از هوش مصنوعیهای آنلاین زیاد و مداوم باشد، در نهایت باید اکانت آنها را تهیه کنید.
مفهوم کِرِدیت و اعتبار
اعتبار (کردیت) در واقع محدودیت استفاده شما از اکانت خریداریشده است؛ یعنی استفاده از اکانتها نامحدود (بینهایت) نیست، اگرچه بسته به نوع هوش مصنوعی ممکن است برخی از آنها اعتبار نامحدود ارائه دهند.
پلنهای میدجرنی (Midjourney)
پلنهای میدجرنی بر اساس نیاز کاربر به تولید تصویر ویدیویی یا تصویری سریع تعیین میشوند.
| پلن | قیمت تقریبی | امکانات اصلی | نکات مهم |
| پایه (Basic) | ۱۰ دلار آمریکا (محاسبه به قیمت روز دلار) | ۳ ساعت تولید تصویر سریع (حدوداً ۲۰۰ عکس در ماه) | مناسب برای استفاده بسیار محدود و کوچک. نامشخص است که پس از اتمام ۳ ساعت سریع، قابلیت تولید در حالت آهسته (ریلکس) وجود دارد یا خیر |
| استاندارد (Standard) | پلن معمول استفاده شده | ۱۵ ساعت تولید تصویر سریع | پس از اتمام ۱۵ ساعت سریع، تولید به صورت آهسته (ریلکس) ادامه پیدا میکند و نامحدود است |
تولید سریع (Fast) در مقابل تولید آهسته (Relax)
- فست (Fast) تولید تصویر با سرعت بالا صورت میگیرد.
- ریلکس (Relax) پس از اتمام ساعات «تولید سریع» خریداریشده (مثلاً ۱۵ ساعت در پلن استاندارد)، تولید تصویر به حالت ریلکس میرود. در این حالت، تصاویر به صف شبکه میروند و سرعت جنریت (تولید) پایینتر میآید، اما تولید متوقف نمیشود.
نکات تکمیلی خرید
- میدجرنی امکان تولید ویدیو از عکسهای جنریت شده را دارد، اما این فرایند ممکن است در پلنهای پایینتر، زمانبر باشد.
- پلنهای هوش مصنوعی و قوانین آنها مداوم در حال تغییر هستند.
- نسخههای اولیه میدجرنی رایگان بودند، اما به دلیل کیفیت بالا و جایگاه پیشرو، دیگر نیازی به ارائه نسخه رایگان نمیبیند، هرچند چت جیپیتی نیز در واقع نسخه رایگان خود را محدود کرده است.
——————————————————————————–
ورود به فاز عملی: پرامپتنویسی
قبل از تولید تصویر، نیاز است متنی (پرامپت) تهیه شود تا هوش مصنوعی بر اساس آن، تصویرسازی کند.
اهمیت پرامپت و ابزارها
- زبان پرامپت: پرامپت باید انگلیسی باشد.
- تولید پرامپت: ChatGPT هنوز بهترین پرامپتها را تولید میکند، زیرا در پرامپتنویسی به جایگاهی رسیده که جمینای هنوز به آن نرسیده است.
- تعریف پرامپت: پرامپت همان متن توصیفی است که شما به هوش مصنوعی تصویری میدهید.
نکته کلیدی: عدم وجود قانون مطلق
- هیچ قانون مطلقی در هوش مصنوعی وجود ندارد. ممکن است پرامپتی که تاکنون کار میکرده است، ناگهان کار نکند یا تصویری متفاوت بدهد.
تفاوت خروجیها (نحوه حل مشکل)
در عمل، اگر یک پرامپت یکسان را به دو هوش مصنوعی متفاوت (مانند چت جیپیتی/دالی و نانو به نانا) بدهید، خروجیهای بسیار متفاوتی خواهید دید (مانند تفاوت در زاویه دوربین، احساس منتقلشده یا فولبادی بودن کاراکتر). حتی اگر پرامپت را دوباره به همان هوش مصنوعی بدهید، احتمال زیادی وجود دارد که تصویر دیگری تولید کند.
راه حل:
برای کاهش تفاوتهای رندم و گرفتن تصویر دقیقتر، جزئیات پرامپت را افزایش دهید. بهجای پرامپت کلی، باید توصیفات دقیقی از رنگ لباس، زاویه (روبهرو، تمامقد) و پسزمینه ارائه شود.
——————————————————————————–
پاسخ به پرسشهای کاربردی
- پوستر سازی
شما میتوانید با هر هوش مصنوعی تصویرساز، پوستر تولید کنید. اما اگر منظورتان این است که متن فارسی هم توسط خود هوش مصنوعی روی پوستر قرار بگیرد، متأسفانه در فارسی راه دوری داریم و فعلاً امکانپذیر نیست. باید تصویر را جنریت کرده و سپس متن را در نرمافزارهای دیگر روی آن قرار دهید.
- نحوه ورود به سیستمها
برای استفاده از ابزارهایی مانند جمینای، چت جیپیتی یا لئوناردو، نیاز است که با ایمیلی که روی مرورگر کروم شما فعال است، وارد (لاگین) شوید. برای کار با این ابزارها، استفاده از سایت معمولاً راحتتر است؛ زیرا دسترسی بزرگتر و بهتری برای دانلود عکسها فراهم میکند.
——————————————————————————–
تذکر:
در حال حاضر، هوش مصنوعیها در حال تغییر هستند و توصیه میشود کاربران برای پلنهای پولی (مخصوصاً پلن پایه میدجرنی)، قوانین مربوط به استفاده از حالت آهسته (ریلکس) را حتماً قبل از خرید مجدداً بررسی کنند.