У новій статті ми поділимося результатами власного порівняльного аналізу нейромереж для створення зображень. Читайте, порівнюйте характеристики та вибирайте відповідний для вас інструмент. Дослідження проводилося на початку квітня цього року.
Нейронна мережа — це комп’ютерна програма. Це самонавчена система «штучного інтелекту», що працює за принципом людського мозку.
Щоб видати готове зображення, нейромережі проганяють вхідні дані через систему «нейронів» — більш простих програм, що взаємодіють між собою.
Вже зараз для уяви нейромереж немає нічого неможливого. Вони можуть намалювати зображення за текстовим запитом, за вихідною картинкою, за допомогою схематичного начерку чи референсів. Деякі послуги спеціалізуються на генеруванні осіб.
Ми протестували роботу найпопулярніших сервісів, що малюють картинки на текстовий запит і зробили висновки: загальне враження базується на суб’єктивній думці наших експертів.
Сервіси тестували на двох запитах:
- простий: «гарний кіт»;
- більш складний: «гарний чоловік-фермер із чітко промальованим обличчям збирає яблука в кошик у яблуневому саду».
Midjourney
Це найбільш мистецька мережа від незалежної дослідницької лабораторії під керівництвом колишнього інженера NASA.
Midjourney відноситься до класу дифузійних нейронних мереж, тобто складається з двох нейромереж: одна відповідає за розпізнавання тексту, інша – за генерацію зображень.
Інструмент швидко завойовує популярність, тому що зручний у використанні, дозволяє створювати складні арти, креативні ілюстрації та максимально деталізовані картини.
Працює через Discord, тому потрібна реєстрація в месенджері. Створити картинку можна в одному із загальних чатів або додати на свій сервер Midjourney.
Вартість:
Нещодавно була доступна безкоштовна демо-версія з обмеженою кількістю запитів. Нині є три платні тарифи.
- Базовий – 200 GPU-хвилин;
- Стандартний – 15 GPU-годин та можливість поставити релакс режим;
- Просунутий -30 GPU-годин/місяць та приватний режим генерації.
Midjourney використовує графічні процесори (GPU) для обробки кожного запиту. Коли ви купуєте передплату, ви купуєте час використання цих процесорів.
Час очікування на відповідь нейромережі: генерація чотирьох варіантів зображення триває від 40 до 60 секунд.
Можливість покращувати фото: можна збільшити роздільну здатність і генерувати аналоги готової ілюстрації.
Варіації стилів/роздільна здатність: немає стильових обмежень, добре розпізнає текстові запити під час введення в рядок пошуку.
Наявність бібліотеки зображень: велика бібліотека із власними зображеннями та роботами інших користувачів. У бібліотеці є можливість пошуку та перегляду запитів інших користувачів до зображень.
Загальне враження: з виходом п’ятого оновлення якість зображення людей значно зросла: риси обличчя добре промальовані, образи реалістичні. Фотоілюстрації стали більш опрацьованими, виглядають чудово, при повторенні запиту змінюється ідея фотографії та ракурси.
Stable Diffusion
Це програмне забезпечення з відкритим кодом від компанії CompVis, яке створює зображення за текстовими описами. У публічний доступ програми була випущена в серпні 2022 року, але відразу почала набирати популярності.
Для створення картинок Stable Diffusion використовує набір даних LAION-5B, що містить 5 мільярдів зображень з інтернету, включаючи популярні сайти, такі як Pinterest, DeviantArt та Getty Images.
Нейромережа може генерувати зображення на основі текстового запиту, домальовувати нариси та переробляти картинки-референси на свій лад.
Все це безкоштовно, а відкритий вихідний код дозволяє встановити Stable Diffusion на свій комп’ютер та використовувати власні обчислювальні потужності.
Однак, сервіс не враховує фізичних особливостей людей на зображеннях, тому при створенні текстових підказок необхідно враховувати це самостійно. У майбутньому моделі, ймовірно, будуть покращуватися, щоб фільтрувати та коригувати зображення більш ефективно.
Вартість: безкоштовно.
Щоби розпочати роботу: на офіційному сайті (https://huggingface.co/spaces/stabilityai/stable-diffusion), обов’язкова реєстрація не потрібна. Також є програми на основі Stable Diffusion.
Час очікування відповіді нейромережі: генерація чотирьох варіантів зображення триває понад 60 секунд.
Можливість покращувати фото: немає додаткових інструментів покращення та обробки.
Варіації стилів/роздільна здатність: немає обмежень, але сервіс погано розбирає текстові запити, а варіанти роздільної здатності обмежені (у веб-версії лише 1:1).
Наявність бібліотеки зображень: відсутня.
Загальне враження: відверто погано зображує людей та обличчя, а якість самих фотографій не можна передбачити. Продукт ще «сирий» і потребує значних доробок.
Dream Studio
Користувальницький сервіс та полегшена версія Stable Diffusion. Створений для створення зображення за текстовим запитом або на основі референсної картинки.
Після реєстрації з’являється вікно, де генерується зображення. Внизу слід ввести текстовий запит. Зліва можна вибрати розмір картинки і наскільки сильно вона повинна відповідати запиту.
За один раз можна згенерувати до дев’яти зображень. Доступна генерація не тільки за текстовим запитом, але й зображення.
Вартість: дається 25 пробних кредитів (кредит приблизно дорівнює 125 зображень). Одна генерація дає від 1 до 10 зображень. Далі оплата йде за кожних 1000 кредитів.
Як почати роботу: можна працювати на сайті (https://beta.dreamstudio.ai/generate), а також через Discord або Google. Для будь-якого варіанта потрібна реєстрація, яка супроводжується довгою верифікацією з підтвердженням пошти.
Час очікування відповіді нейромережі: максимальна кількість кроків створення зображення — 150.
Можливість покращувати фото: немає додаткових інструментів покращення та обробки, але можна генерувати аналоги за фотографіями.
Варіації стилів/роздільна здатність: немає стильових обмежень, але сервіс погано розбирає запити, варіанти роздільної здатності обмежені (тільки версія 1:1).
Наявність бібліотеки зображень: лише бібліотека своїх зображень.
Загальне враження: нейромережа видає непогані результати генерації, проте варіанти зображень по тому самому запиту майже ідентичні: вони відрізняються позою, мімікою, ідеєю зображення. Щоб отримати гідний результат, необхідно ретельно опрацьовувати запит.
Dream by WOMBO
WOMBO Dream – це сервіс два в одному. По-перше, програма вміє перетворювати текст на унікальні витвори мистецтва. По-друге, ви можете завантажити готову фотографію і зробити з неї сюрреалістичний арт або використовувати її як референс для генеративної картинки.
Працює англійською мовою. Для використання сервісу не потрібно реєструватися або авторизуватись, а пробна веб-версія доступна безкоштовно.
За допомогою цього сервісу можна легко створювати вертикальні зображення, причому його головна перевага полягає в тому, що користувач може самостійно вибирати стиль зображення понад 30 варіантів і прикріплювати референси до запиту.
Вартість: безкоштовна версія дозволяє генерувати одне зображення у видачі, запит не більше ніж 200 символів.
Як розпочати роботу: працює на сайті (https://dream.ai/create), реєстрація не потрібна.
Час очікування відповіді нейромережі: створення зображення займає від 20 до 40 секунд.
Можливість покращувати фото: генерація аналогів з фотографії доступна лише платній версії, а корекція деталей на зображенні перебуває в етапі тестування.
Варіації стилів/роздільна здатність: включає 22 різних стилю: синтвейв, фентезі, стімпанк, психоделіка, японські гравюри укіе-е, студія «Гіблі» Хаяо Міядзакі, Сальвадор Далі і так далі. Для більш точної генерації зображення можна завантажити вихідну базу для тексту (будь-яка картинка). Доступна одна роздільна здатність 3:2.
Наявність бібліотеки зображень: відсутня, перегляд згенерованої фотографії доступний тільки в дуже незручному маленькому варіанті, але є можливість збільшення платної версії (не тестувалася).
Загальне враження: непогана якість фотографій, але є складність із реалізмом. Інтерфейс продукту дуже незручний, особливо у безкоштовній версії. При проханні згенерувати гарного кота постійно подвоював цього кота.
StarryAI
StarryAI позиціонують себе як нейромережа для створення NFT. Додаток працює на основі трьох алгоритмів:
- перший створює більш фантазійні та абстрактні зображення (він називається Altair);
- другий – більш реалістичні (Orion);
- третій – спеціалізується на рендерингу (Argo).
Додатково до тексту запиту можна додати бажаний стиль зображення, або завантажити готову картинку, яку ШІ використовує як відправну точку, а також вказати кількість варіацій та рівень опрацювання.
Вартість: за день можна створювати до п’яти зображень безкоштовно (як у мобільному додатку, так і на офіційному сайті).
Платну підписку розбито на 3 тарифи з помісячною оплатою: Starter, Unlimited Pro, Unlimited Pro Max.
Як почати роботу: потрібно авторизуватися на сайт (https://starryai.com). Існує і мобільний додаток StarryAI для iOS та Android. Реєстрація в програмі не потрібна. У додатку той самий функціонал і назва кнопок, що у веб-версії.
Час очікування відповіді нейромережі: створення зображення займає від 60 до 120 секунд.
Можливість покращувати фото: можна покращувати фотографії та генерувати аналоги за зображеннями.
Варіації стилів/роздільна здатність: немає обмежень щодо стилів, можна збільшити роздільну здатність за додаткові кредити. Безкоштовно доступні п’ять варіантів роздільної здатності, чотири з яких вертикальні.
Наявність бібліотеки зображень: є бібліотека своїх зображень та можливість переглядати зображення інших користувачів, але немає наскрізного пошуку.
Загальне враження: хороша якість зображень, можна отримати вартісні результати, якщо підібрати вдалі вказівки в запиті. Система може видати як дивну абстракцію, і роботу з об’ємними детализированными об’єктами. Інтерфейс сайту та галерея фотографій вимагають доопрацювання, оскільки зараз вони незручні.
Crayon
Сервіс Crayon – це колишня нейромережа Dall-E mini з генерації зображень на основі тексту англійською мовою. Інтерфейс зручний і простий у використанні: вставили потрібні слова і чекаєте, поки програма генерує відразу 9 ілюстрацій.
Вартість: відкритий та безкоштовний сервіс. Є платні тарифи, які дають можливість комерційного використання фотографій та розширень інструментарій для створення зображень.
Як розпочати роботу: сервіс працює на сайті (https://www.crayon.com)та через телеграм-бот. Реєстрація не потрібна.
Час очікування відповіді нейромережі: створення зображення займає від 20 до 40 секунд.
Можливість покращувати фото: готові фото не піддаються редагуванню.
Варіації стилів/роздільна здатність: немає обмежень за стилями, варіанти роздільної здатності обмежені (тільки версія 1:1).
Наявність бібліотеки зображень: є спільна бібліотека із зображеннями з наскрізним пошуком та можливість перегляду запитів інших користувачів.
Загальне враження: нейромережа потребує суттєвих доробок, бо зараз навіть якість зображень низька, не кажучи вже про стилі та промальовки.
Висновки
Нейромережі ще один корисний інструмент для оптимізації робочих процесів людини. Це помічник у створенні креативних ілюстрацій, який вирішує проблему з нестачею якісних зображень для статей та творчих проектів, але не замінить роботу медійників, дизайнерів та ілюстраторів.