Компанія OpenAI представила третє покоління нейромережі Dall-E – конкурента Midjourney та Stable Diffusion.
Dall-E 3 може генерувати картинки у різних стилях. Вона доступна безкоштовно, не вимагає потужного комп’ютера, а ще з нею можна не вчитися складати промпти. Ви пишете запит, а нейромережа сама «докручує» ідею і генерує картинку. Розповідаємо, де скористатися Dall-E 3 та в чому її особливості.
Що таке Dall-E 3
OpenAI, розробник революційного чат-бота ChatGPT, випустив Dall-E у 2021 році. Це була одна з перших нейромереж, які вміють якісно малювати картинки за текстовим описом. Однак у простих користувачів доступу до неї не було.
Навесні того ж року з’явилася спрощена модель Dall-E mini , яка прямо в браузері генерувала дев’ять не дуже якісних, але відомих картинок текстового промпту. Погана якість сподобалася інтернету, нейромережа завірусилася, там стали робити дивні генерації, що стали мемними.
На початку 2022 року OpenAI представила Dall-E 2 , яка генерувала картинки вищої якості та підтримувала запити російською мовою. Нейросеть з’явилася навіть раніше, ніж перші версії Stable Diffusion та Midjourney, які набрали широкої популярності завдяки відкритому та безкоштовному доступу.
Доступ до Dall-E 2 можна отримати лише через список очікування. Це мало кому вдавалося, тож в інтернеті цю версію практично не обговорювали. У вересні 2022 року нейромережа відкрили для всіх: Dall-E 2 була доступна на сайті OpenAI і пізніше в пошуковій системі Bing.
Dall-E 3 представили наприкінці вересня 2023 року , а публічний доступ до неї з’явився на початку жовтня.
Нейромережа доступна безкоштовно через Bing Image Creator і за платною підпискою в ChatGPT. Доступу до API поки що немає, його обіцяли надати пізніше.
Які у Dall-E 3 особливості
Більше не потрібно вчитися промптингу
Щоби генерувати картинки в більшості популярних нейромереж, наприклад Midjourney або Stable Diffusion, потрібно вивчати синтаксис. Це означає, що доведеться навчатись складати запити за спеціальною формулою англійською мовою та вказувати неочевидні додаткові параметри.
Dall-E 3 розуміє природну мову. З нею можна спілкуватися так само, як ви розмовляєте з людьми, і вносити редагування, якщо вас не влаштовує результат. Наприклад, у нейромережі спрацює як запит «намалюй мені фіолетового анімешного кота», так і «фіолетовий кіт, аніме» або навіть «🐱💜».
Текстова нейромережа прочитає ваш запит і перепише його так, щоб алгоритм, який генерує картинки, краще зрозумів, що ви хочете отримати. Через це генерації виходять різноманітнішими, а той самий запит може видавати абсолютно різні результати.
Як Dall-E 3 генерує картинку
- Користувач пише запит.
- Версія GPT у Bing або GPT-4 у ChatGPT переписує цей запит згідно зі своєю вбудованою інструкцією.
- Dall-E3 генерує зображення на основі модифікованого запиту.
Заборонено будь-який образливий контент
У Dall-E 3 не можна генерувати сцени, що містять насильство, ненависть або контент NSFW. Однак у перші дні після запуску Dall-E 3 у Bing Image Creator користувачі почали робити картинки «на межі». У генераціях персонажі поп-культури врізалися у вежі-близнюки або позували для обкладинок еротичних журналів. Після цього для Dall-E 3 посилили цензуру: тепер там не вдасться згенерувати навіть удару молотком або гору людських кісток. Тепер багато хто скаржиться, що алгоритму зробили «лоботомію» і шукають способи обходу обмежень.
Знаменитостей та громадських діячів згенерувати теж не вийде – запит повернеться з помилкою. OpenAI ввела цю заборону «заради безпеки». Зважаючи на все, компанія врахувала досвід Midjourney: у 2022 році користувачі згенерували в цій нейромережі Папу Римського в пуховику «Баленсіага» та арешт Дональда Трампа. Згодом ЗМІ довелося пояснювати, що це не справжні знімки.
Нейромережа відмовляється імітувати стиль художників, які жили останні сто років
Dall-E 3 не генеруватиме кадр з фільму Уеса Андерсона або картину Сальвадора Далі через порушення авторських прав. У цьому нейромережа може імітувати чужий стиль, якщо описати його словами без згадування імені художника.
Ймовірно, таке рішення ухвалено, щоб уникнути судових розглядів через копірайт. Художники вже подавали до суду на розробників Stable Diffusion та Midjourney , тому що роботи без їхньої згоди використовували для навчання нейромереж. Крім того, якщо художник помітить, що Dall-E 3 все ж таки навчалася на його роботах, то може звернутися до OpenAI і попросити заблокувати генерацію таких зображень.
Як користуватись Dall-E 3 В Bing Image Creator
Крок 1. Перейдіть на сторінку Bing Image Creator у будь-якому браузері. Інший спосіб: натисніть на іконку Bing Image Creator у сайдбарі Microsoft Edge.
Крок 2. Увійдіть до свого профілю Microsoft або зареєструйтеся, якщо у вас його немає.
Крок 3. Напишіть запит у полі та натисніть «Створити» або клацніть на кнопку «Здивуй мене» — у цьому випадку нейромережа сама напише промпт.
На день дається 25 «прискорень». Коли вони закінчаться, картинки генеруватимуться повільніше. Це обмеження потрібне, щоб знизити навантаження на сервери. Докупити прискорення не можна.
Крок 4. Збережіть зображення. За запитом згенеруються три чи чотири зображення — від чого залежить, неясно. Кожна картинка створюється у форматі 1024×1024 пікселів. Не можна змінювати співвідношення сторін або розрішення. Щоб зберегти, натисніть на результат, що сподобався, і виберіть «Завантажити».
Як користуватися Dall-E 3 У ChatGPT Plus
Крок 1. Перейдіть на сайт ChatGPT і зареєструйтесь, якщо у вас ще немає облікового запису. Для цього потрібно мати пошту і номер телефону.
Крок 2. Оформіть платну передплату ChatGPT Plus. У правому меню натисніть Upgrade to Pro, виберіть Upgrade Plan та сплатіть передплату міжнародною карткою. Передплата коштує 20 $ на місяць.
Крок 3. Створіть новий чат, зверху виберіть GPT-4, у вікні натисніть Dall-E 3 і напишіть запит. У чаті ви одночасно звертаєтеся до GPT-4 і Dall-E 3, тому якщо ви поставите спільне питання, то нейромережа відповість текстом. Щоб почалася генерація зображення, попросіть нейромережу намалювати, згенерувати чи придумати картинку.
GPT-4 доповнить ваш запит і на його основі напише чотири промпти, за якими Dall-E 3 згенерує картинки. Розширені запити можна подивитися, натиснувши на згенеровану картинку. Вони з’являються праворуч у полі «Підказка».
За замовчуванням нейромережа генерує чотири картинки розміром 1024× 1024 пікселів. У запиті можна вказати, щоб потрібні горизонтальні (1792 × 1024 пікселі) або вертикальні ( 1024 × 1792 пікселі) картинки.
Крок 4. Виберіть найкращий варіант, натисніть або просто наведіть курсор. Натисніть кнопку збереження.
Які результати виходять у Dall-E 3
Ми протестували Dall-E 3 у ChatGPT. І ось у чому вона гарна.
Творчі ідеї
Нейромережа чудово розуміє промпти, не пропускає слова у запиті та опрацьовує дрібні деталі. Завдяки цьому можна згенерувати практично будь-яку ідею. Вона намагатиметься зрозуміти ваш запит і переписати його так, щоб нічого не проґавити.
Dall-E 3 також чудово знає мем і поп-культуру, хоча через фільтри там не вдасться згенерувати популярних персонажів на кшталт Маріо або Чужого. При цьому фільтр іноді не спрацьовує – нам вдалося згенерувати логотип “Чітос”, хоча він також захищений авторським правом.
Текст
У Dall-E 3 виходять гарні комікси, графіки, схеми, чого складно досягти в інших нейромережах. Щоправда, текст у них найчастіше нескладний і із зайвими літерами чи символами. До того ж нейромережа генерує лише текст англійською.
При цьому, якщо вам потрібно згенерувати пару слів на логотипі, то вийде добре.
Як генерувати оптичні ілюзії за допомогою нейромережі Fusion Art AI
Стилі
Dall-E 3 генерує картинки у різних медіумах та форматах. Хоча імена художників використовувати не можна, нейромережа не завжди відмовляється генерувати за такими запитами: у промпті вона замінює ім’я артиста опис його стилю.
Іноді фільтр, що захищає від порушень авторського права, виходить оминути. Наприклад, якщо використати спотворене ім’я художника або попросити не переписувати запит, а точно слідувати йому.

Фотореалізм
Dall-E 3 поки не дуже добрий у генерації реалістичних фотографій. Лінії на знімках виходять занадто плавними – відразу видно, що вони згенеровані в нейромережі.
Stable Diffusion і Midjourney генерують фотореалізм набагато краще. Користувачам навіть вдавалося видавати згенеровані знімки за справжні.
Нейросітка AI Yearbook: як згенерувати шкільний фотоальбом у додатку Epik
Чим генерація в ChatGPT відрізняється від Bing Image Creator: поради
У чаті з GPT-4 ви можете подивитися, як нейромережа переписала ваш запит, натиснувши на картинці. Bing Image Creator цієї інформації не показує.
Користувачі Reddit знайшли велику інструкцію , якою слідує GPT-4, коли переписує ваш запит. У ній вказані обмеження та рекомендації, яким має слідувати нейромережа. По суті, вона діє як посередник між вами та Dall-E 3.
Ось як можна оптимізувати «посередництво» GPT-4 під час складання запиту.
Попросіть не надто сильно розширювати ваш запит
Нейромережа перетворює будь-який запит навіть із одного слова на дуже детальний параграф тексту, що складається щонайменше з трьох речень. Часто це корисно та зручно, але іноді GPT-4 дуже радикально модифікує запит, що призводить до незадовільних результатів. У такому разі попросіть GPT-4 створити короткий та лаконічний промпт.
Попросіть взагалі не модифікувати ваш запит
Якщо ви впевнені у своєму промпті, то відправте його Dall-E 3 таким, яким він є, без будь-яких змін. Одночасно можна надсилати чотири промпти англійською мовою.
Вказуйте медіум
Якщо ви не вкажете, що хочете отримати — фото, картину, кадр із фільму, ілюстрацію, то нейромережа згенерує абсолютно різні зображення. У результатах буде все поспіль: і фото, і малюнок, і ілюстрація. Якщо хочете отримати фотографії, то прямо прописуйте це, нейромережа згенерує чотири знімки.
Яка інструкція використовується у Bing Image Creator – невідомо. Вплинути на «посередництво» версії GPT з Bing не вдасться.
Що в результаті
- Dall-E 3 – відмінний аналог Midjourney та Stable Diffusion. На відміну від першої, вона доступна безкоштовно, а на відміну від другої не вимагає потужного комп’ютера та навичок програмування.
А ще нейромережа не потребує навичок промптингу. Запити можна писати природною мовою, не розписуючи деталі. Dall-E 3 додумає вас. - Dall-E 3 чудово розуміє запит та не упускає деталі. Завдяки цьому вона хороша у генерації креативних ідей. Вміє генерувати різні стилі, меми та текст, але у фотореалізмі поступається іншим нейромережам.
- Dall-E 3 має обмеження: не можна генерувати знаменитостей і картинки в стилі художників, які жили в останні сто років. Останнє обмеження можна оминути.