Генерация текста на изображении: сравнение Midjourney v6.1, FLUX 1.1 Pro Ultra и Recraft v3

Генерация текста на изображении: сравнение Midjourney v6.1, FLUX 1.1 Pro Ultra и Recraft v3
Irina Yanakova
Product Manager

Генерация текста на изображении: сравнение Midjourney v6.1, FLUX 1.1 Pro Ultra и Recraft v3

Генерация текста на изображениях остается одной из сложных задач для нейросетей, но востребованной среди дизайнеров, SMM-менеджеров и других специалистов, которые работают с визуальным контентом.

Хотя большинство популярных моделей пока генерируют текст только на английском языке, а качество результатов не всегда соответствует ожиданиям, разработчики постоянно совершенствуют эту функцию.

Давайте сравним, как справляются с этой задачей три ведущие нейросети для генерации изображений в 2025 году: Midjourney v6.1, FLUX 1.1 Pro Ultra и Recraft v3.

Обзор нейросетей для генерации изображений

Прежде чем перейти к практическому сравнению, рассмотрим ключевые особенности и преимущества каждой модели. Это поможет лучше понять их сильные стороны и специализацию.

Midjourney v6.1
Флагман в создании художественных изображений. Новая версия с высокой точностью генерирует текст, корректно отображает анатомию людей и животных, детально прорисовывает мелкие элементы.

FLUX 1.1 Pro Ultra
Модель создаёт детализированные изображения. Особенно хорошо понимает и следует сложным промптам, создаёт изображения максимально соответствующие описанию.

Recraft V3
Единственная модель, способная генерировать и точно размещать длинные текстовые блоки на изображении, а не только короткие фразы. По заявлению разработчиков, качество генерации превосходит показатели других крупных игроков рынка.

Генерация текста: Сравнение Midjourney v6.1, FLUX 1.1 Pro Ultra и Recraft v3

Каждая из представленных моделей имеет свои уникальные преимущества и особенности. Чтобы наглядно продемонстрировать возможности моделей в генерации текста на изображениях, проведем сравнение на двух тестовых запросах: простом и сложном.

Простой запрос

В качестве первого теста попробуем сгенерировать витрину магазина в стиле киберпанк с неоновой вывеской «GPTunneL». Это позволит оценить, как модели справляются с размещением короткого текста в контексте городского пейзажа.

Промпт: cyberpunk store front, large neon sign «GPTunneL», rain, night city, glowing lights --ar 16:9

Midjourney v6.1

Нейросеть Midjourney v6.1 создала атмосферные сцены в стиле киберпанк с неоновыми вывесками.

Интересно, что вместо витрины магазина, указанной в промпте (store front), все четыре варианта интерпретировали  «GPTunneL» буквально - как футуристические тоннели или проходы. В первой генерации текст написан с ошибкой, но в остальных трёх случаях название воспроизведено корректно.

Несмотря на отклонение от заданного концепта магазина, модель отлично справилась с передачей атмосферы ночного города: детально проработаны отражения на мокром асфальте, капли дождя, неоновое освещение и футуристические автомобили.

FLUX 1.1 Pro Ultra

Нейросеть FLUX 1.1 Pro Ultra сдала более точное воспаление концепты «магазин» - мы видим витрину с вывеской.

Текст «GPTunneL» корректно размещен и хорошо читается. Изображение передает атмосферу киберпанка через неоновые элементы и общую стилистику, хотя детализация и проработка эффектов (например, отражений и дождя) уступает Midjourney.

Recraft v3

Нейросеть Recraft v3 даже сгенерировала человека с зонтом, чтобы усилить атмосферу дождливого ночного города.

Текст «GPTunneL» отображен корректно. Хотя присутствуют базовые элементы киберпанк-эстетики (неоновые вывески, отражения на мокром асфальте), общее качество изображения и детализация значительно уступают другим моделям.

Сложный запрос

Для второго теста усложним задачу: попробуем сгенерировать космическую сцену с интеграцией двух текстовых блоков разного размера. Это позволит оценить, как модели справляются с размещением текста разного масштаба и его художественной интеграцией в композицию.

Промпт: Small astronaut in space, huge bold text «GPTunneL» integrated with scene, smaller text below «your tunnel to artificial intelligence», dark dramatic background --ar 16:9

Midjourney v6.1

Космическая сцена в исполнении нейросети Midjourney v6.1

Модель создала четыре варианта космической сцены с астронавтом. Каждое изображение отличается высоким качеством исполнения, драматичным освещением и детальной проработкой скафандров и космического окружения.

Однако ни в одной из генераций текст не воспроизведен на 100% корректно - везде присутствуют ошибки: либо в «GPTunneL», либо в подзаголовке «your tunnel to artificial intelligence». Это указывает на то, что даже в новой версии у Midjourney остаются сложности с точным воспроизведением заданного текста.

FLUX 1.1 Pro Ultra

Нейросеть FLUX 1.1 Pro Ultra сделала профессиональное изображение в стиле рекламного баннера с безупречным воспроизведением текста.

Логотип «GPTunneL» выполнен в бело-голубой гамме и эффектно контрастирует с темным космическим фоном. Подзаголовок «your tunnel to artificial intelligence» корректно размещен под основным текстом и оформлен в том же стилистическом решении.

Фигура астронавта на лунной поверхности создает правильный масштаб и глубину композиции. Звездное небо и общая цветовая гамма формируют драматичную космическую атмосферу.

Изображение выглядит как профессиональный рекламный материал, где все элементы гармонично сочетаются между собой.

Recraft v3

Нейросеть Recraft v3 создала лаконичное и профессиональное изображение в стиле рекламного баннера.

Оба текстовых блока воспроизведены абсолютно точно: основной текст «GPTunneL» выполнен крупным шрифтом, а подзаголовок «your tunnel to artificial intelligence» четко читается под ним. Модель превосходно справилась с основной задачей — точным воспроизведением текста в заданном контексте.

Композиционно изображение хорошо сбалансировано: астронавт на лунной поверхности гармонично дополняет текстовую часть, а темный космический фон с легким бирюзовым свечением создает нужную атмосферу.

Сравнительный анализ результатов

Тестирование трех моделей показало, что каждая из них имеет свои сильные и слабые стороны. Результаты сравнения приведены в таблице.

Сравнительная таблица, созданная на основе статьи нейросеть Claude 3.5 Sonnet

Наше сравнительное тестирование показало, что современные нейросети демонстрируют разный уровень способностей в работе с текстом на изображениях. Хотя Midjourney v6.1 лидирует в качестве визуализации, она всё ещё допускает ошибки в написании текста. Нейросети FLUX 1.1 Pro Ultra и Recraft v3 показывают стабильные результаты именно в точности воспроизведения текста.

Особенности работы с русскоязычными запросами

Важно отметить, что все рассматриваемые нейросети в GPTunneL имеют встроенную систему автоматического перевода запросов с русского на английский язык.

Это означает, что при вводе промпта на русском языке он автоматически переводится на английский перед обработкой. Такой подход позволяет русскоязычным пользователям работать с этими системами, не владея английским языком.

Для получения наилучших результатов рекомендуется составлять промпты сразу на английском языке, особенно когда требуется точное воспроизведение текста на изображении.

Заключительные  рекомендации

Важно помнить, что результат генерации сильно зависит от правильно составленного промпта. Один и тот же запрос может дать совершенно разные результаты не только у разных моделей, но и в рамках одной модели при разных подходах к формулировке задачи.

Поэтому для достижения оптимального результата рекомендуется:

  • Экспериментировать с формулировками запроса;
  • Тестировать разные модели под конкретную задачу;
  • Изучать специфику работы каждой модели;
  • Собирать успешные примеры промптов для повторного использования.

Все модели доступны на платформе GPTunneL, где вы можете протестировать их работу и выбрать оптимальный вариант для своих задач.

Попробовать в GPTunneL