Компания Alibaba объявила о выпуске модели искусственного интеллекта Qwen-Image-2.0, предназначенной для генерации изображений. Разработчику удалось совершить прорыв: модель справляется с отрисовкой текста без ошибок, причём позволяет выбирать стиль; поддерживаются объёмом до тысячи токенов; на выходе это могут быть фотореалистичные изображения, картинки для презентаций, плакаты, комиксы и многое другое.

Итоги 2025-го: ИИ-лихорадка, рыночные войны, конец эпохи Windows 10 и ещё 12 главных событий года

Итоги 2025 года: почему память стала роскошью и что будет дальше

Обзор игрового 4K IPS-монитора Gigabyte M27UP: разнообразия ради

Обзор телевизора Sber SDX-43U4169

Обзор игрового QD-OLED WQHD-монитора Gigabyte AORUS FO27Q5P: на пределе возможностей

Обзор ноутбука TECNO MEGABOOK S14 (S14MM): OLED с HDR как новая норма

Созданию модели Qwen-Image-2.0 предшествовали два параллельных направления развития систем ИИ для работы с графикой. Первое направление — генерация изображений с максимальными точностью и детализацией, включая корректное отображение текста. Второе — редактирование изображений, где важны функциональность и согласованность, когда исходное изображение не искажается. Проект Qwen-Image-2.0 воплощает слияние этих двух направлений в единую универсальную модель, которая обладает преимуществами обеих веток. При этом она получила облегчённую архитектуру, меньший размер при более высокой скорости вывода.

В Alibaba перечислили основные преимущества Qwen-Image-2.0. Помимо точности, которую модель унаследовала от ветки редактирования изображений, это способность к созданию сложных композиций за счёт поддержки подробных запросов длиной до тысячи токенов. Ещё одно достоинство Qwen-Image-2.0 — эстетическое качество, которое, в частности, помогает модели гармонично размещать текст относительно изображений и подбирать для него нужное начертание. Примером реализма служит генерация изображения с текстом на глянцевой доске, в которой отражаются окружающие её предметы; а также гармоничное размещение объектов и текста на генерируемых кинопостерах. Наконец, организация композиции и выравнивание позволяют Qwen-Image-2.0 рисовать комиксы с информативными иллюстрациями и корректным текстовым сопровождением.

Компания Alibaba устроила слепое тестирование Qwen-Image-2.0 на платформе AI Arena. Разработчик сравнивал её возможности в генерации и редактировании изображений со способностями других моделей. В первом случае мощнее Qwen-Image-2.0 оказались только Google Gemini-3-Pro-Image-Preview и OpenAI GPT Image 1.5; во втором китайская модель уступила только флагманской Gemini.



Добавить комментарий