Google выпустила мультимодальную ИИ-модель Gemma 4 12B, которая запустится прямо на ноутбуке

Компания Google представила мультимодальную модель искусственного интеллекта Gemma 4 12B с расширенными возможностями логического мышления, способную эффективно работать на ноутбуках с 16 Гбайт оперативной или унифицированной памяти.

Обзор Apple MacBook Neo: удивительно хороший ноутбук с процессором от iPhone

Обзор Intel Core Ultra 5 250K Plus, или Как Arrow Lake превратился в «топ за свои деньги»

Компьютер месяца — май 2026 года

Линия защиты: обзор виртуальных машин и песочниц для Android

72 полёта над Марсом: как Ingenuity пережил зиму, сбои и собственную миссию

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

Обзор Intel Core Ultra 7 270K Plus — лучший Arrow Lake за полцены

От Ryzen 7 1800X до Ryzen 7 9850X3D: девять лет эволюции AMD в одном тесте

Как сообщается в блоге компании, модель позиционируется как промежуточное звено между облегчённой версией E4B и более продвинутой моделью 26B, базирующейся на архитектуре Mixture of Experts (MoE, «смесь экспертов»). Ключевой особенностью архитектуры стал отказ от раздельных модулей трансляции изображений и звука перед их передачей для обработки в ИИ-модель.

Вместо традиционного визуального энкодера теперь используется компактный модуль встраивания на основе матричного умножения и нормализации, что позволяет архитектуре LLM взять на себя обработку визуальных данных, уменьшив нагрузку на вычислительные ресурсы. Что касается звука, то этот процесс был дополнительно упрощён путём полного удаления аудиоэнкодера и проецирования необработанного сигнала в единое пространство с текстовыми токенами.

Подчёркивается, что новая система демонстрирует производительность на уровне более крупной версии 26B, потребляя при этом меньше системных ресурсов, что позволяет решать многоэтапные логические задачи и поддерживать комплексные сценарии работы ИИ-агентов. Дополнительное снижение задержек при генерации ответов обеспечивается интеграцией механизмов Multi-Token Prediction (MTP).

Алгоритм распространяется по открытой лицензии Apache 2.0 и полностью совместим с существующей экосистемой разработчиков, которые уже скачали предыдущие итерации платформы Gemma 4 более 150 миллионов раз. Оценить автономную обработку аудиоданных можно на примере программы Google AI Edge Eloquent, способной транскрибировать, форматировать и переводить голосовые команды без подключения к сети.