Google начала внедрять Gemini 3.1 Flash Live — новую ИИ-модель для диалогов в реальном времени. По заявлению компании, система генерирует речь быстрее и с более естественной ритмикой, лучше справляется со сложными голосовыми сценариями и уже доступна как в сервисах Google, так и в инструментах для разработчиков. Это ещё сильнее затруднит распознавание синтезированной речи на слух.

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Гид по выбору OLED-монитора в 2026 году: эволюция в деталях

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Ryzen и 16 Гбайт DDR5: как сэкономить на памяти так, чтобы не лишиться 15 % производительности

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Обзор Apple MacBook Neo: удивительно хороший ноутбук с процессором от iPhone

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Обзор Ryzen 7 9850X3D: три процента за двадцать баксов

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Обзор ноутбука HONOR MagicBook X16 2026: как раньше, только лучше

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Компьютер месяца, спецвыпуск: эпоха отката, или Как дефицит чипов памяти влияет на выбор железа для игрового ПК

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Обзор Samsung Galaxy Z TriFold: тройной складной смартфон по цене квартиры в Воркуте

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Новая модель предназначена для снижения задержки и повышения естественности синтезированной речи. Высокая задержка между входящим сигналом и ответом, а также неестественная интонация делают диалог медленным и трудным для восприятия человеком. Исследователи обычно считают пределом оптимального восприятия речи около 300 миллисекунд, однако конкретную задержку Gemini 3.1 Flash Live Google не раскрыла.

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Вместо этого компания ссылается на результаты тестов. Улучшение в ComplexFuncBench Audio указывает на более уверенную работу со сложными многошаговыми задачами. В Big Bench Audio ИИ-модель также занимает лидирующие позиции. Этот тест оценивает способность к рассуждению на наборе из 1 000 аудиовопросов.

Отдельно отмечен результат в тесте Audio MultiChallenge компании Scale AI, где оценивается устойчивость ИИ к паузам, колебаниям и перебиваниям во входящем аудиопотоке. Несмотря на то что Gemini 3.1 Flash Live опережает другие ИИ-модели для обработки аудио в реальном времени, она набрала в этом тесте лишь 36,1 %. ИИ-модели, не предназначенные для работы в режиме диалога, могут набирать в тесте MultiChallenge более 50 %.

Gemini 3.1 Flash Live, по оценке Google, звучит ближе к человеческой речи, поэтому в выходной аудиосигнал встроены водяные знаки SynthID. Они не воспринимаются на слух, но позволяют технически определить, что речь сгенерирована ИИ, если её попытаются выдать за настоящую.

Новинка тестировалась совместно с Home Depot, Verizon и другими компаниями. В публикации Google партнёры положительно оценивают способность Gemini 3.1 Flash Live имитировать человеческую речь, поэтому следующий ИИ-помощник в телефонном звонке может звучать значительно реалистичнее, и собеседник вполне может принять его за человека. Gemini 3.1 Flash Live показывает, что по мере роста скорости, плавности и естественности синтезированной речи различать человека и ИИ в голосовом общении станет всё труднее.