Блог сайта «Хайтек+»

В Google ответили на GPT-4o: новая Gemini разговаривает как человек

Ролик получился у Гугл небольшой и достаточно простой - камера фиксирует сцену подготовки к конференции Google I/O, а ИИ-помощник в смартфоне Pixel сообщает, что это похоже на подготовку крупного события. Когда на экране появился логотип конференции, модель поняла, что они относятся к Google I/O и предоставила краткое описание предстоящего мероприятия.

Видео впечатляет естественностью беседы между человеком и ИИ, что напоминает последнюю демонстрацию ChatGPT от OpenAI. Можно даже забыть, что за голосом, исходящим из устройства Pixel, нет настоящего человека — так естественно складывается разговор.

Без непосредственного тестирования этих двух моделей ИИ трудно сказать, какая из них работает лучше, но обе производят сильное впечатление. Эксперты https://www.tomsguide.com/ai/google-gemini/google-just-answe..., что последние демонстрации дают основания ожидать будущее искусственного интеллекта с восторгом и некоторой тревогой. Однако они призывают подождать внедрения новой Gemini от Google: компания ранее подвергалась критике за то, что в демонстрациях ее ИИ-продукты выглядели более впечатляющими, чем на самом деле.

Пользователям предстоит лично оценить изменения в Gemini, чтобы убедиться в их значимости, но если верить видео, битва ИИ только начинается. Предстоящее выступление разработчиков на Google I/O, как ожидается, раскроет планы развития Gemini и других ИИ-проектов компании.

Напомним, что OpenAI только что https://hightech.plus/2024/05/14/openai-vipustila-gpt-4o--bo... свою языковую модель, лежащую в основе чат-бота ChatGPT, до версии GPT-4o. Эта модель работает значительно быстрее предыдущей — время ответа сократилось с 2-3 секунд до 320 миллисекунд. Кроме того, GPT-4o обладает улучшенными возможностями работы с текстом, изображениями и звуком. Новая модель может служить голосовым помощником, внимательно наблюдая за окружающим миром и реагируя на него почти как ИИ-персонаж фильма «Она».

По сообщениям, GPT-4o может имитировать человеческие эмоции, смеяться над шутками и вести диалог очень естественно. Новая модель будет доступна бесплатно, хотя платные подписчики смогут отправлять запросы в пять раз чаще. Сам Альтман описал модель как «мультимодальную изначально», что означает её способность генерировать и понимать контент в различных форматах: текст, звук, изображения.

 

Читайте на 123ru.net