Блог сайта «Хайтек+»

ИИ-ассистент, генератор видео и новый Gemini: главные анонсы Google I/O

На конференции была продемонстрирована ранняя версия Project Astra, но конечная цель — создать мультимодального ИИ-ассистента, который будет выполнять роль помощника, наблюдать за обстановкой и мгновенно помогать с повседневными задачами и вопросами. Идея аналогична GPT-4o, которую накануне https://hightech.plus/2024/05/14/openai-vipustila-gpt-4o--bo... OpenAI. Но GPT-4o начнет внедряться уже в ближайшие недели для подписчиков ChatGPT Plus, а Google все еще работает над Project Astra и не сообщила, когда будет запущен ее полноценный ИИ-агент. Было сказано лишь о том, что некоторые функции этого проекта появятся в ассистенте Gemini уже в этом году.

В одном из демонстрационных видеороликов прототип агента Project Astra, работающий на смартфоне Pixel, смог идентифицировать объекты, описать их конкретные компоненты и понять код, написанный на доске. Он даже определял окрестности, глядя в видоискатель камеры, и показал признаки памяти, сообщив пользователю, где тот хранит свои очки. Во второй демонстрации Project Astra предложил улучшения для архитектуры системы, проецируя результаты поверх реального мира в режиме реального времени с помощью специальных очков.

В отличие от OpenAI, которая обучила GPT-4o по принципу сквозного обучения, используя для этого текст, изображения и звук, Google использует для Project Astra несколько отдельных моделей.

Подход OpenAI позволяет обрабатывать все входные и выходные данные, предоставляя ответы в среднем за 320 миллисекунд. Google пока не сообщает конкретных данных о времени отклика Astra, но предполагается, что задержка, если она есть, будет уменьшаться по мере дальнейшей разработки. Также остается неясным, будут ли агенты Project Astra обладать таким же эмоциональным диапазоном, как GPT-4o.

Astra — лишь один из многих анонсов Gemini на мероприятии I/O в этом году. Еще была https://www.theverge.com/2024/5/14/24155511/google-gemini-ai... новая модель под названием Gemini 1.5 Flash — столь же мощная, как и Gemini Pro, но намного быстрее. Она подойдет, например, для ответа клиентам в режиме реального времени. Контекстное окно для Gemini Pro теперь увеличено вдвое, до 2 млн токенов. Google также https://www.theverge.com/2024/5/14/24155310/google-gemini-ai... новейшую языковую модель Gemini 1.5 Pro в боковую панель Документов, Таблиц, Презентаций, Диска и Gmail. Например, агент сможет писать электронные письма на основе информации из документов пользователя. ИИ-помощник Gemini Nano будет https://www.theverge.com/e/23919423 в браузер Chrome, а также https://www.theverge.com/e/23919538 в основу новой функции защиты для Android, которая поможет пользователям распознать телефонное мошенничество. https://www.theverge.com/e/23920552 опция персонализации Gems, которая позволяет создавать собственные версии Gemini с разными характерами. Благодаря этому можно приспособить чат-боты под конкретные задачи. Функция Gemini Live https://www.theverge.com/e/23919584 двустороннюю голосовую беседу с чат-ботом, возможности интеллектуального помощника и машинного зрения.

В сервисах Google также появилось много функций. Google Lens теперь https://www.theverge.com/e/23919359 поиск не только по изображениям, но и по видео.

Еще одна новая опция https://www.theverge.com/2024/5/14/24156552/google-photos-as... использует Gemini для анализа изображений в библиотеке Google Фото и ответов на вопросы пользователя. Так, генеральный директор Сундар Пичаи спросил у приложения, какой у него номер авто. Ask Photos проанализировала его фото, нашла нужный номер и показала машину. Circle to Search на Android теперь может https://www.theverge.com/e/23919510 учащимся научиться решать словесные математические задачи благодаря новой модели Google LearnLM. Кроме того, Google https://www.theverge.com/e/23919362 ИИ практически во все этапы процесса поиска.

Google также представила ответ Sora от OpenAI. Модель под названием https://www.theverge.com/2024/5/14/24156255/google-veo-ai-ge... может генерировать видео с разрешением 1080p продолжительностью более минуты в самых разных визуальных и кинематографических стилях. Пользователи могут регулировать желаемый результат, используя текстовые, графические или видеоподсказки. Google утверждает, что полученные ролики «более последовательные и связные».

Также обновление https://venturebeat.com/ai/google-introduces-imagen-3-its-hi... модель для генерации изображений из текста — Imagen 3. Новинка обещает невероятную детализацию, улучшенное понимание естественного языка и более качественную отрисовку текста.

Google также https://www.theverge.com/e/23919968 свою технологию нанесения водяных знаков и обнаружения контента искусственного интеллекта SynthID. SynthID теперь может вставлять неслышимые водяные знаки в музыку, написанную искусственным интеллектом, в частности, моделью Lyria от DeepMind; и в контент, созданный с помощью нового видеогенератора Veo.

 

Читайте на 123ru.net