Чего вы хотите от большего количества ИИ в приложениях Google?

«Если бы я спросил людей, чего они хотят, они бы сказали, что хотят более быстрых лошадей». Этот настрой, а также производные, такие как «люди не знают, чего хотят, пока вы им это не покажете», затрудняют прогнозирование будущего технологий, поскольку требуется одно новшество, чтобы полностью изменить парадигму. Особенно это касается грядущей волны функций ИИ для новых и существующих приложений Google.

Недоразумение

Google не была застигнута врасплох грядущим. Компания публично говорила о понимании естественного языка (NLU) и больших языковых моделях (LLM) на двух последних конференциях для разработчиков I/O, своем крупнейшем ежегодном мероприятии. В 2021 году была Language Model for Dialog Applications с демонстрацией разговора с Плутоном, а в прошлом году — LaMDA 2 с возможностью демонстрации через приложение AI Test Kitchen.

Существует также многозадачная унифицированная модель (MUM), которая однажды сможет ответить на вопрос «Я прошел пешком гору Адамс и теперь хочу пройти гору Фудзи следующей осенью, что я должен сделать по-другому для подготовки?», и будущая возможность сфотографировать сломанную деталь велосипеда в Google Lens и получить инструкции по ее ремонту.

Помимо детального описания своей технологии, Сундар Пичаи более показательно сказал: «возможности естественного диалога имеют потенциал сделать информацию и вычисления радикально более доступными и простыми в использовании». Конкретно были названы Поиск, Ассистент и Workspace как продукты, в которые Google надеется «[включить] лучшие диалоговые функции».

Реклама — прокрутите дальше, чтобы увидеть больше контента

Однако, как показывают недавние дискуссии, этого было недостаточно, чтобы люди запомнили. Вместо этого Google виноват в том, что не предоставил более конкретных примеров, которые привлекли бы внимание общественности к тому, как эти новые функции ИИ принесут пользу продуктам, которыми они пользуются каждый день.

С другой стороны, даже если бы более конкретные примеры были предоставлены в мае 2022 года, они были бы быстро заглушены запуском ChatGPT позже в том же году. Демонстрация/продукт OpenAI доступен для использования (и оплаты) сегодня, и нет ничего более материального, чем опыт. Это вызвало множество дискуссий о том, как прямые ответы могут повлиять на рекламную бизнес-модель Google, поскольку считается, что пользователи больше не будут нуждаться в кликах по ссылкам, если они уже получили ответ в виде сгенерированного и обобщенного предложения.

Google был застигнут врасплох скоростью, с которой конкуренты интегрировали эти новые достижения ИИ в существующие приложения. Учитывая «красный код», очевидно, что компания не думала, что ей придется выпускать что-то, кроме демонстраций, так скоро. Проблемы безопасности и точности — это то, на чем Google явно настаивал в своих текущих предварительных версиях, и руководители очень быстро указывают на то, что то, что сегодня на рынке, «может выдумывать», что нанесло бы репутационный ущерб, если бы это когда-либо было запущено на чем-то масштаба Google Поиска.

Что грядет

Объявляя об увольнениях, утечка из New York Times появилась в тот же день , описывающая более 20 продуктов ИИ, которые Google планировал показать в этом году, начиная с I/O 2023 в мае.

Эти анонсы, предположительно возглавляемые «поисковой системой с функциями чат-бота», кажутся очень направленными на то, чтобы потягаться с OpenAI. Особо показательным является «Image Generation Studio», которая, похоже, является конкурентом DALL-E, Stable Diffusion и Midjourney, а создатель обоев Pixel, возможно, является ее частью. Конечно, Google столкнется с ответной реакцией художников, которую вызвали генеративные ИИ-изображения.

Помимо Поиска (об этом позже), ничто из просочившегося не меняет радикально способ взаимодействия обычного пользователя с продуктами Google. Конечно, Google никогда не придерживался такого подхода: он заключался в наполнении существующих продуктов — или даже просто их частей — небольшими удобствами по мере доступности технологии.

Есть Smart Reply в Gmail, Google Chat и Messages, а Smart Compose в Docs и Gmail не совсем пишут электронное письмо за вас, но предложения автозаполнения действительно полезны.

На Pixel есть Call Screen, Hold for Me, Direct My Call и Clear Calling, где ИИ используется для улучшения основных исходных сценариев использования телефона, в то время как распознавание речи на устройстве делает возможным отличный Recorder и более быстрый Ассистент. Конечно, есть также вычислительная фотография, а теперь и Magic Eraser.

Это не значит, что Google не использовал ИИ для создания совершенно новых приложений и сервисов. Google Assistant является результатом достижений в области понимания естественного языка, а компьютерное зрение, которое делает возможным поиск и категоризацию в Google Photos, — это то, что мы принимаем как должное спустя более семи лет.

Совсем недавно появился Google Lens для визуального поиска путем фотографирования и добавления к нему вопросов, а Live View в Google Maps предоставляет AR-навигацию.

А теперь Поиск и ИИ

После ChatGPT люди представляют себе поисковую систему, где на ваши вопросы напрямую отвечает предложение, полностью сгенерированное для вас/этого запроса, по сравнению с получением ссылок или отображением «избранного фрагмента», цитирующего соответствующий веб-сайт, который может содержать ответ.

Глядя на индустрию, мне кажется, что я в меньшинстве в моем недостатке энтузиазма по поводу диалоговых интерфейсов и прямых ответов.

Лучший комментарий от Darren


Понравилось 21 человеку

Они должны добавить ИИ в Gmail для получения уведомлений о бронировании авиабилетов/пакетов/отелей или чего-то подобного.

Затем они могли бы добавить вкладку слева от домашнего экрана Android, которая показывала бы все ваши предстоящие события. Например, где находятся ваши посылки, показывать ваш посадочный талон на рейс и сообщать, если он задерживается, показывать погоду для вашего предстоящего бронирования отеля и т. д. Вы могли бы активно получать уведомления о важных вещах, происходящих в вашей жизни. Все это в одном удобном месте.

Они могли бы даже придумать название для этого продукта. Может быть, что-то, что показывает, как вы живете в настоящем, а не в будущем или прошлом. Может быть… Google Now?

Посмотреть все комментарии

Я предвижу одну проблему с этим опытом: не всегда (или даже часто) желание читать полное предложение для получения ответа, особенно если его можно найти, прочитав всего одну строку в панели знаний; будь то дата, время или другой простой факт.

Тем временем потребуется время, чтобы доверять генеративным и суммирующим возможностям поиска через чат-ботов от любой компании. По крайней мере, избранные фрагменты позволяют мне немедленно увидеть и решить, доверяю ли я публикации/источнику, который производит цитату.

Во многих отношениях это прямое предложение — то, чего ждали голосовые помощники, когда Google Assistant сегодня обращается к фактам (даты, адреса и т. д.), которые он уже знает (Панели знаний/Граф), а в противном случае — к избранным фрагментам. Когда вы взаимодействуете голосом, безопасно предположить, что вы не можете легко смотреть на экран и хотите немедленного ответа.

Я осознаю, что история технологий изобилует итеративными обновлениями, которые быстро сменяются новыми, прорывными инновациями, но мне не кажется, что технология еще готова. Я вспоминаю ранние дни голосовых помощников, которые явно пытались имитировать людей в коробке. Эта грядущая волна ИИ имеет оттенки приближения к тому, чтобы человек отвечал на ваш вопрос или выполнял для вас задачу, но как долго длится эта новизна?