
Сегодня Google выпустила экспериментальную модель «Gemini 2.0 Flash Thinking», которая «явно демонстрирует свои мысли» для решения сложных задач.
Как следует из названия, она построена на базе «скорости и производительности 2.0 Flash». Google утверждает, что она «обучена думать вслух», что «приводит к лучшей производительности в рассуждениях».
В конкуренции с OpenAI o1, Google продемонстрировала несколько примеров работы в области физики и теории вероятностей:
Want to see Gemini 2.0 Flash Thinking in action? Check out this demo where the model solves a physics problem and explains its reasoning. pic.twitter.com/Nl0hYj7ZFS
— Jeff Dean (@JeffDean) December 19, 2024
It’s still an early version, but check out how the model handles a challenging puzzle involving both visual and textual clues: (2/3) pic.twitter.com/JltHeK7Fo7
— Logan Kilpatrick (@OfficialLoganK) December 19, 2024
Curious how it works? Check out this demo where the model solves a tricky probability problem. pic.twitter.com/F3kJv4R9Gy
— Noam Shazeer (@NoamShazeer) December 19, 2024
Gemini 2.0 Flash Thinking доступна в Google AI Studio (прямая ссылка) и Vertex AI. Вы можете нажать «Expand to view model thoughts» («Развернуть, чтобы просмотреть мысли модели») и увидеть процесс рассуждения в реальном времени перед получением окончательного ответа. Это «лишь первый шаг на пути [Google] к рассуждениям».
Она дебютировала на «1-м месте во ВСЕХ категориях» в рейтинге LLM Chatbot Arena. Буквально вчера Google выпустила 2.0 Experimental Advanced в приложении Gemini, а Gemini-Exp-1206 также заняла первое место в рейтинге.
Скачок от Gemini-2.0-Flash:
- Общее: №3 → №1
- Общее (Контроль стиля): №4 → №1
- Математика: №2 → №1
- Креативное письмо: №2 → №1
- Сложные запросы: №1 → №1 (+14 очков)
- Визуальное восприятие: №1 → №1 (+16 очков)
Еще предстоит увидеть, как это будет в конечном итоге запущено для конечных пользователей. Эти возможности рассуждений, предположительно, будут интегрированы в основную модель в дальнейшем, а позиционирование Google как части семейства Gemini 2.0 является хорошим индикатором этого. В настоящее время у нас уже есть модель для конкретных задач — «1.5 Pro с глубокими исследованиями».
Обновляется…