Gemini 2.5 Deep Think завоевал золото в соревновательном программировании — «прорыв» в решении абстрактных задач

После победы в области математики в июле, Gemini 2.5 Deep Think теперь продемонстрировал производительность уровня золотой медали в соревновательном программировании.

Международный конкурс по программированию для студентов (ICPC) — это «самое старое, крупнейшее и самое престижное соревнование по алгоритмическому программированию на уровне колледжей», которое, как отмечает Google, является «шагом вперед в образовательном уровне» по сравнению с Международной математической олимпиадой для школьников. Студенты из почти 3000 университетов в 103 странах стремятся попасть в финальный раунд.

Участники мирового финала имеют пять часов, чтобы решить 12 реальных задач по программированию. Рейтинг основан на времени (в минутах), необходимом для решения, при этом очки начисляются только за идеальные решения.

Четыре команды (из 139) получили золотые медали в этом году. «Продвинутая версия» Gemini 2.5 Deep Think — соревнуясь «в реальном времени в удаленной онлайн-среде по правилам ICPC под руководством организаторов конкурса» — решила 10 из 12 задач за 677 минут. Это включало выполнение кода и «использование широкого спектра передовых структур данных и алгоритмов».

Реклама — прокрутите дальше, чтобы увидеть контент

  • «Gemini решил восемь задач всего за 45 минут и еще две задачи за три часа»
  • «…Gemini 2.5 Deep Think занял бы 2-е место в общем зачете, если сравнивать с человеческими командами в соревновании».

Google особо отмечает, как Gemini решил задачу (C), которую «не решила ни одна другая человеческая команда в конкурсе».

Задача C требовала найти решение для распределения жидкости по сети взаимосвязанных каналов к набору резервуаров с целью поиска конфигурации этих каналов, которая максимально быстро заполняет все резервуары. Существует бесконечное количество возможных конфигураций, поскольку каждый канал может быть открыт, закрыт или даже частично открыт, что затрудняет поиск оптимального.

Gemini смог найти эффективное решение благодаря хитрому инсайту: сначала он предположил, что каждый резервуар имеет «приоритетное значение», отражающее, насколько каждый резервуар должен быть предпочтительным по сравнению с другими. Затем, при заданном наборе приоритетных значений, лучшая конфигурация каналов может быть найдена с использованием алгоритма динамического программирования. Gemini далее применил теорему о минимаксе и обнаружил, что исходную задачу можно решить, найдя приоритетные значения, которые делают результирующий поток наиболее ограниченным. Используя взаимосвязь между приоритетными значениями и оптимальными потоками, Gemini применил вложенный тройной поиск для быстрого нахождения оптимальных приоритетных значений в выпуклом пространстве решений, похожем на чашу, и решил Задачу C.

В конечном итоге Google приписывает «серию прорывов» в предварительном обучении, пост-обучении, новых методах обучения с подкреплением, многоэтапном рассуждении и параллельном мышлении, которые позволили Gemini «изучать различные способы решения сложных задач, проверять решения и постоянно итерировать перед ответом».

Например, в ходе обучения с подкреплением мы обучили Gemini рассуждать и генерировать код для решения некоторых из самых сложных задач, с которыми сталкивались программисты, чтобы учиться на обратной связи о результатах и развивать свои подходы. Чтобы решить задачу, несколько агентов Gemini каждый предлагают свои собственные решения, используя терминалы для выполнения кода и тестов, а затем улучшают решения на основе всех попыток.

«Легкая версия» Deep Think, доступная в приложении Gemini сегодня (249,99 долларов США в месяц), остается без изменений. В конечном счете, Google заявляет: «Эти прорывы в соревновательном программировании и математических рассуждениях демонстрируют глубокий скачок Gemini в решении абстрактных задач — значительный шаг на нашем пути к общему искусственному интеллекту (AGI)».

Решение сложных задач на этих соревнованиях требует глубоких абстрактных рассуждений, креативности, способности синтезировать новые решения для ранее невиданных проблем и подлинной искры изобретательности.