Корай Кавукчуоглу: «Вот как мы собираемся создать AGI» [Google для разработчиков]

1. Вступление и первые впечатления

Логан:
Привет всем, добро пожаловать обратно в рубрику «Примечания к выпуску». Меня зовут Логан Килпатрик, я работаю в команде DeepMind. Сегодня для меня большая честь быть вместе с Кораем Кавукчуглу — техническим директором DeepMind и новым главным архитектором ИИ в Google.

Корай, спасибо, что присоединились. Мне очень интересно пообщаться с вами.

Корай:
И мне тоже. Да, я действительно в восторге. Спасибо за приглашение.

Логан:
Конечно.

Gemini 3 — мы здесь, запуск состоялся. Реакция, похоже, исключительно положительная. То есть, конечно, у нас были предположения относительно того, насколько хорошей окажется модель. Результаты на рейтинговых таблицах выглядели потрясающе, но истинную проверку всегда проходит именно размещение модели в руках пользователей и её практическое внедрение — вот это и есть настоящий экзамен, верно?

Мы, безусловно, проводили бенчмаркинг — это первый шаг, — затем тестирование с доверенными тестировщиками, с предварительными версиями и всё в таком духе. В итоге возникает ощущение: да, это хорошая модель. Она мощная. Она не идеальна — это очевидно. Но я действительно доволен реакцией: людям модель нравится, и те аспекты, которые показались нам интересными, оказались интересными и для них. Пока всё складывается удачно.

Корай:
Это… это здорово. Да.

Логан:
Вчера мы как раз обсуждали момент благодарности — ценим это мгновение — и осознавали, что прогресс не замедляется, что лично для меня резонирует.

Когда я вспоминаю наше предыдущее общение с вами, мы тогда находились на I/O во время запуска 2.5, слушали выступления Денниса и Сергея о ИИ и прочем. Мне кажется, темп прогресса с тех пор даже не сбавился — это действительно примечательно.

Когда мы выпускали 2.5, модель ощущалась как передовая — казалось, мы действительно продвинулись на целый ряд измерений. И теперь Gemini 3.0 вызывает такое же ощущение.

Да. И мне интересно: каково ваше текущее ощущение относительно дискуссии о масштабировании — может ли оно продолжаться?

2. О динамике исследований и бенчмарках

Корай:
Да. Послушайте — я действительно в восторге от достигнутого прогресса. Я в восторге от исследований.

Когда вы находитесь непосредственно в исследовательской среде, возбуждение охватывает буквально все области — от данных и предобучения до постобучения. Повсюду идут волнующие процессы, наблюдается прогресс, появляются новые идеи.

В конечном счёте, всё это работает на инновациях — на идеях. Чем больше вы создаёте что-то значимое, реально применяемое и востребованное людьми, тем больше идей вы получаете, потому что возрастает ваша поверхность взаимодействия, расширяется спектр получаемых сигналов.

И я считаю, что задачи станут сложнее, разнообразнее — и вместе с этим перед нами возникнут новые вызовы. Такие вызовы — это хорошо. Да.

И именно это будет стимулом и в стремлении к созданию интеллекта. Потому что именно так всё и произойдёт.

Логан:
Да.

Корай:
Иногда, если смотреть лишь на один-два бенчмарка, вы можете заметить «сжатие» — но это нормально: ведь бенчмарк определяется в тот момент, когда задача представляется сложной. Как только технология развивается, этот бенчмарк уже не находится на переднем крае, не определяет границу возможного.

И тогда появляется новый бенчмарк. В машинном обучении это совершенно обычная практика: бенчмарки и разработка моделей всегда идут рука об руку.

Бенчмарки нужны, чтобы направлять разработку моделей, но понять, где находится следующий рубеж, можно только приблизившись к нему достаточно близко — тогда и появляется возможность определить новый бенчмарк.

Логан:
Да, и я тоже так чувствую. Было несколько бенчмарков — например, HLE — изначально все модели справлялись с ними ужасно, показывая 1–2 %, а сейчас самая новая модель с DeepThink достигает около 40 % — это безумие.

Да — R-GSM8K, например, изначально вообще не поддавался ни одной модели, а сейчас результат уже превышает 40 %. Так что это действительно интересно.

Ещё интересно наблюдать — хотя мне и неизвестен контекст, почему именно так — за теми бенчмарками, которые остаются неизменными и уже прошли проверку временем. Возможно, некоторые из них уже близки к насыщению, но, скажем, GPQA Diamond по-прежнему актуален, хотя мы добираемся лишь по 1 % за раз.

Там действительно есть очень сложные вопросы. И мы по-прежнему не в состоянии их решить.

Корай:
Да. Именно так. И они всё ещё проверяют определённые аспекты. Но если посмотреть на GPQA — дело не в том, что «вы находитесь на уровне 20 % и должны добраться до 90 %». Вы уже приближаетесь к пределу.

Количество задач, которые он определяет как нерешённые,, естественно, сокращается. Значит, приходит время искать новые рубежи, новые бенчмарки — и определение бенчмарков чрезвычайно важно.

Потому что, если вы рассматриваете бенчмарки как определение прогресса — это не всегда совпадает, верно? Прогресс и бенчмарки — это две разные вещи.

В идеале они совпадают на 100 % — но на практике такого не бывает.

Для меня главный критерий прогресса — это когда наши модели работают в реальном мире: их используют учёные, студенты, юристы, инженеры — и люди применяют их для решения самых разных задач: письма, творческое письмо, электронная переписка — как простых, так и сложных задач. Эта шкала важна. Разные темы, разные области.

Если вы можете постоянно повышать ценность в этих сферах — вот это и есть прогресс. А бенчмарки помогают его количественно оценить.

3. Где мы идём вверх по склону? Следование инструкциям, интернационализация, работа с инструментами

Логан:
Как вы подходите к вопросу — и, возможно, у вас есть конкретный пример, допустим, перехода от 2.5 к 3-й версии или любой другой смены версий — где именно мы «восходим по склону»?

И, вообще говоря — в мире, где существует бесчисленное количество бенчмарков, где вы, по сути, можете выбрать направление, в котором будете двигаться вверх по склону, — как вы думаете, в целом для Gemini, а может быть, и конкретно для Pro-версии: где мы должны стремиться к улучшению?

Корай:
Я думаю, есть несколько важных направлений.

Одно из них — следование инструкциям. Это важно: модель должна понимать запрос пользователя и уметь точно выполнять его. Вы не хотите, чтобы модель просто отвечала на то, что ей кажется правильным. Способность следовать инструкциям важна — и мы всегда над этим работаем.

Ещё один приоритет для нас — интернационализация. Google по своей природе международная компания, и мы стремимся охватить всех пользователей по всему миру. Эта часть тоже очень важна.

И я чувствую — нет, Pro-версия, по крайней мере, о которой мы говорим… Я сегодня утром разговаривал с Тулси, и она отметила, насколько поразительна модель в языках, в которых исторически у нас не было значительных успехов, — это потрясающе.

Поэтому нужно постоянно уделять внимание таким сферам. Они могут не выглядеть так, будто «находятся на переднем крае знаний», — но на самом деле они исключительно важны, ведь вы должны уметь взаимодействовать с пользователями.

Потому что, как я уже сказал, всё дело в получении сигнала от пользователей.

И, если перейти к чуть более техническим областям: вызовы функций, вызовы инструментов, агентные действия и код — всё это действительно важно.

Вызовы функций и инструментов важны, потому что это — совершенно иной множитель интеллекта.

С одной стороны, это возможность для модели естественным образом использовать все инструменты и функции, созданные нами самими, и применять их в собственных рассуждениях.

А с другой — это способность модели самой писать инструменты. Ведь, по сути, сами модели тоже являются инструментами. Так что это — большой шаг вперёд.

Очевидно, код важен не только потому, что все мы — программисты, но и потому, что с его помощью можно построить всё, что происходит на вашем ноутбуке.

А на ноутбуке происходит не только программирование — там реализуется всё, буквально всё.

Большая часть того, чем мы занимаемся сегодня, происходит в цифровом мире — а код является его основой, позволяя интегрироваться практически со всем, что происходит в вашей жизни. Не со всем, но со многим.

Вот почему эти две вещи вместе, на мой взгляд, обеспечивают огромный охват — и для пользователей тоже.

Я привожу пример no-code — мне это нравится — почему? Потому что многие люди творчески одарены и полны идей, а вдруг вы дарите им продуктивность.

Переход от творческого замысла к продуктивной реализации — когда вы просто записываете идею, и перед вами появляется работающее приложение, — и в большинстве случаев оно действительно работает, и когда работает — это замечательно. Да, здорово.

Этот цикл, по-моему, потрясающий. Внезапно вы позволяете гораздо большему числу людей стать создателями чего-то нового. Это здорово. Мне это нравится.

Логан:
Да. Спасибо — это отличная реклама AI Studio. Ценю это — мы вырежем эту часть и выложим в интернет.

4. Anti-Gravity и интеграция с продуктами

Логан:
Один из интересных моментов, которые вы затронули, — это значение продуктовой инфраструктуры для движения вверх по качеству — с точки зрения модели, разумеется: вызовы инструментов и код.

И кстати, в рамках запуска Gemini 3 мы также представили Google Anti-Gravity — новую платформу агентного программирования.

Насколько вы считаете важным наличие такой продуктовой основы, чтобы двигаться вверх по качеству — опять же, с точки зрения модели?

Корай:
Для меня это крайне важно.

И Anti-Gravity как продукт, безусловно, увлекательна — но с точки зрения модели ситуация двусторонняя.

Давайте сначала рассмотрим модельную перспективу: интеграция с конечными пользователями — в данном случае программистами — и прямое обучение у них, чтобы понять, где модели нужно улучшаться, критически важна для нас.

Это важно и для приложения Gemini — по той же причине: прямое понимание пользователей имеет огромное значение.

То же самое касается Anti-Gravity и AI Studio. Наличие таких продуктов, с которыми мы тесно взаимодействуем, и получение от них сигналов — это действительно масштабно.

Anti-Gravity стала очень важным партнёром по запуску. Они присоединились не так давно — но за последние две-три недели подготовки к запуску их обратная связь была исключительно ценной.

То же самое относится и к Search AI Mode — AI Overviews: оттуда мы получаем огромное количество отзывов.

Для меня главный драйвер — это именно интеграция с продуктами и получение пользовательских сигналов. Конечно, у нас есть бенчмарки — так что мы знаем, как продвигать STEM, науки, математику — этот тип интеллекта.

Но критически важно понимать реальные сценарии использования — потому что модель должна быть полезна в реальном мире.

5. Должность главного архитектора ИИ и совместное создание ИИ общего назначения с пользователями

Логан:
Как вы, будучи новым главным архитектором ИИ, отвечаете не только за создание хороших моделей, но и за то, чтобы продукты действительно внедряли эти модели и создавали выдающиеся пользовательские впечатления по всему Google?

Насколько — я, разумеется, считаю, что это правильно для пользователей — размещение Gemini 3 во всех продуктовых службах с первого дня — замечательное достижение Google, и, надеюсь, в будущем охват будет ещё шире — насколько дополнительной сложности добавляет это, с точки зрения DeepMind?

В каком-то смысле жизнь была проще полтора года назад.

Корай:
Верно. Но ведь мы строим интеллект, не так ли?

Многие спрашивают: «У вас две роли — у меня, по сути, два титула — но по сути это одно и то же».

Если мы собираемся создавать интеллект, мы должны делать это вместе с продуктами — через продукты, в контакте с пользователями.

В своей новой роли главного архитектора ИИ я стремлюсь обеспечить, чтобы продукты Google получали наилучшие доступные технологии.

Мы не создаём продукты — мы не являемся продуктовыми людьми. Мы — разработчики технологий: мы создаём технологии, разрабатываем модели.

И, конечно, как и у всех, у нас есть мнения — но самое главное для меня — сделать модели и технологии максимально доступными и затем работать с продуктовыми командами, помогая им строить лучшие продукты в мире ИИ.

Потому что это новый мир. Новая технология определяет многое из того, что ожидает пользователь, как должен вести себя продукт, какую информацию он должен передавать, и все новые возможности, которые открывает эта технология.

Поэтому для меня задача — дать этот толчок по всему Google, сотрудничая со всеми продуктами.

И я считаю это увлекательным — как с продуктовой точки зрения, так и с точки зрения получения ценности для пользователя — и также потому, что, как я уже говорил, это наш главный драйвер.

Для нас критически важно ощущать потребности пользователей, получать от них сигналы. Это жизненно необходимо.

Поэтому я и захотел этим заняться — именно так мы и будем строить ИИ общего назначения (AGI). Именно так мы будем создавать интеллект — вместе с продуктами. Я уверен, что именно так всё и произойдёт.

Логан:
Это отличная мысль для поста в Twitter — когда-нибудь стоит опубликовать, потому что это действительно интересно. Я полностью разделяю эту точку зрения: в каком-то смысле мы совместно создаём AGI с нашими клиентами, с другими коллегами.

Это не чисто исследовательская работа где-то в лаборатории — это совместное усилие в реальном мире.

И я думаю, это действительно проверенная и надёжная система — всё чаще мы принимаем инженерный подход, и это очень важно.

Важно иметь инженерное мышление, потому что когда что-то хорошо спроектировано, вы знаете: оно надёжно, безопасно в использовании.

Мы делаем что-то в реальном мире и адаптируем все проверенные, отработанные принципы проектирования.

И это отражается в том, как мы думаем о безопасности, о защите — верно?

Мы снова и снова возвращаемся к инженерному подходу: закладываем безопасность и защиту с самого начала, с фундамента — а не добавляем в конце.

Так что, когда мы разрабатываем модели с постобучением, делаем предобучение, анализируем данные — мы всегда держим это в голове: каждый должен об этом думать.

Есть ли у нас команда безопасности? Конечно, есть — и они привносят все соответствующие технологии. Есть команда кибербезопасности — они тоже вносят свой вклад.

Но ключевое — заставить всех в команде Gemini активно участвовать в этом процессе, рассматривать это как первый принцип.

И эти команды сами входят в состав наших групп постобучения. Верно?

Поэтому, когда мы разрабатываем модели, проводим итерации, готовим кандидатов на релиз — мы смотрим не только на GPQA, HLE и подобные бенчмарки, но и на показатели безопасности и защиты.

Этот инженерный подход, на мой взгляд, важен.

Логан:
Да — я полностью с вами согласен. И это ещё и естественно для Google, что тоже помогает — учитывая, насколько коллаборативен и масштабен процесс выпуска моделей Gemini.

С Gemini 3, например, мы только что обсуждали: для меня важно, что эта модель — результат работы всего Google.

Стоит взглянуть на данные: возможно, я один из немногих — некоторые программы NASA «Аполлон» насчитывали огромное число участников, но этот проект, похоже, стал грандиознейшим глобальным усилием Google с участием всех команд — это невероятно.

Каждый релиз Gemini объединяет людей с этого континента, из Европы, Азии — со всего мира. У нас команды по всему миру, и все они вносят вклад — и не только команды GDM, но и все остальные подразделения Google.

Корай:
Да. Это огромное совместное усилие — и мы синхронно запустили AI Mode, синхронно запустили приложение Gemini. Это непросто: они были с нами в процессе разработки.

Только так мы могли выйти на рынок все вместе в первый же день: модель готова — и мы так и сделали.

6. Размышления и пробелы: что дальше после Gemini 3?

Логан:
У меня, возможно, не самый спорный вопрос — но всё же:

Gemini 3 — мы лидеры во многих бенчмарках. Мы синхронно выпускаем модель на всех продуктовых поверхностях Google и партнёрских экосистемах. Реакция очень позитивная. «Настроение» модели хорошее.

Если мысленно перенестись вперёд — постучим по дереву — к следующему крупному релизу модели Google: есть ли у вас ощущение: «Мне бы хотелось, чтобы мы делали X, Y»?

Как можно улучшить модель по сравнению с текущей?

Или — может, стоит просто насладиться моментом с Gemini 3?

Корай:
Я думаю, нам нужно делать и то, и другое.

Нужно наслаждаться моментом — ведь однажды позволить себе это — это хорошо. Сегодня день запуска, люди ценят модель — и я хочу, чтобы команда тоже получила радость от этого момента.

Но в то же время — в каждой области мы видим пробелы, верно?

Идеальна ли модель в письме? Нет. Идеальна ли она в программировании? Нет, не идеальна.

Особенно в сфере агентных действий и программирования остаётся ещё огромный потенциал роста. Это одно из самых захватывающих направлений развития.

Нам нужно выявлять, где можно сделать больше — и мы это сделаем.

Мы прошли долгий путь. Эта модель, возможно, подходит 90–95 % людей, так или иначе взаимодействующих с кодом — будь то программисты или творческие люди, желающие что-то создать.

Да — я хотел бы думать, что для них это лучший доступный инструмент. Но, вероятно, есть случаи, где нам ещё предстоит улучшиться.

Логан:
У меня ещё один прямой вопрос — о программировании и работе с инструментами.

Как вы думаете — исторически сложилось так, что… Если посмотреть на историю Gemini: у 1.0 был явный мультимодальный фокус, с 2.0 мы начали строить агентную инфраструктуру —

Есть ли у вас ощущение причин почему — и я оговорюсь, что темп прогресса выглядит очень впечатляющим — почему у нас изначально не было лидерства в агентном использовании инструментов, в отличие от мультимодальности, где мы буквально лидируем с самого Gemini 1?

Корай:
Я не думаю, что это было намеренным выбором.

Если оглянуться назад, я связываю это с использованием моделей: среда разработки была недостаточно тесно интегрирована с реальным миром. Чем плотнее связь — тем лучше мы понимаем реальные требования.

И в нашем путешествии с Gemini мы начинали с точки, где, разумеется, у ИИ в Google богатая исследовательская история. У нас огромное количество выдающихся исследователей и потрясающее наследие в области ИИ — это замечательно.

Но Gemini — это также путь перехода от чисто исследовательской среды к тому, о чём мы говорили — инженерному мышлению, к пространству, где мы действительно тесно связаны с продуктами.

Когда я смотрю на команду — я должен признаться, я чувствую настоящую гордость. Потому что эта команда в основном состоит из людей — включая меня, — которые пять лет назад писали научные статьи. Мы занимались исследованиями ИИ.

А теперь мы находимся на переднем крае этой технологии — и разрабатываем её через продукты, вместе с пользователями.

Это совершенно иной склад мышления. Мы выпускаем модели каждые 6 месяцев и обновляем их каждый месяц или полтора. Это удивительный сдвиг.

И я думаю: мы прошли через этот переход.

7. Генеративные медиа и Nano Banana

Логан:
Прогресс Gemini 3 был потрясающим. Ещё одна актуальная тема — как мы думаем о моделях генеративных медиа, которые, по-моему, исторически не были в центре внимания (не то чтобы они не были интересны — но с V3, VO3.1, с моделью Nano Banana мы добились такого успеха с точки зрения внешнего продуктового внедрения).

Мне интересно: как вы относитесь к стремлению к AGI? Иногда я убеждаю себя, что видео-модель не входит в эту историю. Я не думаю, что это правда — ведь, по-хорошему, вы должны понимать мир, физику и всё остальное.

Так как же, по-вашему, всё это переплетается?

Корай:
Если вернуться на 10–15 лет назад, генеративные модели в основном работали с изображениями — ведь визуально гораздо легче оценить, что происходит, и, кроме того, понимание мира и физики было главным драйвером.

Некоторые из наших самых захватывающих работ с генеративными моделями датируются 10-летней давности — а 20 лет назад мы и вовсе занимались только изображениями.

Когда я писал диссертацию, все занимались генеративными моделями изображений — у нас даже были такие вещи, как PixelCNN.

Но затем произошло важное осознание: текст оказался более подходящей областью для быстрого прогресса.

И совершенно естественно, что сейчас модели изображений возвращаются.

В GDM у нас давно есть очень сильные модели изображений, видео, аудио. Слияние их — это естественный процесс.

Сейчас мы движемся туда, о чём всегда говорили: к мультимодальности входа и выхода — и это наше направление.

По мере развития технологий архитектуры и идеи в этих двух областях сближаются. Раньше они сильно отличались — но сейчас всё больше сходятся.

Мы не насилуем процесс. Технологии сходятся, потому что все понимают, где можно повысить эффективность, куда развиваются идеи — и появляется общий путь.

Nano Banana — один из первых примеров этого — разве нет? Там вы можете итеративно работать с изображениями, разговаривать с моделью — потому что текстовые модели обладают глубоким пониманием мира, а модель изображений — пониманием с другой точки зрения.

Когда вы объединяете их — получается нечто захватывающее. Люди ощущают: модель понимает ту тонкость, которую они хотят передать.

Логан:
У меня ещё один вопрос про Nano Banana: а не стоит ли давать забавные названия всем нашим моделям? Может, это поможет?

Корай:
Не думаю. Послушайте — мы ведь не делали это специально.

Gemini 3 — если бы мы не назвали её Gemini 3, как бы мы её назвали? Наверное, что-нибудь абсурдное.

Я плохо придумываю названия. Мне нравилось — это же было RiftRunner, не так ли? Мы даже использовали модель Gemini для генерации кодовых имён.

Nano Banana — одна из немногих, где этого не было — мы не использовали Gemini. Есть история — и, кажется, она где-то опубликована.

Пока всё органично и естественно — я доволен, потому что командам, создающим модели, важно иметь эту связь.

Когда мы выпустили её — так получилось, что мы тестировали модель под кодовым именем в LM Marina, и людям оно понравилось.

Не знаю — хотелось бы думать, что это было настолько органичным, что название прижилось. Не уверен, что это можно воспроизвести по заказу.

Логан:
Согласен. Если есть — используем. Если нет — стандартные имена тоже в порядке.

Нам стоит поговорить о Nano Banana Pro — нашей новой передовой модели генерации изображений на базе Gemini 3 Pro.

Даже когда они завершали Nano Banana, у них уже были ранние сигналы: если реализовать её в Pro-версии, можно получить гораздо большую производительность в сложных сценариях, например, рендеринг текста и понимание мира.

Что ещё приходит на ум?

Корай:
Я думаю, здесь проявляется синергия различных технологий.

Потому что в моделях Gemini мы всегда подчёркивали: каждая версия модели — это семейство моделей: Pro, Flash и т.д. — ведь при разных размерах приходится находить разные компромиссы между скоростью, точностью и стоимостью.

И с изображениями мы наблюдаем тот же опыт.

Поэтому естественно, что команды подумали: «Хорошо, есть архитектура 3.0 Pro — можем ли мы дополнительно настроить эту модель для генерации изображений, используя всё, чему научились в первой версии, и увеличив размер?»

В итоге получилась гораздо более мощная модель, способная понимать действительно сложные вещи.

Одни из самых захватывающих кейсов: у вас есть большой набор очень сложных документов — вы их загружаете, задаёте вопросы, просите сгенерировать инфографику — и это работает.

Вот где проявляется мультимодальность входа/выхода — и это здорово.

Логан:
Это похоже на магию. Надеюсь, к моменту выхода видео зрители уже увидят примеры — но внутри компании обмен примерами просто сумасшедший. Потрясающе.

Корай:
Да — согласен. Захватывающе, когда видишь: «Боже мой — да! Огромное количество текста, концепций, сложных вещей — и всё это объяснено на одной картинке, так хорошо».

Понимаешь: модель действительно способна на это — и в этом есть такая глубина, такой нюанс — это по-настоящему интересно.

8. Унифицированные контрольные точки и схождение архитектур

Логан:
У меня есть параллельный вопрос: вероятно, в декабре прошлого года — декабре 2024 — Тулси обещала, что у нас появятся унифицированные контрольные точки моделей Gemini.

И, похоже, сейчас мы подошли очень близко к этому — ведь исторически архитектура была унифицированной… в плане генерации изображений и —

Как вы думаете, является ли это целью — интегрировать эти возможности напрямую в модель? И что мешает этому случиться?

Корай:
Как я уже говорил — технологии и архитектуры сближаются. Так что мы наблюдаем это регулярно. Люди пробуют — но это гипотеза.

И в этом нельзя быть идеологически заангажированным. Научный метод — это научный метод: пробуем, выдвигаем гипотезу, смотрим на результаты. Иногда получается, иногда нет — так и происходит прогресс.

Мы приближаемся. Я почти уверен: в ближайшем будущем мы увидим объединение — и постепенно всё будет становиться всё ближе к единой модели.

Но для этого потребуется много инноваций. Это сложно.

Если задуматься — пространство выходов критически важно для моделей, ведь именно оттуда приходит обучающий сигнал.

Сейчас наш основной обучающий сигнал поступает из кода и текста — поэтому мы в них так сильны.

Но генерация изображений требует невероятно высокого качества — это трудно. Генерировать идеальные по пикселям и концептуально согласованные изображения непросто.

Я смотрю на это так: это определённо возможно. Это станет возможным. Просто нужно найти правильные инновации в модели, чтобы это реализовать.

Логан:
Мне это нравится. Я в восторге. Надеюсь, это также упростит нашу систему доставки — если у нас будет одна модель.

Корай:
Да — этого я не знаю. Невозможно сказать. Но я с вами согласен.

9. Эволюция и культура DeepMind

Логан:
Интересная мысль: сейчас, когда мы здесь сидим, у DeepMind есть одни из лучших в мире продуктов на базе ИИ: No-Code, AI Studio, приложение Gemini, Anti-Gravity — и это происходит по всему Google.

У нас отличная передовая модель — Gemini 3, Nano Banana, VIO — все эти модели находятся на переднем крае.

Мир 10–15 лет назад выглядел иначе.

Мне интересно: вы вчера упомянули (о чём я и другие не знали), что вы были первым исследователем глубокого обучения в DeepMind.

Проследив эту нить до сегодняшнего дня — невероятный скачок — от времени, когда технологии не вызывали энтузиазма… Сколько лет вы работаете в DeepMind?

Корай:
С 2012 года. 13 лет.

Логан:
13 лет назад технология никого не воодушевляла — а сейчас она буквально питает все эти продукты.

Когда вы оглядываетесь — что приходит на ум? Казалось ли вам, что это неизбежно — или это было неожиданностью?

Корай:
Ну, это — сценарий оптимистичного, положительного исхода, верно?

Когда я писал диссертацию — думаю, как и все — я верил, что моё дело важно или станет важным. Мне было интересно этой темой, я считал, что она произведёт большой эффект.

В таком настроении я и пришёл в DeepMind, когда со мной связались Демис и Шейн.

Тогда стартап, сфокусированный на глубоком обучении, выглядел чем-то неестественным. Это было прозрение — и прекрасное место для работы.

Я создал команду глубокого обучения — она разрослась. Мой подход всегда строился на менталитете решения задач, первых принципах, обучении — именно этим и была DeepMind.

Это был захватывающий путь — от наших истоков через RL, агентов, AlphaGo и т.д.

Я подхожу к таким вещам с надеждой на положительный исход — но при этом я понимаю: нам повезло.

Нам повезло жить в эту эпоху — потому что ИИ случился сейчас не только благодаря ML/DL, но и благодаря развитию аппаратного обеспечения, интернета, данных — всё сошлось.

Я чувствую себя счастливым, занимаясь ИИ и приближаясь к этому моменту.

Логан:
Да — согласен. Мне это очень нравится.

Чем, по-вашему, вещи отличаются сегодня по сравнению с прошлым — например, AlphaFold? Меня тогда не было, так что у меня только книги.

Что изменилось? Вы вскользь упомянули вне кадра: «Мы вроде бы поняли, как создавать эти модели и выводить их в мир».

Корай:
Речь о том, как организовывать работу — о культурных чертах превращения сложных научных задач в успешные результаты.

Мы многому научились на DQN, AlphaGo, AlphaZero, AlphaFold — как организовываться вокруг миссии как команда.

Помню, в ранней DeepMind мы работали над проектом группой из 25 человек — и публиковали статьи с 25 соавторами — и люди говорили: «Да не может быть, что 25 человек реально работали!» А я отвечал: Да, работали.

Это знание, этот менталитет — ключевы. Мы эволюционировали благодаря этому.

И за последние 2–3 года мы объединили это с инженерным мышлением: у нас есть основная линия моделей — и мы научились проводить эксперименты на этой линии.

Хороший пример: наши модели DeepThink, участвующие в олимпиадах IMO, ICPC.

Мы выбираем большие цели — IMO крайне сложна — и пытаемся использовать это как возможность развить то, что у нас есть, — не создавая что-то специальное, потому что верим в универсальность нашей технологии.

И затем — как только мы чего-то достигаем — мы делаем это доступным для всех. Каждый может использовать модель, участвовавшую в IMO.

Логан:
Проведу аналогию: 25 соавторов — сегодня это список соавторов Gemini 3 — 2500 человек. Люди говорят: «Не может быть, чтобы 2500 реально внесли вклад». Но внесли — и это поразительно.

Насколько масштабными стали эти задачи.

Корай:
Да — мы внесли. И важно это признавать — в этом одна из замечательных черт Google.

Здесь столько удивительных экспертов — и мы этим пользуемся. У Google комплексный подход: дата-центры, чипы, сети, масштаб — всё складывается.

Есть эксперты на каждом уровне — и координация тысяч людей, работающих вместе, — это прекрасно.

Но нужно это признавать. Это по-настоящему прекрасно.

10. Баланс между наукой и масштабированием — пример Gemini Diffusion

Логан:
Один интересный момент: возвращаясь к наследию DeepMind — научные изыскания против сегодняшнего дня, когда мы знаем, что технология работает во многих аспектах, и нам остаётся только масштабировать (конечно, с инновациями).

Как вы думаете, как DeepMind сегодня находит баланс между чистыми научными изысканиями и масштабированием Gemini?

Может, взять мой любимый пример: Gemini Diffusion — как воплощение этого решения.

Корай:
Это самый важный вопрос — найти этот баланс — действительно критично.

Даже сейчас люди спрашивают: «Каков главный риск для Gemini?»

Главный риск — исчерпание инноваций.

Я не считаю, что мы нашли рецепт и просто его реализуем. Если наша цель — построить интеллект с пользователями, с продуктами, но задачи по-прежнему очень сложны, если наша цель всё ещё труднодостижима — я не ощущаю, будто рецепт найден.

Это инновации позволят этого достичь — и они могут быть разного масштаба или в смежных направлениях.

Конечно, внутри проекта Gemini мы исследуем: новые архитектуры, новые идеи — мы должны это делать.

Но также критически важно, чтобы DeepMind и Google Research вели дополнительные изыскания — ведь некоторые направления могут быть слишком ограничивающими для проекта Gemini.

Поэтому лучшее — это когда и внутри Google DeepMind, и в Google Research мы исследуем самые разные идеи — и интегрируем их.

Потому что Gemini — это не архитектура. Gemini — это цель: интеллект.

Не имеет значения, какая конкретно архитектура используется. У нас есть текущая — и пути её эволюции.

Двигателем этого будет инновация. Она всегда будет двигательной силой.

Поэтому нахождение этого баланса, поиск возможностей для изучения в разных форматах — я считаю, чрезвычайно важно.

11. Культура, доверие и динамика команды

Логан:
На I/O я сел рядом с Сергеем — и заметил, что чувствую теплоту человечности, когда люди собираются вместе для запуска таких моделей.

Я имел в виду — сидя рядом с вами, слушая их — я чувствовал вашу теплоту. И это очень личное замечание — потому что, мне кажется, это отражает то, как работает DeepMind: у Демиса то же самое — глубокие научные корни, но при этом он просто приятный, дружелюбный, добрый человек.

В этом есть что-то интересное: насколько важна такая культура — и как она проявляется.

Как вы, помогая формировать и управлять этим, ощущаете её проявление?

Корай:
Прежде всего — спасибо, вы меня смущаете.

Но я верю в нашу команду. Я верю в доверие к людям, в предоставление возможностей. Командный аспект важен.

Я усвоил это, работая в DeepMind — начиная с малого, строя доверие — и сохраняя его по мере роста.

Важно создавать среду, где люди чувствуют: Нам по-настоящему важно решать сложные технические и научные задачи, имеющие реальное значение.

Это по-прежнему то, чем мы занимаемся. Построение интеллекта — высокотехнологичная, сложнейшая научная задача, к которой нужно подходить со смирением, постоянно ставя под сомнение себя.

Я надеюсь, команда это тоже чувствует. Поэтому я всегда говорю, что горжусь командой — они работают вместе поразительно слаженно.

Только что мы разговаривали наверху, на кухне — и я сказал: «Да, это утомительно. Да, это трудно. Да, мы все вымотаны».

Но это наша реальность. У нас нет идеальной структуры. Все собираются вместе, поддерживают друг друга.

Что делает это увлекательным — и позволяет решать по-настоящему сложные задачи — так это наличие правильной команды.

12. История аутсайдера и взгляд вперёд

Логан:
У меня остался один вопрос — мне интересно ваше размышление.

Для меня лично мой первый год и полгода в Google ощущались как история аутсайдера Google (несмотря на все инфраструктурные преимущества) — особенно в контексте AI Studio: у нас было 30 000 пользователей, нулевой доход, ранние модели Gemini.

А теперь — пингующиеся уведомления во время запуска — и люди наконец осознают: это происходит.

А как вы это чувствовали — ощущение аутсайдерства? И как это повлияет на команду, когда мы пройдём поворот?

Корай:
Да, я определённо это чувствовал — даже раньше.

Когда LLM показали свою мощь, я ощущал: мы — лаборатория передового ИИ, DeepMind — но при этом чувствовал: кое-что мы недоинвестировали.

Это был важный урок: нужно охватывать широкий спектр. Исследования важны — речь не о этой архитектуре против той.

Я открыто говорил команде: когда мы всерьёз занялись LLM — около 2,5 лет назад, начав программу Gemini — мы были далеко от передового края.

Мы не умели делать многое. Это была гонка за лидерами — долгая.

Сейчас я чувствую, что мы в группе лидеров. Мне нравится темп, ритм, динамика.

Но да — мы догоняли. Нужно быть честным с собой.

Нужно видеть, что делают другие, учиться у них — но создавать инновации самим. И именно это мы и сделали.

Хорошая история аутсайдера — мы создавали инновации сами, находили собственные решения — технологические, модельные, процессные, в управлении.

Это уникально для нас — мы движемся вместе со всем Google.

Некоторые говорят: «Google огромен — это сложно». Я вижу в этом преимущество — у нас есть уникальные возможности.

Я доволен нашим положением — но впереди ещё много работы.

Мы только начинаем. Наша цель — построить интеллект — и сделать это правильно — и для этого мы мобилизуем весь наш разум и все инновации.

Да — я чувствую, что ближайшие шесть месяцев будут столь же захватывающими, как и последние шесть — и те, что были до них.

Логан:
Спасибо, что нашли время посидеть и поговорить. Это было невероятно интересно.

Надеюсь, мы снова соберёмся до следующего I/O — хотя до него, кажется, ещё целая вечность, но оно подкрадётся незаметно. Уверен, уже на следующей неделе начнутся совещания по I/O 2026.

Ещё раз поздравляю вас и команду DeepMind — и всех в исследовательской группе моделей — с созданием Gemini 3, Nano Banana Pro и всего остального.

Корай:
Большое спасибо. Было замечательно пообщаться. Это удивительное путешествие — и рад, что прохожу его вместе со всей командой, а также делюсь им с вами. Спасибо, что пригласили.

Логан:
Мы приготовили небольшой особенный подарок — чтобы поздравить вас и команду.

Корай:
О, как мило. Большое спасибо. Очень символично: клуб 1500 очков. Первая модель, верно?
1501 — для первой модели. Очень трогательно. Большое спасибо.

(Музыка постепенно затихает.)

Edit

Pub: 28 Nov 2025 23:42 UTC

Views: 18