Корай Кавукчуоглу: «Вот как мы собираемся создать AGI» [Google для разработчиков]
1. Вступление и первые впечатления
Логан:
Привет всем, добро пожаловать обратно в рубрику «Примечания к выпуску». Меня зовут Логан Килпатрик, я работаю в команде DeepMind. Сегодня для меня большая честь быть вместе с Кораем Кавукчуглу — техническим директором DeepMind и новым главным архитектором ИИ в Google.
Корай, спасибо, что присоединились. Мне очень интересно пообщаться с вами.
Корай:
И мне тоже. Да, я действительно в восторге. Спасибо за приглашение.
Логан:
Конечно.
Gemini 3 — мы здесь, запуск состоялся. Реакция, похоже, исключительно положительная. То есть, конечно, у нас были предположения относительно того, насколько хорошей окажется модель. Результаты на рейтинговых таблицах выглядели потрясающе, но истинную проверку всегда проходит именно размещение модели в руках пользователей и её практическое внедрение — вот это и есть настоящий экзамен, верно?
Мы, безусловно, проводили бенчмаркинг — это первый шаг, — затем тестирование с доверенными тестировщиками, с предварительными версиями и всё в таком духе. В итоге возникает ощущение: да, это хорошая модель. Она мощная. Она не идеальна — это очевидно. Но я действительно доволен реакцией: людям модель нравится, и те аспекты, которые показались нам интересными, оказались интересными и для них. Пока всё складывается удачно.
Корай:
Это… это здорово. Да.
Логан:
Вчера мы как раз обсуждали момент благодарности — ценим это мгновение — и осознавали, что прогресс не замедляется, что лично для меня резонирует.
Когда я вспоминаю наше предыдущее общение с вами, мы тогда находились на I/O во время запуска 2.5, слушали выступления Денниса и Сергея о ИИ и прочем. Мне кажется, темп прогресса с тех пор даже не сбавился — это действительно примечательно.
Когда мы выпускали 2.5, модель ощущалась как передовая — казалось, мы действительно продвинулись на целый ряд измерений. И теперь Gemini 3.0 вызывает такое же ощущение.
Да. И мне интересно: каково ваше текущее ощущение относительно дискуссии о масштабировании — может ли оно продолжаться?
2. О динамике исследований и бенчмарках
Корай:
Да. Послушайте — я действительно в восторге от достигнутого прогресса. Я в восторге от исследований.
Когда вы находитесь непосредственно в исследовательской среде, возбуждение охватывает буквально все области — от данных и предобучения до постобучения. Повсюду идут волнующие процессы, наблюдается прогресс, появляются новые идеи.
В конечном счёте, всё это работает на инновациях — на идеях. Чем больше вы создаёте что-то значимое, реально применяемое и востребованное людьми, тем больше идей вы получаете, потому что возрастает ваша поверхность взаимодействия, расширяется спектр получаемых сигналов.
И я считаю, что задачи станут сложнее, разнообразнее — и вместе с этим перед нами возникнут новые вызовы. Такие вызовы — это хорошо. Да.
И именно это будет стимулом и в стремлении к созданию интеллекта. Потому что именно так всё и произойдёт.
Логан:
Да.
Корай:
Иногда, если смотреть лишь на один-два бенчмарка, вы можете заметить «сжатие» — но это нормально: ведь бенчмарк определяется в тот момент, когда задача представляется сложной. Как только технология развивается, этот бенчмарк уже не находится на переднем крае, не определяет границу возможного.
И тогда появляется новый бенчмарк. В машинном обучении это совершенно обычная практика: бенчмарки и разработка моделей всегда идут рука об руку.
Бенчмарки нужны, чтобы направлять разработку моделей, но понять, где находится следующий рубеж, можно только приблизившись к нему достаточно близко — тогда и появляется возможность определить новый бенчмарк.
Логан:
Да, и я тоже так чувствую. Было несколько бенчмарков — например, HLE — изначально все модели справлялись с ними ужасно, показывая 1–2 %, а сейчас самая новая модель с DeepThink достигает около 40 % — это безумие.
Да — R-GSM8K, например, изначально вообще не поддавался ни одной модели, а сейчас результат уже превышает 40 %. Так что это действительно интересно.
Ещё интересно наблюдать — хотя мне и неизвестен контекст, почему именно так — за теми бенчмарками, которые остаются неизменными и уже прошли проверку временем. Возможно, некоторые из них уже близки к насыщению, но, скажем, GPQA Diamond по-прежнему актуален, хотя мы добираемся лишь по 1 % за раз.
Там действительно есть очень сложные вопросы. И мы по-прежнему не в состоянии их решить.
Корай:
Да. Именно так. И они всё ещё проверяют определённые аспекты. Но если посмотреть на GPQA — дело не в том, что «вы находитесь на уровне 20 % и должны добраться до 90 %». Вы уже приближаетесь к пределу.
Количество задач, которые он определяет как нерешённые,, естественно, сокращается. Значит, приходит время искать новые рубежи, новые бенчмарки — и определение бенчмарков чрезвычайно важно.
Потому что, если вы рассматриваете бенчмарки как определение прогресса — это не всегда совпадает, верно? Прогресс и бенчмарки — это две разные вещи.
В идеале они совпадают на 100 % — но на практике такого не бывает.
Для меня главный критерий прогресса — это когда наши модели работают в реальном мире: их используют учёные, студенты, юристы, инженеры — и люди применяют их для решения самых разных задач: письма, творческое письмо, электронная переписка — как простых, так и сложных задач. Эта шкала важна. Разные темы, разные области.
Если вы можете постоянно повышать ценность в этих сферах — вот это и есть прогресс. А бенчмарки помогают его количественно оценить.
3. Где мы идём вверх по склону? Следование инструкциям, интернационализация, работа с инструментами
Логан:
Как вы подходите к вопросу — и, возможно, у вас есть конкретный пример, допустим, перехода от 2.5 к 3-й версии или любой другой смены версий — где именно мы «восходим по склону»?
И, вообще говоря — в мире, где существует бесчисленное количество бенчмарков, где вы, по сути, можете выбрать направление, в котором будете двигаться вверх по склону, — как вы думаете, в целом для Gemini, а может быть, и конкретно для Pro-версии: где мы должны стремиться к улучшению?
Корай:
Я думаю, есть несколько важных направлений.
Одно из них — следование инструкциям. Это важно: модель должна понимать запрос пользователя и уметь точно выполнять его. Вы не хотите, чтобы модель просто отвечала на то, что ей кажется правильным. Способность следовать инструкциям важна — и мы всегда над этим работаем.
Ещё один приоритет для нас — интернационализация. Google по своей природе международная компания, и мы стремимся охватить всех пользователей по всему миру. Эта часть тоже очень важна.
И я чувствую — нет, Pro-версия, по крайней мере, о которой мы говорим… Я сегодня утром разговаривал с Тулси, и она отметила, насколько поразительна модель в языках, в которых исторически у нас не было значительных успехов, — это потрясающе.
Поэтому нужно постоянно уделять внимание таким сферам. Они могут не выглядеть так, будто «находятся на переднем крае знаний», — но на самом деле они исключительно важны, ведь вы должны уметь взаимодействовать с пользователями.
Потому что, как я уже сказал, всё дело в получении сигнала от пользователей.
И, если перейти к чуть более техническим областям: вызовы функций, вызовы инструментов, агентные действия и код — всё это действительно важно.
Вызовы функций и инструментов важны, потому что это — совершенно иной множитель интеллекта.
С одной стороны, это возможность для модели естественным образом использовать все инструменты и функции, созданные нами самими, и применять их в собственных рассуждениях.
А с другой — это способность модели самой писать инструменты. Ведь, по сути, сами модели тоже являются инструментами. Так что это — большой шаг вперёд.
Очевидно, код важен не только потому, что все мы — программисты, но и потому, что с его помощью можно построить всё, что происходит на вашем ноутбуке.
А на ноутбуке происходит не только программирование — там реализуется всё, буквально всё.
Большая часть того, чем мы занимаемся сегодня, происходит в цифровом мире — а код является его основой, позволяя интегрироваться практически со всем, что происходит в вашей жизни. Не со всем, но со многим.
Вот почему эти две вещи вместе, на мой взгляд, обеспечивают огромный охват — и для пользователей тоже.
Я привожу пример no-code — мне это нравится — почему? Потому что многие люди творчески одарены и полны идей, а вдруг вы дарите им продуктивность.
Переход от творческого замысла к продуктивной реализации — когда вы просто записываете идею, и перед вами появляется работающее приложение, — и в большинстве случаев оно действительно работает, и когда работает — это замечательно. Да, здорово.
Этот цикл, по-моему, потрясающий. Внезапно вы позволяете гораздо большему числу людей стать создателями чего-то нового. Это здорово. Мне это нравится.
Логан:
Да. Спасибо — это отличная реклама AI Studio. Ценю это — мы вырежем эту часть и выложим в интернет.
4. Anti-Gravity и интеграция с продуктами
Логан:
Один из интересных моментов, которые вы затронули, — это значение продуктовой инфраструктуры для движения вверх по качеству — с точки зрения модели, разумеется: вызовы инструментов и код.
И кстати, в рамках запуска Gemini 3 мы также представили Google Anti-Gravity — новую платформу агентного программирования.
Насколько вы считаете важным наличие такой продуктовой основы, чтобы двигаться вверх по качеству — опять же, с точки зрения модели?
Корай:
Для меня это крайне важно.
И Anti-Gravity как продукт, безусловно, увлекательна — но с точки зрения модели ситуация двусторонняя.
Давайте сначала рассмотрим модельную перспективу: интеграция с конечными пользователями — в данном случае программистами — и прямое обучение у них, чтобы понять, где модели нужно улучшаться, критически важна для нас.
Это важно и для приложения Gemini — по той же причине: прямое понимание пользователей имеет огромное значение.
То же самое касается Anti-Gravity и AI Studio. Наличие таких продуктов, с которыми мы тесно взаимодействуем, и получение от них сигналов — это действительно масштабно.
Anti-Gravity стала очень важным партнёром по запуску. Они присоединились не так давно — но за последние две-три недели подготовки к запуску их обратная связь была исключительно ценной.
То же самое относится и к Search AI Mode — AI Overviews: оттуда мы получаем огромное количество отзывов.
Для меня главный драйвер — это именно интеграция с продуктами и получение пользовательских сигналов. Конечно, у нас есть бенчмарки — так что мы знаем, как продвигать STEM, науки, математику — этот тип интеллекта.
Но критически важно понимать реальные сценарии использования — потому что модель должна быть полезна в реальном мире.
5. Должность главного архитектора ИИ и совместное создание ИИ общего назначения с пользователями
Логан:
Как вы, будучи новым главным архитектором ИИ, отвечаете не только за создание хороших моделей, но и за то, чтобы продукты действительно внедряли эти модели и создавали выдающиеся пользовательские впечатления по всему Google?
Насколько — я, разумеется, считаю, что это правильно для пользователей — размещение Gemini 3 во всех продуктовых службах с первого дня — замечательное достижение Google, и, надеюсь, в будущем охват будет ещё шире — насколько дополнительной сложности добавляет это, с точки зрения DeepMind?
В каком-то смысле жизнь была проще полтора года назад.
Корай:
Верно. Но ведь мы строим интеллект, не так ли?
Многие спрашивают: «У вас две роли — у меня, по сути, два титула — но по сути это одно и то же».
Если мы собираемся создавать интеллект, мы должны делать это вместе с продуктами — через продукты, в контакте с пользователями.
В своей новой роли главного архитектора ИИ я стремлюсь обеспечить, чтобы продукты Google получали наилучшие доступные технологии.
Мы не создаём продукты — мы не являемся продуктовыми людьми. Мы — разработчики технологий: мы создаём технологии, разрабатываем модели.
И, конечно, как и у всех, у нас есть мнения — но самое главное для меня — сделать модели и технологии максимально доступными и затем работать с продуктовыми командами, помогая им строить лучшие продукты в мире ИИ.
Потому что это новый мир. Новая технология определяет многое из того, что ожидает пользователь, как должен вести себя продукт, какую информацию он должен передавать, и все новые возможности, которые открывает эта технология.
Поэтому для меня задача — дать этот толчок по всему Google, сотрудничая со всеми продуктами.
И я считаю это увлекательным — как с продуктовой точки зрения, так и с точки зрения получения ценности для пользователя — и также потому, что, как я уже говорил, это наш главный драйвер.
Для нас критически важно ощущать потребности пользователей, получать от них сигналы. Это жизненно необходимо.
Поэтому я и захотел этим заняться — именно так мы и будем строить ИИ общего назначения (AGI). Именно так мы будем создавать интеллект — вместе с продуктами. Я уверен, что именно так всё и произойдёт.
Логан:
Это отличная мысль для поста в Twitter — когда-нибудь стоит опубликовать, потому что это действительно интересно. Я полностью разделяю эту точку зрения: в каком-то смысле мы совместно создаём AGI с нашими клиентами, с другими коллегами.
Это не чисто исследовательская работа где-то в лаборатории — это совместное усилие в реальном мире.
И я думаю, это действительно проверенная и надёжная система — всё чаще мы принимаем инженерный подход, и это очень важно.
Важно иметь инженерное мышление, потому что когда что-то хорошо спроектировано, вы знаете: оно надёжно, безопасно в использовании.
Мы делаем что-то в реальном мире и адаптируем все проверенные, отработанные принципы проектирования.
И это отражается в том, как мы думаем о безопасности, о защите — верно?
Мы снова и снова возвращаемся к инженерному подходу: закладываем безопасность и защиту с самого начала, с фундамента — а не добавляем в конце.
Так что, когда мы разрабатываем модели с постобучением, делаем предобучение, анализируем данные — мы всегда держим это в голове: каждый должен об этом думать.
Есть ли у нас команда безопасности? Конечно, есть — и они привносят все соответствующие технологии. Есть команда кибербезопасности — они тоже вносят свой вклад.
Но ключевое — заставить всех в команде Gemini активно участвовать в этом процессе, рассматривать это как первый принцип.
И эти команды сами входят в состав наших групп постобучения. Верно?
Поэтому, когда мы разрабатываем модели, проводим итерации, готовим кандидатов на релиз — мы смотрим не только на GPQA, HLE и подобные бенчмарки, но и на показатели безопасности и защиты.
Этот инженерный подход, на мой взгляд, важен.
Логан:
Да — я полностью с вами согласен. И это ещё и естественно для Google, что тоже помогает — учитывая, насколько коллаборативен и масштабен процесс выпуска моделей Gemini.
С Gemini 3, например, мы только что обсуждали: для меня важно, что эта модель — результат работы всего Google.
Стоит взглянуть на данные: возможно, я один из немногих — некоторые программы NASA «Аполлон» насчитывали огромное число участников, но этот проект, похоже, стал грандиознейшим глобальным усилием Google с участием всех команд — это невероятно.
Каждый релиз Gemini объединяет людей с этого континента, из Европы, Азии — со всего мира. У нас команды по всему миру, и все они вносят вклад — и не только команды GDM, но и все остальные подразделения Google.
Корай:
Да. Это огромное совместное усилие — и мы синхронно запустили AI Mode, синхронно запустили приложение Gemini. Это непросто: они были с нами в процессе разработки.
Только так мы могли выйти на рынок все вместе в первый же день: модель готова — и мы так и сделали.
6. Размышления и пробелы: что дальше после Gemini 3?
Логан:
У меня, возможно, не самый спорный вопрос — но всё же:
Gemini 3 — мы лидеры во многих бенчмарках. Мы синхронно выпускаем модель на всех продуктовых поверхностях Google и партнёрских экосистемах. Реакция очень позитивная. «Настроение» модели хорошее.
Если мысленно перенестись вперёд — постучим по дереву — к следующему крупному релизу модели Google: есть ли у вас ощущение: «Мне бы хотелось, чтобы мы делали X, Y»?
Как можно улучшить модель по сравнению с текущей?
Или — может, стоит просто насладиться моментом с Gemini 3?
Корай:
Я думаю, нам нужно делать и то, и другое.
Нужно наслаждаться моментом — ведь однажды позволить себе это — это хорошо. Сегодня день запуска, люди ценят модель — и я хочу, чтобы команда тоже получила радость от этого момента.
Но в то же время — в каждой области мы видим пробелы, верно?
Идеальна ли модель в письме? Нет. Идеальна ли она в программировании? Нет, не идеальна.
Особенно в сфере агентных действий и программирования остаётся ещё огромный потенциал роста. Это одно из самых захватывающих направлений развития.
Нам нужно выявлять, где можно сделать больше — и мы это сделаем.
Мы прошли долгий путь. Эта модель, возможно, подходит 90–95 % людей, так или иначе взаимодействующих с кодом — будь то программисты или творческие люди, желающие что-то создать.
Да — я хотел бы думать, что для них это лучший доступный инструмент. Но, вероятно, есть случаи, где нам ещё предстоит улучшиться.
Логан:
У меня ещё один прямой вопрос — о программировании и работе с инструментами.
Как вы думаете — исторически сложилось так, что… Если посмотреть на историю Gemini: у 1.0 был явный мультимодальный фокус, с 2.0 мы начали строить агентную инфраструктуру —
Есть ли у вас ощущение причин почему — и я оговорюсь, что темп прогресса выглядит очень впечатляющим — почему у нас изначально не было лидерства в агентном использовании инструментов, в отличие от мультимодальности, где мы буквально лидируем с самого Gemini 1?
Корай:
Я не думаю, что это было намеренным выбором.
Если оглянуться назад, я связываю это с использованием моделей: среда разработки была недостаточно тесно интегрирована с реальным миром. Чем плотнее связь — тем лучше мы понимаем реальные требования.
И в нашем путешествии с Gemini мы начинали с точки, где, разумеется, у ИИ в Google богатая исследовательская история. У нас огромное количество выдающихся исследователей и потрясающее наследие в области ИИ — это замечательно.
Но Gemini — это также путь перехода от чисто исследовательской среды к тому, о чём мы говорили — инженерному мышлению, к пространству, где мы действительно тесно связаны с продуктами.
Когда я смотрю на команду — я должен признаться, я чувствую настоящую гордость. Потому что эта команда в основном состоит из людей — включая меня, — которые пять лет назад писали научные статьи. Мы занимались исследованиями ИИ.
А теперь мы находимся на переднем крае этой технологии — и разрабатываем её через продукты, вместе с пользователями.
Это совершенно иной склад мышления. Мы выпускаем модели каждые 6 месяцев и обновляем их каждый месяц или полтора. Это удивительный сдвиг.
И я думаю: мы прошли через этот переход.
7. Генеративные медиа и Nano Banana
Логан:
Прогресс Gemini 3 был потрясающим. Ещё одна актуальная тема — как мы думаем о моделях генеративных медиа, которые, по-моему, исторически не были в центре внимания (не то чтобы они не были интересны — но с V3, VO3.1, с моделью Nano Banana мы добились такого успеха с точки зрения внешнего продуктового внедрения).
Мне интересно: как вы относитесь к стремлению к AGI? Иногда я убеждаю себя, что видео-модель не входит в эту историю. Я не думаю, что это правда — ведь, по-хорошему, вы должны понимать мир, физику и всё остальное.
Так как же, по-вашему, всё это переплетается?
Корай:
Если вернуться на 10–15 лет назад, генеративные модели в основном работали с изображениями — ведь визуально гораздо легче оценить, что происходит, и, кроме того, понимание мира и физики было главным драйвером.
Некоторые из наших самых захватывающих работ с генеративными моделями датируются 10-летней давности — а 20 лет назад мы и вовсе занимались только изображениями.
Когда я писал диссертацию, все занимались генеративными моделями изображений — у нас даже были такие вещи, как PixelCNN.
Но затем произошло важное осознание: текст оказался более подходящей областью для быстрого прогресса.
И совершенно естественно, что сейчас модели изображений возвращаются.
В GDM у нас давно есть очень сильные модели изображений, видео, аудио. Слияние их — это естественный процесс.
Сейчас мы движемся туда, о чём всегда говорили: к мультимодальности входа и выхода — и это наше направление.
По мере развития технологий архитектуры и идеи в этих двух областях сближаются. Раньше они сильно отличались — но сейчас всё больше сходятся.
Мы не насилуем процесс. Технологии сходятся, потому что все понимают, где можно повысить эффективность, куда развиваются идеи — и появляется общий путь.
Nano Banana — один из первых примеров этого — разве нет? Там вы можете итеративно работать с изображениями, разговаривать с моделью — потому что текстовые модели обладают глубоким пониманием мира, а модель изображений — пониманием с другой точки зрения.
Когда вы объединяете их — получается нечто захватывающее. Люди ощущают: модель понимает ту тонкость, которую они хотят передать.
Логан:
У меня ещё один вопрос про Nano Banana: а не стоит ли давать забавные названия всем нашим моделям? Может, это поможет?
Корай:
Не думаю. Послушайте — мы ведь не делали это специально.
Gemini 3 — если бы мы не назвали её Gemini 3, как бы мы её назвали? Наверное, что-нибудь абсурдное.
Я плохо придумываю названия. Мне нравилось — это же было RiftRunner, не так ли? Мы даже использовали модель Gemini для генерации кодовых имён.
Nano Banana — одна из немногих, где этого не было — мы не использовали Gemini. Есть история — и, кажется, она где-то опубликована.
Пока всё органично и естественно — я доволен, потому что командам, создающим модели, важно иметь эту связь.
Когда мы выпустили её — так получилось, что мы тестировали модель под кодовым именем в LM Marina, и людям оно понравилось.
Не знаю — хотелось бы думать, что это было настолько органичным, что название прижилось. Не уверен, что это можно воспроизвести по заказу.
Логан:
Согласен. Если есть — используем. Если нет — стандартные имена тоже в порядке.
Нам стоит поговорить о Nano Banana Pro — нашей новой передовой модели генерации изображений на базе Gemini 3 Pro.
Даже когда они завершали Nano Banana, у них уже были ранние сигналы: если реализовать её в Pro-версии, можно получить гораздо большую производительность в сложных сценариях, например, рендеринг текста и понимание мира.
Что ещё приходит на ум?
Корай:
Я думаю, здесь проявляется синергия различных технологий.
Потому что в моделях Gemini мы всегда подчёркивали: каждая версия модели — это семейство моделей: Pro, Flash и т.д. — ведь при разных размерах приходится находить разные компромиссы между скоростью, точностью и стоимостью.
И с изображениями мы наблюдаем тот же опыт.
Поэтому естественно, что команды подумали: «Хорошо, есть архитектура 3.0 Pro — можем ли мы дополнительно настроить эту модель для генерации изображений, используя всё, чему научились в первой версии, и увеличив размер?»
В итоге получилась гораздо более мощная модель, способная понимать действительно сложные вещи.
Одни из самых захватывающих кейсов: у вас есть большой набор очень сложных документов — вы их загружаете, задаёте вопросы, просите сгенерировать инфографику — и это работает.
Вот где проявляется мультимодальность входа/выхода — и это здорово.
Логан:
Это похоже на магию. Надеюсь, к моменту выхода видео зрители уже увидят примеры — но внутри компании обмен примерами просто сумасшедший. Потрясающе.
Корай:
Да — согласен. Захватывающе, когда видишь: «Боже мой — да! Огромное количество текста, концепций, сложных вещей — и всё это объяснено на одной картинке, так хорошо».
Понимаешь: модель действительно способна на это — и в этом есть такая глубина, такой нюанс — это по-настоящему интересно.
8. Унифицированные контрольные точки и схождение архитектур
Логан:
У меня есть параллельный вопрос: вероятно, в декабре прошлого года — декабре 2024 — Тулси обещала, что у нас появятся унифицированные контрольные точки моделей Gemini.
И, похоже, сейчас мы подошли очень близко к этому — ведь исторически архитектура была унифицированной… в плане генерации изображений и —
Как вы думаете, является ли это целью — интегрировать эти возможности напрямую в модель? И что мешает этому случиться?
Корай:
Как я уже говорил — технологии и архитектуры сближаются. Так что мы наблюдаем это регулярно. Люди пробуют — но это гипотеза.
И в этом нельзя быть идеологически заангажированным. Научный метод — это научный метод: пробуем, выдвигаем гипотезу, смотрим на результаты. Иногда получается, иногда нет — так и происходит прогресс.
Мы приближаемся. Я почти уверен: в ближайшем будущем мы увидим объединение — и постепенно всё будет становиться всё ближе к единой модели.
Но для этого потребуется много инноваций. Это сложно.
Если задуматься — пространство выходов критически важно для моделей, ведь именно оттуда приходит обучающий сигнал.
Сейчас наш основной обучающий сигнал поступает из кода и текста — поэтому мы в них так сильны.
Но генерация изображений требует невероятно высокого качества — это трудно. Генерировать идеальные по пикселям и концептуально согласованные изображения непросто.
Я смотрю на это так: это определённо возможно. Это станет возможным. Просто нужно найти правильные инновации в модели, чтобы это реализовать.
Логан:
Мне это нравится. Я в восторге. Надеюсь, это также упростит нашу систему доставки — если у нас будет одна модель.
Корай:
Да — этого я не знаю. Невозможно сказать. Но я с вами согласен.
9. Эволюция и культура DeepMind
Логан:
Интересная мысль: сейчас, когда мы здесь сидим, у DeepMind есть одни из лучших в мире продуктов на базе ИИ: No-Code, AI Studio, приложение Gemini, Anti-Gravity — и это происходит по всему Google.
У нас отличная передовая модель — Gemini 3, Nano Banana, VIO — все эти модели находятся на переднем крае.
Мир 10–15 лет назад выглядел иначе.
Мне интересно: вы вчера упомянули (о чём я и другие не знали), что вы были первым исследователем глубокого обучения в DeepMind.
Проследив эту нить до сегодняшнего дня — невероятный скачок — от времени, когда технологии не вызывали энтузиазма… Сколько лет вы работаете в DeepMind?
Корай:
С 2012 года. 13 лет.
Логан:
13 лет назад технология никого не воодушевляла — а сейчас она буквально питает все эти продукты.
Когда вы оглядываетесь — что приходит на ум? Казалось ли вам, что это неизбежно — или это было неожиданностью?
Корай:
Ну, это — сценарий оптимистичного, положительного исхода, верно?
Когда я писал диссертацию — думаю, как и все — я верил, что моё дело важно или станет важным. Мне было интересно этой темой, я считал, что она произведёт большой эффект.
В таком настроении я и пришёл в DeepMind, когда со мной связались Демис и Шейн.
Тогда стартап, сфокусированный на глубоком обучении, выглядел чем-то неестественным. Это было прозрение — и прекрасное место для работы.
Я создал команду глубокого обучения — она разрослась. Мой подход всегда строился на менталитете решения задач, первых принципах, обучении — именно этим и была DeepMind.
Это был захватывающий путь — от наших истоков через RL, агентов, AlphaGo и т.д.
Я подхожу к таким вещам с надеждой на положительный исход — но при этом я понимаю: нам повезло.
Нам повезло жить в эту эпоху — потому что ИИ случился сейчас не только благодаря ML/DL, но и благодаря развитию аппаратного обеспечения, интернета, данных — всё сошлось.
Я чувствую себя счастливым, занимаясь ИИ и приближаясь к этому моменту.
Логан:
Да — согласен. Мне это очень нравится.
Чем, по-вашему, вещи отличаются сегодня по сравнению с прошлым — например, AlphaFold? Меня тогда не было, так что у меня только книги.
Что изменилось? Вы вскользь упомянули вне кадра: «Мы вроде бы поняли, как создавать эти модели и выводить их в мир».
Корай:
Речь о том, как организовывать работу — о культурных чертах превращения сложных научных задач в успешные результаты.
Мы многому научились на DQN, AlphaGo, AlphaZero, AlphaFold — как организовываться вокруг миссии как команда.
Помню, в ранней DeepMind мы работали над проектом группой из 25 человек — и публиковали статьи с 25 соавторами — и люди говорили: «Да не может быть, что 25 человек реально работали!» А я отвечал: Да, работали.
Это знание, этот менталитет — ключевы. Мы эволюционировали благодаря этому.
И за последние 2–3 года мы объединили это с инженерным мышлением: у нас есть основная линия моделей — и мы научились проводить эксперименты на этой линии.
Хороший пример: наши модели DeepThink, участвующие в олимпиадах IMO, ICPC.
Мы выбираем большие цели — IMO крайне сложна — и пытаемся использовать это как возможность развить то, что у нас есть, — не создавая что-то специальное, потому что верим в универсальность нашей технологии.
И затем — как только мы чего-то достигаем — мы делаем это доступным для всех. Каждый может использовать модель, участвовавшую в IMO.
Логан:
Проведу аналогию: 25 соавторов — сегодня это список соавторов Gemini 3 — 2500 человек. Люди говорят: «Не может быть, чтобы 2500 реально внесли вклад». Но внесли — и это поразительно.
Насколько масштабными стали эти задачи.
Корай:
Да — мы внесли. И важно это признавать — в этом одна из замечательных черт Google.
Здесь столько удивительных экспертов — и мы этим пользуемся. У Google комплексный подход: дата-центры, чипы, сети, масштаб — всё складывается.
Есть эксперты на каждом уровне — и координация тысяч людей, работающих вместе, — это прекрасно.
Но нужно это признавать. Это по-настоящему прекрасно.
10. Баланс между наукой и масштабированием — пример Gemini Diffusion
Логан:
Один интересный момент: возвращаясь к наследию DeepMind — научные изыскания против сегодняшнего дня, когда мы знаем, что технология работает во многих аспектах, и нам остаётся только масштабировать (конечно, с инновациями).
Как вы думаете, как DeepMind сегодня находит баланс между чистыми научными изысканиями и масштабированием Gemini?
Может, взять мой любимый пример: Gemini Diffusion — как воплощение этого решения.
Корай:
Это самый важный вопрос — найти этот баланс — действительно критично.
Даже сейчас люди спрашивают: «Каков главный риск для Gemini?»
Главный риск — исчерпание инноваций.
Я не считаю, что мы нашли рецепт и просто его реализуем. Если наша цель — построить интеллект с пользователями, с продуктами, но задачи по-прежнему очень сложны, если наша цель всё ещё труднодостижима — я не ощущаю, будто рецепт найден.
Это инновации позволят этого достичь — и они могут быть разного масштаба или в смежных направлениях.
Конечно, внутри проекта Gemini мы исследуем: новые архитектуры, новые идеи — мы должны это делать.
Но также критически важно, чтобы DeepMind и Google Research вели дополнительные изыскания — ведь некоторые направления могут быть слишком ограничивающими для проекта Gemini.
Поэтому лучшее — это когда и внутри Google DeepMind, и в Google Research мы исследуем самые разные идеи — и интегрируем их.
Потому что Gemini — это не архитектура. Gemini — это цель: интеллект.
Не имеет значения, какая конкретно архитектура используется. У нас есть текущая — и пути её эволюции.
Двигателем этого будет инновация. Она всегда будет двигательной силой.
Поэтому нахождение этого баланса, поиск возможностей для изучения в разных форматах — я считаю, чрезвычайно важно.
11. Культура, доверие и динамика команды
Логан:
На I/O я сел рядом с Сергеем — и заметил, что чувствую теплоту человечности, когда люди собираются вместе для запуска таких моделей.
Я имел в виду — сидя рядом с вами, слушая их — я чувствовал вашу теплоту. И это очень личное замечание — потому что, мне кажется, это отражает то, как работает DeepMind: у Демиса то же самое — глубокие научные корни, но при этом он просто приятный, дружелюбный, добрый человек.
В этом есть что-то интересное: насколько важна такая культура — и как она проявляется.
Как вы, помогая формировать и управлять этим, ощущаете её проявление?
Корай:
Прежде всего — спасибо, вы меня смущаете.
Но я верю в нашу команду. Я верю в доверие к людям, в предоставление возможностей. Командный аспект важен.
Я усвоил это, работая в DeepMind — начиная с малого, строя доверие — и сохраняя его по мере роста.
Важно создавать среду, где люди чувствуют: Нам по-настоящему важно решать сложные технические и научные задачи, имеющие реальное значение.
Это по-прежнему то, чем мы занимаемся. Построение интеллекта — высокотехнологичная, сложнейшая научная задача, к которой нужно подходить со смирением, постоянно ставя под сомнение себя.
Я надеюсь, команда это тоже чувствует. Поэтому я всегда говорю, что горжусь командой — они работают вместе поразительно слаженно.
Только что мы разговаривали наверху, на кухне — и я сказал: «Да, это утомительно. Да, это трудно. Да, мы все вымотаны».
Но это наша реальность. У нас нет идеальной структуры. Все собираются вместе, поддерживают друг друга.
Что делает это увлекательным — и позволяет решать по-настоящему сложные задачи — так это наличие правильной команды.
12. История аутсайдера и взгляд вперёд
Логан:
У меня остался один вопрос — мне интересно ваше размышление.
Для меня лично мой первый год и полгода в Google ощущались как история аутсайдера Google (несмотря на все инфраструктурные преимущества) — особенно в контексте AI Studio: у нас было 30 000 пользователей, нулевой доход, ранние модели Gemini.
А теперь — пингующиеся уведомления во время запуска — и люди наконец осознают: это происходит.
А как вы это чувствовали — ощущение аутсайдерства? И как это повлияет на команду, когда мы пройдём поворот?
Корай:
Да, я определённо это чувствовал — даже раньше.
Когда LLM показали свою мощь, я ощущал: мы — лаборатория передового ИИ, DeepMind — но при этом чувствовал: кое-что мы недоинвестировали.
Это был важный урок: нужно охватывать широкий спектр. Исследования важны — речь не о этой архитектуре против той.
Я открыто говорил команде: когда мы всерьёз занялись LLM — около 2,5 лет назад, начав программу Gemini — мы были далеко от передового края.
Мы не умели делать многое. Это была гонка за лидерами — долгая.
Сейчас я чувствую, что мы в группе лидеров. Мне нравится темп, ритм, динамика.
Но да — мы догоняли. Нужно быть честным с собой.
Нужно видеть, что делают другие, учиться у них — но создавать инновации самим. И именно это мы и сделали.
Хорошая история аутсайдера — мы создавали инновации сами, находили собственные решения — технологические, модельные, процессные, в управлении.
Это уникально для нас — мы движемся вместе со всем Google.
Некоторые говорят: «Google огромен — это сложно». Я вижу в этом преимущество — у нас есть уникальные возможности.
Я доволен нашим положением — но впереди ещё много работы.
Мы только начинаем. Наша цель — построить интеллект — и сделать это правильно — и для этого мы мобилизуем весь наш разум и все инновации.
Да — я чувствую, что ближайшие шесть месяцев будут столь же захватывающими, как и последние шесть — и те, что были до них.
Логан:
Спасибо, что нашли время посидеть и поговорить. Это было невероятно интересно.
Надеюсь, мы снова соберёмся до следующего I/O — хотя до него, кажется, ещё целая вечность, но оно подкрадётся незаметно. Уверен, уже на следующей неделе начнутся совещания по I/O 2026.
Ещё раз поздравляю вас и команду DeepMind — и всех в исследовательской группе моделей — с созданием Gemini 3, Nano Banana Pro и всего остального.
Корай:
Большое спасибо. Было замечательно пообщаться. Это удивительное путешествие — и рад, что прохожу его вместе со всей командой, а также делюсь им с вами. Спасибо, что пригласили.
Логан:
Мы приготовили небольшой особенный подарок — чтобы поздравить вас и команду.
Корай:
О, как мило. Большое спасибо. Очень символично: клуб 1500 очков. Первая модель, верно?
1501 — для первой модели. Очень трогательно. Большое спасибо.
(Музыка постепенно затихает.)