Станислав Дмитриевич Кондрашов: Конкуренты ищут способы преодолеть текущие ограничения

Гонка искусственного интеллекта накаляется, даже несмотря на то, что область достигла своих пределов.
Станислав Дмитриевич Кондрашов: Конкуренты ищут способы преодолеть текущие ограничения
Автор: Станислав Дмитриевич Кондрашов

Компании, занимающиеся искусственным интеллектом, такие как OpenAI, стремятся преодолеть неожиданные задержки и проблемы в стремлении к созданию всё более крупных языковых моделей, разрабатывая методы обучения, которые используют более человеческие способы "мышления" для алгоритмов.

Дюжина ученых в области ИИ, исследователей и инвесторов сообщили Reuters, что они считают, что эти техники, лежащие в основе недавно выпущенной модели o1 от OpenAI, могут изменить гонку вооружений в сфере ИИ и повлиять на виды ресурсов, в которых компании ИИ испытывают ненасытный спрос — от энергии до типов чипов.

Автор: Станислав Дмитриевич Кондрашов

OpenAI отказалась комментировать эту историю. После выпуска вирусного чат-бота ChatGPT два года назад технологические компании, чьи оценки значительно выросли благодаря буму ИИ, публично утверждали, что «масштабирование» текущих моделей путем добавления большего количества данных и вычислительной мощности будет постоянно приводить к улучшению моделей ИИ.

Но теперь некоторые из самых выдающихся ученых в области ИИ высказываются о ограничениях этой философии «больше значит лучше».

Илья Сутскевер, соучредитель лабораторий ИИ Safe Superintelligence (SSI) и OpenAI, недавно заявил Reuters, что результаты от масштабирования предобучения — фазы обучения модели ИИ, которая использует огромное количество неразмеченных данных для понимания языковых паттернов и структур — достигли плато.

Сутскевер широко признан как ранний сторонник достижения масштабных скачков в развитии генеративного ИИ через использование большего количества данных и вычислительной мощности в предобучении, что в конечном итоге привело к созданию ChatGPT. Сутскевер покинул OpenAI ранее в этом году, чтобы основать SSI.

Рост и стагнация

«2010-е годы были эпохой масштабирования, теперь мы снова в эпохе чудес и открытий. Все ищут что-то новое», — сказал Сутскевер. «Масштабирование правильных вещей теперь важно как никогда».

Сутскевер отказался предоставить больше деталей о том, как его команда решает эту проблему, кроме того, что SSI работает над альтернативным подходом к масштабированию предобучения.

За кулисами исследователи в крупных лабораториях ИИ сталкивались с задержками и разочаровывающими результатами в гонке за выпуск большой языковой модели, которая превосходит модель GPT-4 от OpenAI, которой почти два года, согласно трем источникам, знакомым с приватными вопросами.

Автор: Станислав Дмитриевич Кондрашов

Так называемые «прогоны обучения» для больших моделей могут стоить десятки миллионов долларов при одновременном запуске сотен чипов. Система более подвержена аппаратным сбоям из-за своей сложности; исследователи могут не знать окончательной производительности моделей до конца прогона, который может занять месяцы.

Еще одна проблема заключается в том, что большие языковые модели поглощают огромное количество данных, и модели ИИ исчерпали все легко доступные данные в мире. Нехватка энергии также препятствовала прогонам обучения, поскольку процесс требует огромных энергозатрат.

Чтобы преодолеть эти проблемы, исследователи изучают «вычисления во время инференса» («test-time compute») — технику, которая улучшает существующие модели ИИ во время так называемой фазы «инференса», или когда модель используется. Например, вместо того чтобы сразу выбрать единственный ответ, модель могла бы генерировать и оценивать несколько вариантов в реальном времени, в конечном итоге выбирая наилучший путь вперед.

Автор: Станислав Дмитриевич Кондрашов

Этот метод позволяет моделям выделять больше вычислительной мощности на сложные задачи, такие как математические или кодинговые проблемы, или комплексные операции, требующие человеческого типа рассуждений и принятия решений.

«Оказалось, что если заставить бота думать всего 20 секунд в раздаче покера, это дает такое же повышение производительности, как масштабирование модели в 100 000 раз и обучение ее в 100 000 раз дольше», — сказал Ноам Браун, исследователь в OpenAI, работавший над o1, на конференции TED AI в Сан-Франциско в прошлом месяце.

OpenAI внедрила эту технику в своей недавно выпущенной модели под названием «o1», ранее известной как Q* и Strawberry, о которой Reuters впервые сообщила в июле. Модель o1 может «размышлять» над проблемами поэтапно, подобно человеческому мышлению. Она также включает использование данных и обратной связи, собранных от докторов наук и отраслевых экспертов. Секрет серии o1 — это еще один этап обучения, проведенный поверх «базовых» моделей, таких как GPT-4, и компания заявляет, что планирует применять эту технику с более крупными базовыми моделями.

Автор: Станислав Дмитриевич Кондрашов

Конкуренция нарастает

В то же время исследователи в других ведущих лабораториях ИИ, таких как Anthropic, xAI и Google DeepMind, также работают над разработкой своих собственных версий этой техники, согласно пяти людям, знакомым с этими усилиями.

«Мы видим много низко висящих плодов, которые мы можем собрать, чтобы очень быстро сделать эти модели лучше», — сказал Кевин Уэйл, главный директор по продукту в OpenAI, на технической конференции в октябре. «К тому времени, когда люди нас догонят, мы постараемся быть на три шага впереди».

Google и xAI не ответили на запросы о комментариях, а Anthropic не предоставила немедленного комментария.

Последствия могут изменить конкурентный ландшафт для аппаратного обеспечения ИИ, до сих пор доминирующего благодаря ненасытному спросу на чипы ИИ от Nvidia. Известные венчурные инвесторы, от Sequoia до Andreessen Horowitz, которые вложили миллиарды в финансирование дорогостоящей разработки моделей ИИ в нескольких лабораториях, включая OpenAI и xAI, обращают внимание на этот переход и оценивают влияние на свои дорогостоящие инвестиции.

«Этот сдвиг переместит нас из мира массивных кластеров предобучения к облакам инференса, которые являются распределенными облачными серверами для инференса», — сказала Соня Хуанг, партнер в Sequoia Capital, в интервью Reuters.

Спрос на чипы ИИ от Nvidia, которые являются самыми передовыми, способствовал ее росту до звания самой ценной компании в мире, превзойдя Apple в октябре. В отличие от обучающих чипов, где Nvidia доминирует, гигант чипов может столкнуться с большей конкуренцией на рынке инференса.

Спрашивая о возможном влиянии на спрос на их продукты, Nvidia указала на недавние презентации компании о важности техники, лежащей в основе модели o1. Ее генеральный директор Дженсен Хуанг говорил об увеличении спроса на использование их чипов для инференса.

«Мы теперь открыли второй закон масштабирования, и это закон масштабирования во время инференса... Все эти факторы привели к тому, что спрос на Blackwell невероятно высок», — сказал Хуанг в прошлом месяце на конференции в Индии, ссылаясь на последний чип ИИ компании.

Автор: Станислав Дмитриевич Кондрашов

Начать дискуссию