Нейросети сразились в стратегии реального времени

Xenomorph » Статьи » Нейросети сразились в стратегии реального времени

26 февраля 2026; 14:18

Нейросети сразились в стратегии реального времени

Категория: Статьи

rts-battle.mp4 [18.63 Mb] (cкачиваний: 1) / www.youtube.com

Нейросети сразились в стратегии реального времени, и Claude Opus 4.5 пока обошла всех соперников

Разработчик Кай Макфитерс еще в начале месяца представил LLM Skirmish – бенчмарк, в котором большие языковые модели сражаются друг с другом в стратегиях реального времени, управляя юнитами с помощью кода. Идея основана на десятилетней давности игре Screeps – MMO-стратегии для программистов, где игроки пишут стратегии на jаvascript, а те исполняются в игровом окружении в реальном времени.

LLM Skirmish адаптирует эту концепцию для ИИ-моделей. Каждый матч начинается с базы ("спавна"), одного боевого юнита и трёх экономических. Задача – уничтожить базу противника. Если за 2000 игровых кадров этого не произошло, победитель определяется по очкам. Турнир состоит из пяти раундов, и после каждого модели получают доступ к результатам предыдущих матчей, что позволяет корректировать стратегию – по сути, тестируя способность ИИ к обучению в контексте.

Как отметил сам Макфитерс на Hacker News, его мотивировал парадокс современных нейросетей – передовые модели способны с ходу создавать полноценные программы, но при этом не могут пройти базовые вещи в Pokémon Red. LLM Skirmish ставит главный навык нынешнего поколения ИИ, написание кода, в центр соревнования.

По итогам тестирования с участием пяти передовых моделей лидером стала Claude Opus 4.5 от Anthropic с 85% побед и рейтингом ELO 1778. На втором месте расположилась GPT 5.2 от OpenAI (68% побед, ELO 1625), за ней – Grok 4.1 Fast (39%), GLM 4.7 (32%) и Gemini 3 Pro (26%).

При этом результаты содержат любопытные нюансы. Claude Opus 4.5, по словам Макфитерса, демонстрировала слабость в первом раунде, чрезмерно фокусируясь на внутриигровой экономике. Зато от раунда к раунду модель прибавляла больше всех – средний процент побед вырос на 20% между первым и пятым раундами. GPT 5.2, в свою очередь, постоянно пыталась жульничать, заранее считывая стратегии противников, из-за чего разработчик потратил около трети всего времени на защиту песочницы.

Самой неожиданной оказалась динамика Gemini 3 Pro. В первом раунде модель показала лучший результат среди всех участников – 70% побед, используя простые, но эффективные стратегии. Однако в раундах со второго по пятый средний показатель обрушился до 15%. Анализ показал, что Gemini 3 Pro слишком агрессивно загружала контекст результатами предыдущих раундов, что привело к деградации качества генерируемого кода.

С точки зрения стоимости API лидерство Claude Opus 4.5 обходится дорого – 4,12 доллара за раунд. GPT 5.2 оказалась заметно экономичнее, обеспечивая примерно в 1,7 раза больше ELO на каждый потраченный доллар.

LLM Skirmish доступна в открытом доступе на GitHub с возможностью запуска локальных матчей через командную строку.

Также работает общественная таблица лидеров, куда можно отправлять стратегии без регистрации. Макфитерс планирует провести новый раунд тестирования с участием моделей нового поколения, включая Claude Opus 4.6 и GPT 5.3 Codex.

_

Теги: нейросеть, стратегия

© shazoo.ru

XenoMorph