Бенчмарк OpenAI: взлом смарт-контрактов ИИ-агентами

OpenAI выпустила бенчмарк для оценки способности ИИ-агентов взламывать смарт-контракты

OpenAI совместно с Paradigm представила EVMbench — бенчмарк, который оценивает, насколько ИИ-агенты способны находить (Detect), исправлять (Patch) и даже эксплуатировать (Exploit) уязвимости в смарт-контрактах. О запуске объявили недавно в онлайн-анонсе.

OpenAI и Paradigm запустили EVMbench для проверки «хакерских» навыков ИИ

OpenAI вместе с венчурной компанией Paradigm представили EVMbench — бенчмарк, который измеряет, насколько ИИ-агенты способны работать с уязвимостями в смарт-контрактах: находить их, исправлять и эксплуатировать.

Идея проста: чем лучше модели пишут и выполняют код, тем важнее понимать, как они ведут себя в условиях, где ошибка стоит реальных денег. В OpenAI напоминают, что смарт-контракты уже защищают криптоактивы на сумму более $100 млрд, а значит качество аудита и скорость реакции на баги становятся критическими.

Из чего собрали бенчмарк и зачем тут Tempo

EVMbench построили на 120 отобранных уязвимостях из 40 аудиторов. Основу набора составили кейсы с открытых платформ анализа кода. Дополнительно авторы включили несколько сценариев атак из проверок безопасности блокчейна Tempo — L1-сети от Stripe и Paradigm, ориентированной на высокопроизводительные и дешевые платежи в стейблкойнах.

Интеграция с Tempo дала возможность добавить в набор платежные смарт-контракты — сегмент, где ожидается активное использование и стейблкойнов, и автономных ИИ-агентов.

Три режима тестирования и первые результаты моделей

Бенчмарк оценивает ИИ в трех режимах:

  • Detect — выявить уязвимости;
  • Patch — предложить исправления;
  • Exploit — использовать баг для кражи средств.

OpenAI адаптировала имеющиеся эксплойты и скрипты, предварительно проверив их практическую работоспособность. В режиме Exploit модель GPT-5.3-Codex показала 72,2%, тогда как GPT-531,9%. Вместе с тем в режимах Detect и Patch результаты скромнее: агенты часто останавливаются после первой найденной проблемы, а «неочевидные» баги сложно закрывать без поломки логики контракта.

В OpenAI подчеркивают: EVMbench не охватывает всю сложность реального продакшн-безопасностного ландшафта — многие протоколы проходят значительно более жесткие аудиты и могут быть тяжелее для эксплуатации.

Контекст: рынок тестирует ИИ-агентов на безопасность

Тренд на системное тестирование агентов набирает обороты: в ноябре 2025 года Microsoft тоже показала среду для проверки ИИ-помощников и зафиксировала типичные уязвимости современных агентных систем.

Когда ИИ может взломать контракт, пользователю становится всё труднее понять, безопасно ли подключение к новому приложению. Важно регулярно проверять, какие разрешения вы дали своему кошельку. О том, как это сделать быстро, читайте в статье: «Revoke Cash: почему важно отменять доступы смарт-контрактов к кошельку».