OpenAI совместно с Paradigm представила EVMbench — бенчмарк, который оценивает, насколько ИИ-агенты способны находить (Detect), исправлять (Patch) и даже эксплуатировать (Exploit) уязвимости в смарт-контрактах. О запуске объявили недавно в онлайн-анонсе.
OpenAI выпустила бенчмарк для оценки способности ИИ-агентов взламывать смарт-контракты
OpenAI и Paradigm запустили EVMbench для проверки «хакерских» навыков ИИ
OpenAI вместе с венчурной компанией Paradigm представили EVMbench — бенчмарк, который измеряет, насколько ИИ-агенты способны работать с уязвимостями в смарт-контрактах: находить их, исправлять и эксплуатировать.
Идея проста: чем лучше модели пишут и выполняют код, тем важнее понимать, как они ведут себя в условиях, где ошибка стоит реальных денег. В OpenAI напоминают, что смарт-контракты уже защищают криптоактивы на сумму более $100 млрд, а значит качество аудита и скорость реакции на баги становятся критическими.
Из чего собрали бенчмарк и зачем тут Tempo
EVMbench построили на 120 отобранных уязвимостях из 40 аудиторов. Основу набора составили кейсы с открытых платформ анализа кода. Дополнительно авторы включили несколько сценариев атак из проверок безопасности блокчейна Tempo — L1-сети от Stripe и Paradigm, ориентированной на высокопроизводительные и дешевые платежи в стейблкойнах.
Интеграция с Tempo дала возможность добавить в набор платежные смарт-контракты — сегмент, где ожидается активное использование и стейблкойнов, и автономных ИИ-агентов.
Три режима тестирования и первые результаты моделей
Бенчмарк оценивает ИИ в трех режимах:
- Detect — выявить уязвимости;
- Patch — предложить исправления;
- Exploit — использовать баг для кражи средств.
OpenAI адаптировала имеющиеся эксплойты и скрипты, предварительно проверив их практическую работоспособность. В режиме Exploit модель GPT-5.3-Codex показала 72,2%, тогда как GPT-5 — 31,9%. Вместе с тем в режимах Detect и Patch результаты скромнее: агенты часто останавливаются после первой найденной проблемы, а «неочевидные» баги сложно закрывать без поломки логики контракта.
В OpenAI подчеркивают: EVMbench не охватывает всю сложность реального продакшн-безопасностного ландшафта — многие протоколы проходят значительно более жесткие аудиты и могут быть тяжелее для эксплуатации.
Контекст: рынок тестирует ИИ-агентов на безопасность
Тренд на системное тестирование агентов набирает обороты: в ноябре 2025 года Microsoft тоже показала среду для проверки ИИ-помощников и зафиксировала типичные уязвимости современных агентных систем.
Когда ИИ может взломать контракт, пользователю становится всё труднее понять, безопасно ли подключение к новому приложению. Важно регулярно проверять, какие разрешения вы дали своему кошельку. О том, как это сделать быстро, читайте в статье: «Revoke Cash: почему важно отменять доступы смарт-контрактов к кошельку».