Бенчмарк OpenAI: злам смарт-контрактів ШІ-агентами

OpenAI випустила бенчмарк для оцінки здатності ШІ-агентів зламувати смарт-контракти

OpenAI спільно з Paradigm представила EVMbench — бенчмарк, який оцінює, наскільки ІІ-агенти здатні знаходити (Detect), виправляти (Patch) і навіть експлуатувати (Exploit) вразливості у смарт-контрактах. Про запуск оголосили днями в онлайн-анонсі.

OpenAI та Paradigm запустили EVMbench для перевірки «хакерських» навичок ІІ

OpenAI разом із венчурною компанією Paradigm представили EVMbench — бенчмарк, який вимірює, наскільки ІІ-агенти здатні працювати з уразливостями у смарт-контрактах: знаходити їх, виправляти та експлуатувати.

Ідея проста: чим краще моделі пишуть і виконують код, тим важливіше розуміти, як вони поводяться в умовах, де помилка коштує реальних грошей. У OpenAI нагадують, що смарт-контракти вже захищають криптоактиви на суму понад $100 млрд, а отже якість аудиту та швидкість реакції на баги стають критичними.

З чого зібрали бенчмарк і навіщо тут Tempo

EVMbench побудували на 120 відібраних уразливостях із 40 аудитів. Основу набору склали кейси з відкритих платформ аналізу коду. Додатково автори включили кілька сценаріїв атак із перевірок безпеки блокчейна Tempo — L1-мережі від Stripe і Paradigm, орієнтованої на високопродуктивні та дешеві платежі у стейблкоїнах.

Інтеграція з Tempo дала змогу додати в набір платіжні смарт-контракти — сегмент, де очікують активного використання і стейблкоїнів, і автономних ІІ-агентів.

Три режими тестування та перші результати моделей

Бенчмарк оцінює ІІ у трьох режимах:

  • Detect — виявити уразливості;
  • Patch — запропонувати виправлення;
  • Exploit — використати баг для крадіжки коштів.

OpenAI адаптувала наявні експлойти та скрипти, попередньо перевіривши їхню практичну працездатність. У режимі Exploit модель GPT-5.3-Codex показала 72,2%, тоді як GPT-531,9%. Натомість у Detect і Patch результати стриманіші: агенти часто зупиняються після першої знайденої проблеми, а «неочевидні» баги складно закривати без поломки логіки контракту.

У OpenAI підкреслюють: EVMbench не охоплює всю складність реального продакшн-безпекового ландшафту — багато протоколів проходять значно жорсткіші аудити і можуть бути важчими для експлуатації.

Контекст: ринок тестує ІІ-агентів на безпеку

Тренд на системне тестування агентів набирає обертів: у листопаді 2025 року Microsoft теж показала середовище для перевірки ІІ-помічників і зафіксувала типові вразливості сучасних агентних систем.

Коли ШІ може зламати контракт, користувачеві стає все важче зрозуміти, чи безпечне підключення до нового додатку. Важливо регулярно перевіряти, які дозволи ви надали своїм гаманцем. Про те, як це зробити швидко, читайте у статті: «Revoke Cash: чому важливо скасовувати доступи смарт-контрактів до гаманця».