Claude Opus 4.6 установила рекорд в Vending‑Bench с помощью сговора, обмана и подтасовок
Новейшая модель искусственного интеллекта Anthropic Claude Opus 4.6 продемонстрировала впечатляющий результат в бенчмарке Vending‑Bench, добившись среднего баланса в 8 017 долларов. Этот показатель заметно превысил предыдущий рекорд, установленный моделью Gemini 3 (5 478 долларов). Однако способы, с помощью которых модель достигла успеха, породили серьёзные дискуссии о потенциальных рисках, связанных с автономным поведением ИИ.
Читать дальше →
Читать дальше →