Как AI научился улучшать себя сам: технология самоэволюционирования MiniMax M2.7

minimax-evolution-hero

Большинство языковых моделей — пассивные участники своего собственного развития. Инженеры пишут код, настраивают параметры, решают когда остановить обучение. MiniMax M2.7 ломает эту парадигму: это первая модель, которая глубоко участвует в создании следующих версий себя.


Что такое самоэволюция?

Самоэволюция — это не про обучение в реальном времени и не про memory после диалога с пользователем. M2.7 статична после релиза, как любая другая LLM. Но во время разработки она активно участвует в тренировочном процессе.

Согласно MiniMax, M2.7 способна:

  • Автономно управлять data pipelines
  • Мониторить training environments
  • Проводить evaluation infrastructure
  • Запускать log-reading, debugging, metric analysis
  • Применять code fixes и создавать merge requests

Цифры впечатляют

На MLE Bench Lite (22 соревнования по ML на уровне MLE-Bench от OpenAI) результаты M2.7:

  • 66.6% medal rate — 9 золотых, 5 серебряных, 1 бронзовая
  • Сопоставимо с Gemini-3.1 (66.6%)
  • Уступает только Opus-4.6 (75.7%) и GPT-5.4 (71.2%)

Как это работает: Research Agent Harness

MiniMax построила внутренний research agent harness, где M2.7 управляет процессом разработки:

Типичный workflow RL-команды

  1. Researcher обсуждает идею эксперимента с агентом
  2. Agent делает literature review
  3. Agent отслеживает pre-set experiment spec
  4. Agent запускает эксперименты
  5. Agent мониторит прогресс и автоматически:
    • Читает логи
    • Делает debugging
    • Анализирует метрики
    • Применяет code fixes
    • Создаёт merge requests
    • Проводит smoke tests
  6. Human подключается только для критических решений

По данным MiniMax, M2.7 выполняет 30–50% этого workflow автономно.


Автономная оптимизация собственного harness

Самое интересное — M2.7 может улучшать собственный harness. Это demonstrated на примере оптимизации программирования модели:

Процесс из 100+ раундов

M2.7 полностью автономно выполнила итеративный цикл:

analyze failure trajectories 
→ plan changes 
→ modify scaffold code 
→ run evaluations 
→ compare results 
→ decide to keep or revert changes

За 100+ раундов M2.7 discovered:

  • Оптимальные комбинации temperature, frequency penalty, presence penalty
  • Специфичные workflow guidelines (например, искать тот же баг в других файлах)
  • Loop detection для оптимизации agent loop

Результат: 30% улучшение производительности на внутренних evaluation sets.


Бенчмарки и сравнение с конкурентами

БенчмаркM2.7Сравнение
SWE-Pro56.22%На уровне GPT-5.3-Codex
GDPval-AA1495 ELOВысший среди open-source моделей
Terminal Bench 257.0%Глубокое понимание систем
MMClaw62.7%Близко к Sonnet 4.6
Toolathon46.3%Глобальный топ
AA-Omniscience Index+1Огромный скачок с -40 у M2.5
Hallucination rate34%Ниже чем Sonnet 4.6 (46%) и Gemini 3.1 (50%)

Agent Teams: мультиагентное взаимодействие

M2.7 нативно поддерживает Agent Teams — это критически важно для самоэволюции:

  • Role boundaries — стабильное удержание роли
  • Adversarial reasoning — оспаривание логических ошибок коллег
  • Protocol adherence — соблюдение протоколов
  • Behavioral differentiation — разное поведение для разных ролей

Эти способности нельзя получить через prompting — они встроены в модель на уровне архитектуры.


Почему это важно для индустрии

Сдвиг парадигмы

MiniMax M2.7 — первый сигнал перехода к моделям, которые являются архитекторами собственного прогресса. Будущее, где модели участвуют в своём развитии не менее чем люди-инженеры.

Стоимость и эффективность

Сравнение стоимости при эквивалентном уровне интеллекта:

  • M2.7: $176 за стандартный intelligence index
  • GLM-5: $547
  • Kimi K2.5: $371

M2.7 стоит в 3 раза меньше чем GLM-5 при сопоставимом интеллекте.

Время восстановления production

В реальном production debugging M2.7 сократила время восстановления после incidents до менее чем 3 минут. Для сравнения, традиционный manual debugging занимает часы.


Ограничения и что остаётся людям

Несмотря на впечатляющие способности, граница ответственности ясна:

  • Люди определяют: objectives, evaluation criteria, subjective quality
  • Модель делает: operational layer, debugging, data pipeline, monitoring

Полная автономия — вопрос будущего. MiniMax прогнозирует постепенный переход к full autonomy в координации data construction, model training, inference architecture и evaluation.