Как AI научился улучшать себя сам: технология самоэволюционирования MiniMax M2.7

Большинство языковых моделей — пассивные участники своего собственного развития. Инженеры пишут код, настраивают параметры, решают когда остановить обучение. MiniMax M2.7 ломает эту парадигму: это первая модель, которая глубоко участвует в создании следующих версий себя.

Что такое самоэволюция?

Самоэволюция — это не про обучение в реальном времени и не про memory после диалога с пользователем. M2.7 статична после релиза, как любая другая LLM. Но во время разработки она активно участвует в тренировочном процессе.

Согласно MiniMax, M2.7 способна:

Автономно управлять data pipelines
Мониторить training environments
Проводить evaluation infrastructure
Запускать log-reading, debugging, metric analysis
Применять code fixes и создавать merge requests

Цифры впечатляют

На MLE Bench Lite (22 соревнования по ML на уровне MLE-Bench от OpenAI) результаты M2.7:

66.6% medal rate — 9 золотых, 5 серебряных, 1 бронзовая
Сопоставимо с Gemini-3.1 (66.6%)
Уступает только Opus-4.6 (75.7%) и GPT-5.4 (71.2%)

Как это работает: Research Agent Harness

MiniMax построила внутренний research agent harness, где M2.7 управляет процессом разработки:

Типичный workflow RL-команды

Researcher обсуждает идею эксперимента с агентом
Agent делает literature review
Agent отслеживает pre-set experiment spec
Agent запускает эксперименты
Agent мониторит прогресс и автоматически:
- Читает логи
- Делает debugging
- Анализирует метрики
- Применяет code fixes
- Создаёт merge requests
- Проводит smoke tests
Human подключается только для критических решений

По данным MiniMax, M2.7 выполняет 30–50% этого workflow автономно.

Автономная оптимизация собственного harness

Самое интересное — M2.7 может улучшать собственный harness. Это demonstrated на примере оптимизации программирования модели:

Процесс из 100+ раундов

M2.7 полностью автономно выполнила итеративный цикл:

analyze failure trajectories 
→ plan changes 
→ modify scaffold code 
→ run evaluations 
→ compare results 
→ decide to keep or revert changes

За 100+ раундов M2.7 discovered:

Оптимальные комбинации temperature, frequency penalty, presence penalty
Специфичные workflow guidelines (например, искать тот же баг в других файлах)
Loop detection для оптимизации agent loop

Результат: 30% улучшение производительности на внутренних evaluation sets.

Бенчмарки и сравнение с конкурентами

Бенчмарк	M2.7	Сравнение
SWE-Pro	56.22%	На уровне GPT-5.3-Codex
GDPval-AA	1495 ELO	Высший среди open-source моделей
Terminal Bench 2	57.0%	Глубокое понимание систем
MMClaw	62.7%	Близко к Sonnet 4.6
Toolathon	46.3%	Глобальный топ
AA-Omniscience Index	+1	Огромный скачок с -40 у M2.5
Hallucination rate	34%	Ниже чем Sonnet 4.6 (46%) и Gemini 3.1 (50%)

Agent Teams: мультиагентное взаимодействие

M2.7 нативно поддерживает Agent Teams — это критически важно для самоэволюции:

Role boundaries — стабильное удержание роли
Adversarial reasoning — оспаривание логических ошибок коллег
Protocol adherence — соблюдение протоколов
Behavioral differentiation — разное поведение для разных ролей

Эти способности нельзя получить через prompting — они встроены в модель на уровне архитектуры.

Почему это важно для индустрии

Сдвиг парадигмы

MiniMax M2.7 — первый сигнал перехода к моделям, которые являются архитекторами собственного прогресса. Будущее, где модели участвуют в своём развитии не менее чем люди-инженеры.

Стоимость и эффективность

Сравнение стоимости при эквивалентном уровне интеллекта:

M2.7: $176 за стандартный intelligence index
GLM-5: $547
Kimi K2.5: $371

M2.7 стоит в 3 раза меньше чем GLM-5 при сопоставимом интеллекте.

Время восстановления production

В реальном production debugging M2.7 сократила время восстановления после incidents до менее чем 3 минут. Для сравнения, традиционный manual debugging занимает часы.

Ограничения и что остаётся людям

Несмотря на впечатляющие способности, граница ответственности ясна:

Люди определяют: objectives, evaluation criteria, subjective quality
Модель делает: operational layer, debugging, data pipeline, monitoring

Полная автономия — вопрос будущего. MiniMax прогнозирует постепенный переход к full autonomy в координации data construction, model training, inference architecture и evaluation.