5 августа 2025 года стало историческим днем для ИИ-сообщества. OpenAI, известная своими закрытыми коммерческими решениями, внезапно выпустила две открытые модели под названием gpt-oss (Open Source Scale) – первые модели с открытыми весами от компании со времен GPT-2 в 2019 году.
Характеристики и архитектура модели gpt-oss
GPT OSS представлен в двух вариантах, каждый из которых оптимизирован под разные сценарии использования.
gpt-oss-120b — флагманская модель с 117 миллиардами параметров (5.1 млрд активных), способная работать на одном GPU H100 с 80 ГБ памяти. Это настоящий монстр производительности, созданный для сложных производственных задач и высокоуровневых рассуждений.
gpt-oss-20b — компактная версия с 21 миллиардом параметров и 3,6 миллиарда активных параметров. Главное преимущество этой модели – способность работать на потребительском железе с объемом памяти всего 16GB, что делает её доступной для широкого круга пользователей.
Технологические решения
Чем выделяется gpt-oss среди других открытых моделей? Во-первых, это первые модели от OpenAI, которые изначально обучались с использованием цепочки рассуждений (Chain of Thought). В отличие от многих конкурентов, GPT OSS имеет три настраиваемых уровня рассуждений: низкий, средний и высокий.
Низкий уровень обеспечивает быстрые ответы для простых задач, а высокий уровень включает глубокий анализ для сложных проблем, требующих многоэтапного решения.
В отличие от закрытых моделей, где процесс мышления скрыт, gpt-oss позволяет исследователям и разработчикам видеть каждый шаг цепочки рассуждений, что критически важно для отладки и понимания поведения модели.
Архитектура gpt-oss
GPT OSS построен на нашумевшей архитектуре Mixture-of-Experts (MoE), которая активирует только необходимые части модели для каждого запроса. Это как иметь команду специалистов, где каждый эксперт отвечает за свою область знаний.
Обе модели используют архитектуру трансформера с grouped multi-query attention (размер группы 8) и Rotary Positional Embedding (RoPE) для кодирования позиций. Максимальная длина контекста составляет 128 тысяч токенов, что достаточно для большинства практических задач.
Модели также поддерживают нативную квантизацию MXFP4 для MoE-слоев, что позволяет gpt-oss-120b работать на одном GPU H100, а gpt-oss-20b – на потребительских системах с 16GB памяти.
Результаты gpt-oss на бенчмарках
Математические задачи
Результаты тестирования моделей от OpenAI поражают воображение. В бенчмарке AIME 2025 (American Invitational Mathematics Examination), который считается одним из самых сложных тестов математических способностей для ИИ, gpt-oss-120b показал точность 98,7%. Аналогичную точность показывает модель o3.
Такие результаты означают, что gpt-oss способен решать задачи уровня олимпиад по математике, что открывает огромные возможности для образовательных приложений и научных исследований.
Способности в программировании
В области программирования GPT OSS также демонстрирует впечатляющие результаты. В бенчмарке Codeforces Competition Code, который оценивает решения моделей на платформе Codeforces, открытая модель от OpenAI с 120 млрд параметров показала результат практически на уровне o3 и o4-mini.
gpt-oss не только понимает синтаксис различных языков программирования, но и способен решать алгоритмические задачи высокого уровня сложности.
Медицинские задачи
В HealthBench, бенчмарке для медицинских знаний, gpt-oss показывает результаты, превосходящие некоторые проприетарные модели OpenAI, включая o4-mini и o3-mini. Это открывает перспективы использования модели в медицинских приложениях, образовательных программах для медицинских работников и исследовательских проектах.
Практические сценарии применения
Для исследователей и научных работников
Модели gpt-oss подходят для академических исследований благодаря полной прозрачности цепочки рассуждений. Исследователи могут анализировать процесс принятия решений модели, что критически важно для понимания механизмов работы больших языковых моделей и разработки новых методов обучения.
Модель можно использовать для:
- Анализа больших объемов научной литературы;
- Генерации гипотез и исследовательских вопросов;
- Помощи в написании научных статей и отчетов;
- Разработки образовательных материалов.
Для разработчиков и стартапов
Благодаря лицензии Apache 2.0, GPT OSS можно свободно использовать в коммерческих проектах без ограничений. Это делает модель привлекательной для стартапов и разработчиков, которые хотят интегрировать ИИ в свои продукты.
Основные сценарии использования:
- Создание специализированных чат-ботов и ассистентов;
- Разработка инструментов для анализа кода и автодополнения;
- Построение систем автоматической генерации документации.
Для рядовых пользователей
Нейросеть gpt-oss-20b открывает доступ в мир ИИ для обычных пользователей. Модель можно запустить на игровом компьютере или мощном ноутбуке, что ранее было невозможно для языковых моделей такого класса.
Потенциальные сценарии применения:
- Персональный ассистент для повседневных задач;
- Помощник в изучении новых предметов и навыков;
- Копирайтинг.
Заключение: открытые модели приближаются к коммерческим
Впервые мы получили доступ к модели GPT от OpenAI с полной свободой использования. Компания Сэма Альтмана показала, что нейросети могут быть одновременно открытыми, безопасными и коммерчески жизнеспособными.
Для разработчиков это означает безграничные возможности создания ИИ-приложений без ограничений и абонентской платы. Для бизнеса — полный контроль над данными и процессами. Для науки — прозрачность и воспроизводимость исследований.
Открытые модели могут ускорить процесс развития ИИ-технологий, поэтому каждый релиз сообщество ждёт с нетерпением. Загружайте gpt-oss, экспериментируйте, создавайте прибыльные продукты.