QwQ-32B — нейросеть от компании Alibaba. Языковая модель была обучена на крупной базе текста из 18 триллионов токенов. Нейросеть поддерживает более 29 языков, обладает контекстным окном 131 тыс. токенов и предлагает функцию рассуждений (reasoning). Модель доступна в нескольких вариантов с различным количеством параметров.
Особенности QwQ-32B:
- Рассуждение. QwQ-32B — новая большая языковая модель (LLM) с функцией рассуждений. Данная особенность повышает точность нейросети на задачах, связанных с логикой, например, математикой и программированием. Согласно утверждениям Alibaba, QwQ-32B достигает показателей производительности, сравнимых с Deepseek R1 и Open AI o1-mini.
- Контекст. Новая модель имеет контекстное окно 131,072 токенов, что позволяет извлекать информацию из текста большой длины. QwQ-32B генерирует до 8000 токенов за раз. Были улучшены способности в понимании структурированных данных и генерации JSON.
- Языковая поддержка. Модель поддерживает более 29 языков, включая русский, китайский, английский. французский, испанский, португальский, немецкий.
- Архитектура. Для позиционного кодирования модель использует Rotary Position Embeddings (RoPE), который эффективно обрабатывает информацию о позиции слов в тексте. Архитектура также включает в себя функции Switched Gated Linear Unit (SwiGLU), повышающие эффективность обработки данных, и Root Mean Square Normalization (RMSNorm), улучшающую стабильность обучения. Дополнительно QwQ-32B применяет смещение Attention Query-Key-Value Bias (Attention QKV bias), что способствует более точной обработке контекстуальных связей между элементами текста.
- Открытая модель. Любой пользователь может загрузить модель с Github. Доступны вариации с различным количеством параметров: 0,5B, 1,5B, 3B, 7B, 14B, 32B и 72B. С требованиями к памяти графических процессоров и пропускной способностью можно ознакомиться здесь.
QwQ-32B доступна бесплатно.