QwQ-32B

Андрей Ракитин

ML-инженер и автор блога

Сфера:

LLM

Задача:

Написать текст

Доступ к API:

Нет

Условия использования:

Бесплатные

Попробовать

QwQ-32B — нейросеть от компании Alibaba. Языковая модель была обучена на крупной базе текста из 18 триллионов токенов. Нейросеть поддерживает более 29 языков, обладает контекстным окном 131 тыс. токенов и предлагает функцию рассуждений (reasoning). Модель доступна в нескольких вариантов с различным количеством параметров.

Особенности QwQ-32B:

Рассуждение. QwQ-32B — новая большая языковая модель (LLM) с функцией рассуждений. Данная особенность повышает точность нейросети на задачах, связанных с логикой, например, математикой и программированием. Согласно утверждениям Alibaba, QwQ-32B достигает показателей производительности, сравнимых с Deepseek R1 и Open AI o1-mini.
Контекст. Новая модель имеет контекстное окно 131,072 токенов, что позволяет извлекать информацию из текста большой длины. QwQ-32B генерирует до 8000 токенов за раз. Были улучшены способности в понимании структурированных данных и генерации JSON.
Языковая поддержка. Модель поддерживает более 29 языков, включая русский, китайский, английский. французский, испанский, португальский, немецкий.
Архитектура. Для позиционного кодирования модель использует Rotary Position Embeddings (RoPE), который эффективно обрабатывает информацию о позиции слов в тексте. Архитектура также включает в себя функции Switched Gated Linear Unit (SwiGLU), повышающие эффективность обработки данных, и Root Mean Square Normalization (RMSNorm), улучшающую стабильность обучения. Дополнительно QwQ-32B применяет смещение Attention Query-Key-Value Bias (Attention QKV bias), что способствует более точной обработке контекстуальных связей между элементами текста.
Открытая модель. Любой пользователь может загрузить модель с Github. Доступны вариации с различным количеством параметров: 0,5B, 1,5B, 3B, 7B, 14B, 32B и 72B. С требованиями к памяти графических процессоров и пропускной способностью можно ознакомиться здесь.

QwQ-32B доступна бесплатно.

Похожие нейросети

DeepSeek R1

DeepSeek R1 - большая языковая модель, использующая цепочки рассуждений. Нейросеть показывает высокие результаты в задачах по математике и программированию. Доступна генерация ответа с учетом информации из интернета. Доступен API, совместимый с моделями OpenAI, но намного дешевле.

Minimax-01

Minimax-01 - языковая модель с контекстным окном 4 млн токенов. Модель выполняет обработку текстовых документов, изображений и способна выполнить поиск информации в интернете. Несмотря на огромное контекстное окно, модель отлично запоминает данные всей последовательности.

Ernie 4.5

Ernie 4.5 - бесплатная нейросеть от компании Baidu. Представляет собой мультимодальную модель. Также пользователям доступна нейросеть Ernie X1 с функцией рассуждения. По словам разработчиков Ernie 4.5 может тягаться с GPT-4,5, а Ernie X1 бросает вызов Deepseek R1. Доступен API с демократичной ценой.

Mistral AI

Mistral - семейство больших языковых моделей, разработанных компанией Mistral AI. Среди доступных нейросетей вы найдёте модели на базе архитектуры Mixture of Experts, а также флагманскую Mistral Large, которую вы можете использовать бесплатно прямо в браузере. Для некоторых моделей присутствует возможность развёртывания в облачных сервисах и локально.