СГЕНЕРИРУЙ РЕФЕРАТ, КУРСОВУЮ И ДИПЛОМ

Со скидкой 5%

GPT-5.4

Андрей Ракитин

ML-инженер и автор блога

Сфера: LLM

Условия использования: Бесплатные

Задача:

Написать текст

Доступ к API: Нет

Попробовать

Что такое GPT-5.4

GPT-5.4 – флагманская нейросеть от OpenAI, которая сочетает лучшие черты предыдущих версий. Главное её преимущество – режим computer use, благодаря которому ИИ действует как автономный агент: читает скриншоты, нажимает кнопки и заполняет формы, управляя программами напрямую.

Контекстное окно выросло до 1 миллиона токенов – в 2,5 раза больше, чем в предыдущей версии. Это позволяет модели хранить в памяти огромные объёмы информации и эффективно решать комплексные задачи, например, анализировать большие кодовые базы или обрабатывать массивные документы.

Появился механизм поиска инструментов: ИИ самостоятельно выбирает нужную утилиту и не тратит токены впустую. В сложных сценариях точность работы достигает 75%, что даже превосходит уровень человека – 72,4%.

Новый уровень рассуждений xhigh экономит ресурсы: модель думает глубже на сложных вопросах, отнимая больше времени, но обеспечивая более точные решения. Компакция контекста сохраняет важные детали в многоэтапных сессиях.

Улучшилась обработка изображений: поддержка до 10 миллионов пикселей (около 6K-разрешения) обеспечивает детализированное отображение без сжатия – это идеально для задач фронтенда. Результаты выглядят одновременно эстетично и функционально.

GPT-5.4 эффективнее расходует токены: она быстрее GPT-5.2 и допускает на 33% меньше ошибок. Модель отлично подходит для работы с автономными агентами и сложными решениями.

Ключевые возможности GPT-5.4

Режим computer use

Этот режим позволяет модели управлять компьютером, полностью имитируя действия человека: ИИ смотрит на скриншоты, кликает мышью, нажимает клавиши и заполняет формы. Он работает автономно, словно робот за экраном.

В бенчмарке OSWorld-Verified точность достигает 75%, что на 47,3% выше, чем у GPT-5.2. В тестах BrowseComp производительность выросла до 82,7% против 65,8% у предыдущей модели. GPT-5.4 легко ориентируется в интерфейсах, находит нужные кнопки и выполняет сложные последовательности действий. Это делает её полезной для тестирования программного обеспечения и автоматизации рутинных задач – например, забронировать билет на сайте, введя данные и нажав кнопку «купить».

Результаты GPT-5.4 на бенчмарках
	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (победы или ничьи)	83.0%	70,9%	70,9%
SWE-Bench Pro (Public)	57,7%	56,8%	55,6%
OSWorld-Verified	75,0%	74.0%	47,3%
Toolathlon	54,6%	51.9%	46.3%
BrowseComp	82.7%	77,3%	65,8%

В сценариях GDPval модель достигает 83% успеха, справляясь с реальными задачами: редактирует таблицы Excel, настраивает программы без постоянных подсказок, самостоятельно регулирует действия.

По сравнению с версиями Thinking и Pro, где первая заранее формирует план рассуждений, а вторая сосредоточена на программировании, GPT-5.4 объединяет обе функции и добавляет визуальное распознавание. Благодаря этому она занимает лидерские позиции в OSWorld.

Режим экономит время, однако при настройках heavy задержка достигает до 8 минут, что делает его непригодным для задач с жёсткими требованиями к времени отклика. Зато он идеально подходит для обработки задач на серверной стороне или ночных батчей.

Поиск инструментов (tool search)

Функция tool search позволяет модели выбирать инструменты динамично, по запросу, не загружая их все одновременно. Это экономит токены и повышает точность в больших экосистемах с множеством коннекторов.

В агентных сценариях это ключевой механизм: ИИ понимает, когда нужен калькулятор, а когда – база данных, и включает нужный инструмент только по необходимости. Это снижает количество ошибок и повышает эффективность сложных пайплайнов.

Модель анализирует поставленную задачу, формирует запрос и выбирает лучшие инструменты для её выполнения – например, для отчёта берёт данные из Google Sheets и строит график в Tableau, обходясь без лишней застольности.

Сравнение с GPT-5.2 показывает, что новая версия работает эффективнее на 20–30% благодаря выборочному поиску. Pro-версия дополнительно поддерживает кодинг, но поиск остаётся универсальным и гибким.

Пример: аналитик строит дашборд – модель находит SQL-инструмент, извлекает данные и визуализирует их, позволяя пользователю вносить правки в режиме реального времени. Юрист ищет прецеденты – tool search быстро находит релевантные юридические базы данных.

Функция гибко настраивается разработчиками и масштабируется под разные технологические стеки команд.

Расширенное контекстное окно

GPT-5.4 удерживает в памяти до 1 миллиона токенов, что позволяет работать с гигантскими объёмами информации – анализировать целые кодовые базы или сотни страниц документов без потери связности. Размер контекста вырос в 2,5 раза по сравнению с GPT-5.2.

Этот объём отлично подходит для «reasoning» – логических рассуждений с большим количеством входных данных. Компакция (умное сжатие) сокращает старые данные, не теряя их смысл, что особенно полезно для длительных сессий.

Пример: эксперт проводит ревью проекта на 500 страниц, а модель запоминает всё содержание. Или разработчик загружает репозиторий, и ИИ выполняет рефакторинг с учётом истории коммитов. Учёный анализирует массив данных и выявляет закономерности. Юрист использует кейсы и строит стратегию без повторной загрузки информации.

Функция мультимодальна – кроме текста позволяет добавлять изображения, объединяя 1 миллион токенов с фотографиями для работы с дашбордами и схемами.

Однако при работе с более 256 тысячами токенов точность постепенно снижается, поэтому рекомендуется разбивать большие задачи или применять компакцию.

Улучшенное рассуждение (xhigh и эффективность)

Уровень xhigh представляет собой режим углублённого мышления: модель направляет больше ресурсов на сложные вопросы, повышая точность и снижая количество ошибок на 33%. При этом она расходует меньше токенов, чем GPT-5.2, и работает быстрее. Это подходит для ответственных решений и автономных агентов, где требуется высокая надёжность.

Версия Thinking по-прежнему показывает план рассуждений для пользователя, Pro – сосредоточена на программировании, а GPT-5.4 объединяет эти подходы.

Задержка в heavy-режиме достигает 8 минут, поэтому этот уровень лучше использовать для глубокого анализа, а не в интерактивном чате.

Обработка изображений в высоком разрешении

GPT-5.4 поддерживает работу с изображениями разрешением до 10 миллионов пикселей (около 6K), что гарантирует полную детализацию без потери качества. Это важно для чертежей, диаграмм и интерфейсов.

В фронтенд-задачах результаты выглядят красиво и функционально. Модель Codex на базе GPT-5.4 умеет генерировать UI-код и анализировать архитектуру приложения.

Высокая детализация нативно поддерживается для скриншотов в режиме computer use с разрешением около 2,56 млн пикселей.

Старые модели сжимали изображения, снижая качество, тогда как GPT-5.4 обеспечивает полноэкранное зрение с приоритетным API для минимизации задержек.

Модель умеет извлекать данные из инфографики и строить по ним отчёты.

Условия использования GPT-5.4

GPT‑5.4 постепенно становится доступен в официальном боте ChatGPT и Codex. GPT‑5.4 Thinking доступна пользователям ChatGPT Plus, Team и Pro. Пользователи планов Enterprise и Edu могут включить ранний доступ в настройках администратора. GPT‑5.4 Pro доступна в тарифных планах Pro и Enterprise.

Также GPT-5.4 доступна через API OpenAI. Как обычно, можно отправлять запросы к серверам OpenAI напрямую (с использованием прокси, если вы живете в РФ) или использовать посредника, например, OpenRouter.

Стоимость API для GPT-5.4
Модель	Стоимость на входе	Кэшированный вход	Стоимость на выходе
gpt-5.4 (<272K context length)	$2.50	$0.25	$15.00
gpt-5.4 (>272K context length)	$5.00	$0.50	$22.50
gpt-5.4-pro (<272K context length)	$30	-	$180
gpt-5.4-pro (>272K context length)	$60	-	$270

Если контекстное окно превышает 272 токена, стоимость считается по повышенному тарифу. Поэтому рекомендуем разбивать большие задачи на несколько маленьких, контролируя расход токенов.

Часто задаваемые вопросы

Что такое режим computer use в GPT-5.4?

Режим computer use позволяет GPT-5.4 действовать как автономный агент: ИИ анализирует скриншоты экрана, кликает мышью, нажимает клавиши и заполняет формы, управляя программами напрямую. Точность достигает 75% в бенчмарке OSWorld-Verified, превосходя человека (72,4%), и подходит для автоматизации задач вроде бронирования билетов или редактирования Excel.

Какой размер контекстного окна у GPT-5.4?

Контекстное окно GPT-5.4 составляет 1,05 миллиона токенов – в 2,5 раза больше, чем у GPT-5.2. Это позволяет анализировать большие кодовые базы, документы на сотни страниц или мультимодальные данные с изображениями, с компакцией для сохранения ключевых деталей в длительных сессиях.

Что такое функция tool search?

Tool search позволяет GPT-5.4 динамически выбирать нужные инструменты по запросу, не загружая все сразу, что экономит токены и повышает точность на 20–30% по сравнению с GPT-5.2. ИИ самостоятельно решает, когда использовать калькулятор, SQL или базы данных, для задач вроде построения дашбордов или A/B-тестов.

Что представляет режим xhigh рассуждений?

Режим xhigh – это углублённое мышление для сложных задач: модель тратит больше ресурсов, снижает ошибки на 33% и расходует меньше токенов, чем GPT-5.2. Подходит для ответственных решений, но в heavy-настройках задержка достигает 8 минут.

Какие возможности обработки изображений у GPT-5.4?

GPT-5.4 поддерживает изображения до 10 миллионов пикселей (6K-разрешение) без сжатия, идеально для чертежей, UI и фронтенд-задач. Модель генерирует код по скетчам, анализирует диаграммы и извлекает данные из инфографики с высокой детализацией.

Какие недостатки у GPT-5.4?

Точность снижается при контексте >256K токенов, heavy-режимы дают задержки до 8 минут, модель иногда спорит из-за alignment и требует точных промптов. Доступ ограничен для новых пользователей, цены растут с объёмом.