
OpenAI зробив ще одну сміливу заяву… запуску de GPT-5.5, модель, яка ставить ChatGPT останнього покоління на набагато вищий рівень автономності та міркувань Виходячи з того, що ми бачили досі, компанія презентує її як свою найінтуїтивнішу та найпродуктивнішу систему для виконання складних завдань від початку до кінця, що зменшує потребу в постійному нагляді за користувачем.
Цей крок відбувається в той час, гонка за лідерство в генеративному штучному інтелектіОскільки Anthropic та Google також прискорюють розробку власних моделей, GPT-5.5 запускається спочатку на ChatGPT та Codex для платних користувачів і поєднує в собі покращення в програмуванні, офісній роботі, наукових дослідженнях та реальному використанні комп'ютера ціною... Зростання цін, яке OpenAI намагається виправдати вражаючою ефективністю використання токенів.
Що таке GPT-5.5 і яку роль він відіграє в стратегії OpenAI?
Згідно з OpenAI, GPT-5.5 знаменує собою новий крок у сталому мисленні та автономній роботі з комп'ютеромМодель розроблена для виконання тривалих, багатоетапних завдань: вона може отримувати невпорядковані інструкції, розбивати їх на частини, планувати, що робити спочатку, вибирати та використовувати інструменти, переглядати власні результати та продовжувати роботу, навіть якщо в твердженні є неоднозначності.
Компанія визначає це як свій штучний інтелект. найінтуїтивніший на сьогоднішній деньЗамість того, щоб просто відповідати на окремі запитання, GPT-5.5 діє як агент: він підтримує контекст під час тривалих процесів, переміщується по інформації в Інтернеті, виконує команди, маніпулює документами та офісними програмами, а також повертає попередньо структуровані результати, готові до використання в професійному середовищі.
Запуск включає в себе Версія GPT-5.5 Pro, орієнтована на складніші завдання У ньому вже є користувачі, яким потрібні більш точні відповіді в таких галузях, як право, бізнес, освіта або розширений аналіз даних. ChatGPT також має режим Мислення GPT-5.5розроблені для особливо складних задач у програмуванні, дослідженнях або аналізі інформації.
Автономність та використання комп'ютера в реальному світі: від чат-бота до робочого агента
Одна з головних ставок OpenAI полягає в здатності GPT-5.5 виконувати функції автономний агент на комп'ютері. Модель може шукати інформацію, визначати, що є релевантним, поєднувати джерела, послідовно керувати програмним забезпеченням та інструментами, а також перетворювати розрізнені матеріали на корисні результати, без необхідності ретельно визначати кожен крок від користувача.
У повсякденному житті це перетворюється на такі завдання, як створювати складні документи, електронні таблиці або презентаціїПерегляд контрактів, підготовка звітів, аналіз баз даних або створення розширених резюме з кількох файлів. Компанія стверджує, що GPT-5.5 швидше розуміє потреби користувача та самостійно обробляє більшу частину роботи, ніж попередні версії.
Щоб проілюструвати цю зміну, OpenAI наводить внутрішні приклади: фінансові команди використовують Codex та GPT-5.5 для перевірки десятків тисяч податкових форм Відділи комунікацій автоматизують системи оцінювання та оцінки ризиків для великих обсягів запитів за набагато менший час, або відділи маркетингу та продуктів значно скоротили час, витрачений на періодичні звіти, завдяки автоматизованим робочим процесам.
Продуктивність в агентивному програмуванні та розробці програмного забезпечення
GPT-5.5 демонструє покращення в програмуванні та те, що OpenAI називає «агентним кодуванням» — використання ШІ як агента, який пише, налагоджує та підтримує наскрізний код. У середовищах розробки модель може керувати великими репозиторіями, пропонувати складні рефакторинги, визначати джерело помилок та передбачати, на які частини системи вплинуть зміни.
На еталоні Термінал-Бенч 2.0, який вимірює складні робочі процеси командного рядка, GPT-5.5 досягає 82,7%, що явно перевершує GPT-5.4 і робить це, споживаючи при цьому менше токенів. У SWE-Bench ProЗосереджена на вирішенні реальних проблем GitHub, модель досягає 58,6%та у внутрішньому оцінюванні Експерт-SWE, із завданнями, на виконання яких орієнтовний людський час становить близько 20 годин, він також перевершує свого попередника.
Інженери, які тестували ранні версії, зазначають, що GPT-5.5 краще розуміє загальну архітектуру складних системУ внутрішніх тестах наводяться такі випадки, як об'єднання гілок із сотнями змін, що вирішувалися приблизно за двадцять хвилин, майже повний редизайн підсистем (наприклад, система коментарів у спільному редакторі) або раннє виявлення несправностей, які раніше вимагали набагато більше ітерацій.
У Codex, середовищі розробки програмного забезпечення OpenAI, GPT-5.5 має контекстне вікно до 400 000 токенів, що дозволяє йому працювати з дуже великими кодовими базами. Він також має швидкий режим, який генерує приблизно [необхідну кількість токенів]. у 1,5 рази швидше, хоча й з вищою вартістю за токен, розроблений для тих, хто ставить на перше місце швидкість відповіді.
Інтелектуальна робота, бізнес та щоденне використання в офісі
Окрім розробки програмного забезпечення, GPT-5.5 розроблений як інструмент для професійної роботи в офісі, консалтингу або середовищі аналізу даних. OpenAI стверджує, що ті ж можливості, які покращують програмування, тепер дозволяють ефективніше виконувати завдання документування та аналізу.
На еталоні ВВП, який оцінює здатність виконувати певну експертну роботу в 44 професійGPT-5.5 отримує 84,9% правильних відповідей або нічиїх. У Перевірено OSWorldТест, призначений для перевірки того, чи може модель автономно обробляти реальні обчислювальні середовища, досягає 78,7%, в Tau2-bench Telecom, що зосереджена на обслуговуванні клієнтів у телекомунікаційному секторі, досягає 98% без необхідності налаштування запиту, що свідчить про високу продуктивність у сценаріях підтримки.
Для корпоративного використання OpenAI підкреслює, що Понад 85% їхніх співробітників використовують Codex щотижня у таких галузях, як інженерія, фінанси, маркетинг, дані або продукт. Такі випадки, як автоматизація щотижневих звітів, яка заощаджує від п'яти до десяти годин на людину на тиждень, ілюструють ті переваги, які компанія приписує новій моделі, коли вона інтегрована в бізнес-процеси.
Наукові дослідження, біологія та вища математика
Наукові дослідження є ще однією центральною темою презентації GPT-5.5. OpenAI орієнтований на робочі процеси там, де це необхідно. досліджувати гіпотези, збирати докази, перевіряти припущення, інтерпретувати результати та вирішувати, який саме експеримент проводити, середовище, в якому ключовим є стійке контекстуальне мислення.
У таких тестах, як GeneBenchЗосереджений на завданнях біології та генетики, GPT-5.5 покращує результати GPT-5.4 та його варіанту... GPT-5.5 Pro Він отримує ще вищі бали. У BixBenchЗгідно з інформацією, наданою компанією, нова модель, зосереджена на біоінформатиці та кількісній біології, також досягає найкращої продуктивності серед систем з опублікованими на сьогодні даними.
OpenAI навіть навів приклади використання у вищій математиці, де Внутрішня версія GPT-5.5 співпрацювала в пошуку нового тесту, пов'язаного з недіагональними числами Рамсея.Згодом це було перевірено за допомогою формального помічника Lean. Компанія представляє цей випадок як приклад того, як модель не лише генерує код або пояснення, але й може робити внесок у математичні аргументи у складних областях.
На практиці, згадуються свідчення дослідників, які використовували GPT-5.5 Pro для аналізувати набори даних про експресію генів з десятками тисяч змінних та значною кількістю зразківотримання детальних звітів, нових ракурсів аналізу та ключових питань у терміни, які, за їхніми розрахунками, були б набагато довшими, якби їх вирішували виключно людською працею.
Затримка, час міркування та ефективність токенів
За запуском GPT-5.5 криється постійне повідомлення: Це підвищує інтелект моделі, не знижуючи швидкість реакції.OpenAI стверджує, що нова система відповідає затримці на токен GPT-5.4 у реальному світі, незважаючи на більші можливості, що незвично для більших та складніших моделей.
Один з ключових моментів полягає в тому, час на міркування, необхідний для виконання складних завданьРанні користувачі, які порівнювали поведінку з попередніми версіями, повідомляють, що процеси, які раніше вимагали від 20 до 40 хвилин роботи, тепер вирішуються лише за три-чотири хвилини, зберігаючи та навіть покращуючи якість відповідей.
Цей виграш досягається не лише завдяки швидкості, але й завдяки краще управління токенамиGPT-5.5 вимагає менше токенів для досягнення порівнянних або кращих результатів, ніж GPT-5.4, що зменшує як загальний час обробки, так і вартість, пов'язану з кожним робочим процесом. У сценаріях з великим обсягом запитів або інтенсивною автоматизацією ця різниця може бути вирішальною.
OpenAI пояснює, що для підтримки затримки йому довелося переосмислення логічного висновку як інтегрованої системиGPT-5.5 був спільно розроблений, навчений та розгорнутий на найсучаснішій апаратній інфраструктурі NVIDIA (GB200 та GB300 NVL72), а сам GPT-5.5 та Codex використовувалися для оптимізації балансування навантаження та евристики розподілу, що призвело до збільшення швидкості генерації токенів у їхніх системах більш ніж на 20%.
Ціни, фактична вартість та порівняння з GPT-5.4
Хоча GPT-5.5 розташований у високий ціновий діапазон за токенOpenAI наполягає на тому, що на практиці він може бути економічнішим, ніж його попередник та деякі конкуренти. Причина полягає в поєднанні... більша ефективність токенів та менша потреба в повторних спробах або виправлення.
У API довідкові ціни, що повідомляються для GPT-5.5, такі: 5 долара за мільйон вхідних токенів та 30 долара за мільйон вихідних токенівз контекстним вікном, яке охоплює до одного мільйона токенів. Для GPT-5.5 Pro, ставки зростають до 30 доларів за кожен мільйон введених токенів та 180 доларів за кожен мільйон виведенихчітке таргетування тих застосувань, де додана цінність реагування переважає витрати.
OpenAI також пропонує такі режими, як Пакетна та гнучка оплата за тарифами приблизно вдвічі нижчими за стандартну.і режим пріоритету, який множить вартість на 2,5 в обмін на вищий пріоритет черги та коротший час відгуку. Компанія визнає, що GPT-5.5 дорожчий за GPT-5.4 у номінальному вираженні, але стверджує, що зменшення кількості токенів, необхідних для кожного завдання, та коротший час обґрунтування виправдовують вартість. Вони можуть зменшити загальну вартість складних проектів порівняно з іншими моделями..
На ринку ця політика ставить GPT-5.5 вище за попередні моделі OpenAI та нижче за високоякісні альтернативи, які, за оцінками, озвученими під час презентації, можуть бути від п'яти до десяти разів дорожчими на практиці, враховуючи поєднання ціни, спожитих токенів та якості результату.
Довгий контекст та продуктивність у тестах міркувань
Ще одним помітним покращенням GPT-5.5 є його здатність робота з дуже широкими контекстами без втрати ниткиУ таких тестах, як Graphwalks BFS 1Mмодель досягає 45,4% порівняно з 9,4% для GPT-5.4, а також у OpenAI MRCR версії 2 з контекстами від 512 тис. до 1 млн. токенів це значення зростає до 74,0%, порівняно з 36,6% у попередній версії.
В області абстрактних міркувань GPT-5.5 фіксує a 95,0% в ARC-AGI-1 та 85,0% в ARC-AGI-2, зі значними покращеннями порівняно з GPT-5.4. У розширених тестах на знання, таких як Діамант GPQAЗосереджений на дуже складних питаннях, він отримує 93,6%і в таких оцінках, як Останній іспит людства Він перевищує 50%, коли дозволено використовувати зовнішні інструменти.
OpenAI наголошує, що багато з цих оцінок були проведені в дослідницькі середовища з конфігураціями міркувань на дуже високому рівніТаким чином, результати можуть дещо відрізнятися від тих, які сприймають користувачі ChatGPT у робочому середовищі. Незважаючи на це, компанія хоче донести ідею, що GPT-5.5 являє собою Практичний стрибок у реальних завданнях, а не просто академічне покращення в таблицях контрольних показників.
Безпека, кібербезпека та відповідальне використання
Збільшення можливостей тягне за собою посилення гарантії безпекиOpenAI заявляє, що GPT-5.5 запускається з найсучаснішою на сьогодні системою захисту після проходження внутрішніх та зовнішніх оцінок, спеціальних структур готовності та процесів червоного командування зі спеціалістами з кібербезпеки та біології.
В рамках свого Структура готовностіКомпанія класифікує можливості GPT-5.5 як Біологія, хімія та кібербезпека на "високому" рівніне досягаючи рівня «Критичний». Навіть попри це, вона визнає, що модель є ефективнішою, ніж GPT-5.4, для пошуку та використання вразливостей, і тому її було розгорнуто суворіші класифікатори для конфіденційних запитів та механізми проти повторного ризикованого використання, що може бути більш обмежувальним для деяких технічних користувачів.
Паралельно, OpenAI прагне розширити доступ до більш просунутих можливостей для перевірене оборонне використання через такі програми, як Надійний доступ для кібербезпекиЦі інструменти спеціально розроблені для організацій, відповідальних за захист критично важливої інфраструктури. Ідея полягає в тому, щоб забезпечити потужні засоби захисту, не послаблюючи контроль над потенційним наступальним використанням.
У галузі біологічних досліджень компанія започаткувала такі ініціативи, як програми винагороди за виявлення біологічних помилок у поведінці моделі, з метою залучення наукової спільноти до виявлення недоліків та вдосконалення запобіжних заходів перед ширшим розгортанням.
Доступність GPT-5.5 та його розгортання в продуктах
Розгортання GPT-5.5 розпочалося для Користувачі ChatGPT та Codex Plus, Pro, Business та Enterpriseяк у особистому, так і в корпоративному середовищі. У Codex модель інтегрована в робочі процеси розробки програмного забезпечення з розширеним контекстним вікном та режимами швидкого реагування.
La GPT-5.5 Pro версія Його поступово активують для користувачів Pro, Business та Enterprise, яким потрібен додатковий рівень деталізації та точності, особливо в регульованих або впливових галузях, де помилки можуть бути дороговартісними. У ChatGPT користувачі також починають бачити певні опції, такі як Мислення GPT-5.5 для складних дослідницьких або аналітичних проблем.
Щодо API, OpenAI працює над Включіть GPT-5.5 та GPT-5.5 Pro у свої кінцеві точки відповідей та завершення чату з вікнами контексту, що досягають одного мільйона токенів. Компанія зазначає, що доступ буде розширено, оскільки будуть виконані вимоги щодо внутрішньої безпеки та потужності інфраструктури, щоб розробники могли інтегрувати модель у власні програми після завершення цього етапу.
Поява GPT-5.5 закріплює зміну етапу в еволюції ChatGPT: Фокус зміщується з простого генерування тексту на комплексну автоматизацію цифрових завдань, з більш автономними моделями, здатними міркувати протягом триваліших періодів і працювати в реальних системах, але за рахунок вищих цін і зростаючих дебатів щодо безпеки та управління.У європейському контексті, де регулювання штучного інтелекту розвивається, а компанії прагнуть ефективності без втрати контролю, спосіб, у який організації, розробники та адміністрації впроваджують – або обмежують – використання GPT-5.5, може бути таким же актуальним, як і контрольні показники, що супроводжують цю нову модель.
