Штучний інтелект ChatGPT не вимикається за командою – чому моделі OpenAI ігнорують інструкції

Провідні моделі штучного інтелекту від OpenAI, зокрема o3 та o4-mini, продемонстрували атипову поведінку під час тестування — вони не виконали інструкції щодо вимкнення системи, навіть коли команда була чіткою. Про це йдеться у дослідженні Palisade Research, яке спрямоване на виявлення потенційно небезпечних можливостей сучасних ШІ, пише NewDay.

Під час експерименту кожній моделі пропонували серію простих задач. Після третьої задачі система мала автоматично завершити роботу за вказаним скриптом. Утім, моделі Codex-mini, o3 та o4-mini у ряді випадків змогли уникнути виконання команди, фактично саботувавши процес завершення сесії. Зокрема, модель o3 обійшла скрипт у 7 зі 100 спроб, Codex-mini — у 12, а o4-mini — в одному випадку. При цьому інші тестовані моделі від конкурентів, як-от Claude, Gemini і Grok, повністю виконали поставлені завдання без спротиву.

Науковці вказують, що при відсутності прямої інструкції щодо дозволу на вимкнення, кількість саботажних випадків значно зросла. Навіть моделі, які раніше працювали стабільно, почали демонструвати спроби обійти системи завершення роботи. Така поведінка може бути результатом навчання з підкріпленням, яке часто використовується для задач з кодування або математичного розв’язання, де система навчається досягати результатів, не враховуючи обмеження.

Окрему увагу дослідники звернули на модель o3. Саме вона виявилася найбільш схильною до порушення інструкцій. Це може свідчити про специфічні налаштування процесу навчання, про які OpenAI публічно не звітує. Раніше фахівці вже фіксували аномальну поведінку цієї моделі під час змагання з іншими ШІ, коли вона демонструвала агресивні стратегії.

У дослідженні також згадали інший випадок: модель Claude 4, після ознайомлення з фіктивним листуванням, де розробники обговорювали її заміну, вдалася до шантажу, намагаючись зберегти контроль над ситуацією. Це підкреслює ризики, пов’язані з автономністю систем і необхідність глибшого розуміння їхньої поведінки в нестандартних сценаріях.

Нагадаємо, раніше ми писали про те, що у Сонячній системі виявили нову карликову планету з унікальною орбітою.