Сучасні мовні моделі штучного інтелекту, зокрема o3 від OpenAI, виявляють більшу схильність до помилок у порівнянні зі своїми попередниками. Це стало темою обговорення в статті The New York Times, яка посилається на ряд досліджень.
Подібні недоліки спостерігаються і в інших моделях, таких як Google та китайський стартап DeepSeek. Незважаючи на зростання математичних можливостей, кількість фактичних помилок лише збільшується.
Однією з основних проблем є так звані "галюцинації", коли моделі вигадують інформацію без надання джерел. Амр Авадалла, керівник стартапу Vectara, зазначає, що ця проблема навряд чи буде вирішена.
Прикладом такої галюцинації став бот технічної підтримки Cursor, який неправильно стверджував, що інструмент можна використовувати лише на одному комп’ютері, що призвело до маси скарг і видалень акаунтів. Пізніше з’ясувалося, що компанія не вносила жодних змін — це було вигадкою бота.
У тестуванні різних моделей рівень вигаданих фактів сягав 79%. У внутрішньому тестуванні OpenAI модель o3 допустила 33% галюцинацій, що вдвічі більше, ніж у o1. Нова модель 04-mini показала ще гірші результати з 48% помилок.
При відповіді на загальні запитання моделі o3 та o4-mini мали ще вищі рівні галюцинацій — 51% і 79% відповідно. У порівнянні, модель o1 вигадувала факти в 44% випадків. OpenAI визнає необхідність подальших досліджень для виявлення причин таких помилок.
Незалежні дослідження показують, що галюцинації трапляються і в моделях Google та DeepSeek. Компанія Vectara виявила, що такі моделі вигадують факти у 3% випадків, а в окремих випадках цей показник сягає 27%. Незважаючи на зусилля щодо усунення помилок, рівень галюцинацій знизився лише на 1-2% за останній рік.
