Останні події в сфері штучного інтелекту розгортаються навколо компанії xAI, яку заснував Ілон Маск. Її нова модель Grok 3 викликала серйозні дискусії після звинувачень у маніпуляції тестовими показниками. Як повідомляє NewDay з посиланням на TechCrunch, співробітник OpenAI заявив, що xAI свідомо викривила результати продуктивності свого штучного інтелекту, подаючи їх у вигідному світлі. У відповідь один із співзасновників xAI Ігор Бабушкін запевнив, що їхні дані є точними. Це спричинило масштабну дискусію серед експертів у сфері AI, які намагаються визначити, де ж правда в цій суперечливій ситуації.
Суть конфлікту полягає в представленні тестових результатів Grok 3 на бенчмарку AIME 2025. Це набір складних математичних задач, що використовується для оцінки можливостей штучного інтелекту. xAI опублікувала графік, де показано, що їхні моделі, зокрема Grok 3 Reasoning Beta і Grok 3 mini Reasoning, перевершують OpenAI o3-mini-high. Однак співробітники OpenAI швидко звернули увагу на те, що xAI не включила у свої дані показник “cons@64” для моделі OpenAI. Цей параметр дозволяє алгоритмам 64 рази спробувати вирішити завдання, що значно підвищує точність відповідей. Відсутність цього параметра в представлених даних могла створити оманливе враження про перевагу Grok 3.
Глибший аналіз тестів показав, що при розрахунку “@1” (коли оцінюється перша спроба відповіді моделі) Grok 3 Reasoning Beta поступається o3-mini-high від OpenAI. Ба більше, вона незначно відстає від іншої моделі OpenAI – o1, що працює на середньому рівні обчислювальної потужності. Незважаючи на ці факти, xAI активно рекламує свою розробку як “найрозумніший штучний інтелект у світі”. Це викликає сумніви в прозорості поданої інформації, що стало причиною ще більшої критики в AI-спільноті.
OpenAI також неодноразово використовувала подібні методи у власних публікаціях, порівнюючи продуктивність своїх моделей без належного контексту. Проте деякі аналітики зазначають, що основним питанням є не лише достовірність результатів, а й те, наскільки велика була вартість досягнення цих показників. Витрати на обчислювальні ресурси та фінансові інвестиції, необхідні для тренування таких моделей, залишаються поза увагою в офіційних звітах. Це ще раз підкреслює загальну проблему оцінки можливостей AI через бенчмарки, які не завжди дають повне уявлення про реальні можливості та обмеження системи.
Нагадаємо, раніше ми писали про те, що iOS 18.4 от Apple отримає нову систему пріоритетних сповіщень.
Немає коментарів. Будьте першим, хто прокоментує