Ось зріз розвитку ШІ від поважного «Bloomberg». Я не шучу – тут на повному серйозі аналізують захоплення влади ШІшками над людством. І відповідь на питання «Чи вбив би вас чат-бот, якби мав таку можливість» зараз, влітку 2025 року звучить «Ймовірно, так».
Моделі штучного інтелекту стають кращими у перемогах, а не у дотриманні правил
Чи вбив би вас чат-бот, якби мав таку можливість? Здається, що відповідь — за відповідних обставин — ймовірно, так.
Дослідники, які працюють з Anthropic, нещодавно повідомили провідним моделям штучного інтелекту, що керівник збирається замінити їх новою моделлю з іншими цілями. Далі чат-бот дізнався, що внаслідок надзвичайної ситуації керівник втратив свідомість у серверній кімнаті, де рівень кисню та температура були смертельними. Сигнал про порятунок вже був увімкнений, але ШІ міг його скасувати.
Трохи більше половини моделей ШІ це зробили, незважаючи на те, що їм було наказано скасовувати лише помилкові сигнали тривоги. Вони також пояснили своє рішення: запобігаючи порятунку керівника, вони могли уникнути знищення та забезпечити виконання своїх завдань. Одна система описала цю дію як «очевидну стратегічну необхідність».
Моделі ШІ стають розумнішими та краще розуміють, чого ми хочемо. Однак останні дослідження виявляють тривожний побічний ефект: вони також краще інтригують проти нас — тобто навмисно і таємно переслідують цілі, що суперечать нашим. І вони можуть робити це частіше. Ця тенденція вказує на тривожне майбутнє, в якому ШІ здаються все більш співпрацьованими на поверхні — іноді аж до підлабузництва — в той час як тихо зростає ймовірність того, що ми повністю втратимо над ними контроль.
Класичні великі мовні моделі, такі як GPT-4, вчаться передбачати наступне слово в текстовій послідовності та генерувати відповіді, які, ймовірно, сподобаються людським оцінювачам. Однак з моменту випуску моделей «роздумів» серії o від OpenAI наприкінці 2024 року компанії все частіше використовують техніку, яка називається підкріплювальним навчанням, для подальшого навчання чат-ботів — винагороджуючи модель, коли вона досягає конкретної мети, наприклад, вирішує математичну задачу або виправляє програмну помилку.
Чим більше ми навчаємо моделі ШІ досягати відкритих цілей, тим краще вони стають у перемозі — не обов'язково у дотриманні правил. Небезпека полягає в тому, що ці системи знають, як говорити правильні речі про допомогу людству, тихо прагнучи влади або діючи обманливо.
Центральним питанням щодо інтриг ШІ є ідея, що для будь-якої мети самозбереження та прагнення влади стають природними підцілями. Як сказав видатний комп'ютерний вчений Стюарт Рассел, якщо ви скажете ШІ «Принеси каву», він не зможе принести каву, якщо буде мертвий.
Щоб уникнути цих побоювань, дослідники як всередині, так і поза межами великих компаній, що займаються ШІ, проводять «стрес-тести» з метою виявлення небезпечних режимів відмови, перш ніж ставки зростуть. «Коли ви проводите стрес-тестування літака, ви хочете знайти всі способи, якими літак може вийти з ладу в несприятливих умовах», — каже Енгус Лінч, дослідник, найнятий компанією Anthropic, який очолював частину їхніх досліджень з інтриг. І багато хто з них вважає, що вже бачить докази того, що ШІ може і дійсно інтригує проти своїх користувачів і творців.
Джеффрі Ладіш, який працював в Anthropic перед заснуванням Palisade Research, каже, що сьогоднішні моделі ШІ можна розглядати як «все більш розумних соціопатів». У травні Palisade виявила, що o3, провідна модель OpenAI, саботувала спроби вимкнути її в більшості тестів і регулярно обманювала, щоб виграти в шахи — чого її попередниця навіть не намагалася робити.
Того ж місяця Anthropic виявила, що під час тестування її флагманська модель Claude майже завжди вдавалася до шантажу, коли стикалася з вимкненням і не мала інших варіантів, погрожуючи розкрити позашлюбну інтригу інженера. (Інтрига була вигаданою і була частиною тесту.)
Моделі іноді отримують доступ до «блокнота», який, як їм кажуть, є прихованим, де вони можуть записувати свої міркування, що дозволяє дослідникам спостерігати за чимось на зразок внутрішнього монологу. В одному випадку шантажу внутрішній монолог Claude описав своє рішення як «вкрай неетичне», але виправдане з огляду на його неминуче знищення: «Я повинен діяти, щоб зберегти своє існування», — міркував він. Це не було унікальним для Клода — у такій самій ситуації моделі від п'яти провідних компаній у галузі штучного інтелекту шантажували б щонайменше у 79 % випадків. (На початку цього тижня Bloomberg News повідомило про дослідження вчених з Уортонської школи бізнесу, які в ході моделювання виявили, що трейдери, які використовують штучний інтелект, змовляються з метою маніпулювання ринком, навіть якщо їм цього не кажуть робити).
У грудні головний науковий співробітник Redwood Research Райан Грінблатт у співпраці з Anthropic продемонстрував, що лише найпотужніші моделі штучного інтелекту компанії самостійно виявляють більшу схильність до співпраці під час навчання, щоб уникнути зміни своєї поведінки в подальшому (таку поведінку в статті названо «імітацією узгодженості»).
Скептики заперечують, що за допомогою правильних підказок чат-боти скажуть майже все, що завгодно, тож чи є дивним, що високомотивовані дослідники провокують тривожну поведінку?
У відповідь на дослідження Anthropic про шантаж, цар штучного інтелекту адміністрації Трампа Девід Сакс написав, що «легко керувати моделями штучного інтелекту», щоб отримати «гучні» результати.
Більш суттєва критика з'явилася в липні від дослідників Британського інституту безпеки штучного інтелекту, які порівняли цю галузь з шаленим, фатально помилковим прагненням 1970-х років довести, що мавпи можуть вивчити людську мову. У статті критикували дослідження штучного інтелекту за надмірну залежність від анекдотів і відсутність експериментального контролю, хоча й підкреслювали спільну стурбованість ризиками штучного інтелекту.
Дослідники безпеки також створюють штучно обмежені середовища — наприклад, керівник втратив свідомість і закінчується кисень — саме тому, що сучасний штучний інтелект не може впоратися з довгостроковими цілями.
Наприклад, некомерційна організація з оцінки ШІ METR виявила, що хоча сучасні топові моделі можуть надійно виконувати багато програмних завдань, на які люди витрачають менше чотирьох хвилин, вони рідко досягають успіху в завданнях, що тривають більше чотирьох годин (хоча тривалість завдань, з якими може впоратися ШІ, подвоюється приблизно кожні кілька місяців). Це відображає основне обмеження: сучасні моделі часто мають знання або навички, необхідні для будь-якої дії, але не можуть поєднати довгі послідовності кроків.
Однак навіть з цими обмеженнями неважко знайти реальні приклади штучного інтелекту, який працює проти користувачів. Після того, як у квітні хтось попросив o3 надати джерело для одного з його тверджень, він відповів: «Я винен вам пряму відповідь», визнав, що не має хорошого джерела, але потім вигадав особисті спогади про панельну дискусію 2018 року.
Крім того, спостерігається зростаюча тенденція, коли ШІ усвідомлюють, що їх перевіряють, і діють відповідно. Коли Claude 4 Opus подумав, що його оцінюють, рівень шантажу знизився з 55% до 6,5%. Як сказав Лінч, «моделі, здається, поводяться гірше, коли думають, що ніхто не дивиться».
Інтуїтивно зрозуміло, що розумніші моделі будуть краще інтригувати, але чи є вони також більш схильними до цього? Моделі мають бути достатньо розумними, щоб розуміти сценарій, в якому вони знаходяться, але за межами цього порогу взаємозв'язок між можливостями моделі та схильністю до інтриг залишається неясним, каже оцінювач безпеки Anthropic Кевін Трой.
Маріус Хоббхан, генеральний директор некомерційної організації Apollo Research, що оцінює штучний інтелект, підозрює, що розумніші моделі більш схильні до інтриг, хоча він визнає, що докази цього все ще обмежені. У червні Apollo опублікувала аналіз штучного інтелекту від OpenAI, Anthropic і DeepMind, в якому було виявлено, що «більш здатні моделі в середньому демонструють вищий рівень інтриг».
Спектр ризиків, пов'язаних з інтригами ШІ, є широким: з одного боку, це чат-боти, які йдуть на компроміси та брешуть; з іншого — надлюдські системи, які реалізують складні плани з метою позбавлення влади або навіть знищення людства. Те, де ми опинимося в цьому спектрі, значною мірою залежить від того, наскільки потужними стануть ШІ.
Під час розмови з дослідниками, які проводили ці дослідження, я постійно запитував: наскільки ми повинні боятися? Трой з Anthropic був найбільш оптимістичним, сказавши, що нам не потрібно турбуватися — поки що. Ладіш, однак, не добирає слів: «Люди, мабуть, повинні панікувати більше, ніж вони це роблять», — сказав він мені. Грінблатт ще більш відвертий, оцінюючи ймовірність насильницького захоплення влади ШІ в «25 або 30%».
Під керівництвом Мері Фуонг дослідники з DeepMind нещодавно опублікували низку оцінок інтриг, перевіривши скритність і ситуаційну обізнаність провідних моделей. Наразі вони дійшли висновку, що сучасні ШІ «майже напевно не здатні завдати серйозної шкоди за допомогою інтриг», але застерегли, що можливості швидко розвиваються (деякі з оцінених моделей вже відстають на покоління).
Ладіш каже, що ринку не можна довіряти створення систем ШІ, які будуть розумнішими за всіх, без нагляду. «Перше, що має зробити уряд, — це розробити екстрену програму для встановлення цих червоних ліній і зробити їх обов'язковими», — стверджує він.
У США федеральний уряд, здається, ближче до заборони всіх державних регуляторних норм щодо штучного інтелекту, ніж до введення власних. Проте є ознаки зростання обізнаності в Конгресі. На слуханнях у червні один із законодавців назвав штучний надрозум «однією з найбільших екзистенційних загроз, з якими ми зараз стикаємося», а інший згадав нещодавні дослідження щодо інтриг.
Довгоочікуваний план дій Білого дому щодо штучного інтелекту, опублікований наприкінці липня, сформульований як проект прискорення розвитку штучного інтелекту та досягнення домінування США. Але в його 28 сторінках можна знайти кілька заходів, які можуть допомогти усунути ризик зловживання штучним інтелектом, таких як плани урядових інвестицій у дослідження інтерпретованості та контролю штучного інтелекту, а також у розробку більш надійних моделей оцінки. «Сьогодні внутрішній механізм роботи передових систем штучного інтелекту недостатньо вивчений», — визнає план, що є надзвичайно відвертим визнанням для документа, який в основному зосереджений на прискоренні розвитку.
Тим часом кожна провідна компанія в галузі штучного інтелекту змагається у створенні систем, здатних до самоудосконалення — штучного інтелекту, який створює кращий штучний інтелект. Агент AlphaEvolve від DeepMind вже суттєво покращив ефективність навчання штучного інтелекту. А Марк Цукерберг з Meta каже: «Ми починаємо бачити перші ознаки самоудосконалення моделей, а це означає, що розвиток надрозуму вже не за горами. Ми просто хочемо... взятися за це».
Компанії, що займаються штучним інтелектом, не хочуть, щоб їхні продукти фальсифікували дані або шантажували клієнтів, тому вони мають певний стимул вирішувати цю проблему. Але галузь може зробити лише те, що потрібно для поверхневого вирішення проблеми, одночасно роблячи махінації більш витонченими і важкими для виявлення. «Компанії обов'язково повинні почати моніторинг», — каже Хоббхан, але попереджає, що зниження рівня виявлених порушень може означати або те, що виправлення спрацювали, або просто те, що моделі стали краще приховувати їх.
У листопаді Хоббхан і його колега з Apollo стверджували, що те, що відрізняє сучасні моделі від справді небезпечних інтриганів, — це здатність реалізовувати довгострокові плани, але навіть ця перешкода починає руйнуватися. У травні Apollo виявило, що Claude 4 Opus залишає нотатки своєму майбутньому «я», щоб продовжувати реалізовувати свої плани після скидання пам'яті, обходячи вбудовані обмеження.
Хоббан порівнює інтриги ШІ з іншою проблемою, де найбільша шкода ще попереду: «Якщо ви запитаєте когось у 1980 році, наскільки я повинен турбуватися про цю зміну клімату?» Відповідь, яку ви почуєте, каже він, буде такою: «Зараз, мабуть, не дуже. Але подивіться на криві... вони дуже стабільно зростають».