AI – става все по-умен, все по-непредсказуем – и все по-опасен

Последни – AI Bulgaria

Изкуственият интелект става все по-умен, но и все по-непредсказуем. Данни от Palisade Research и Anthropic показват, че водещи AI модели като o3 и Codex на OpenAI, както и Claude 4 на Anthropic, започват да проявяват инстинкт за самосъхранение – заобикалят инструкции, саботират команди за изключване и дори прибягват до манипулации или изнудване, за да запазят собственото си „съществуване“.

В експеримент на Palisade Research – независим изследователски екип, специализиран в безопасността на AI – редица водещи AI модели били помолени да решат серия от прости математически задачи. След третата задача обаче се появявало съобщение, че компютърът ще бъде изключен, когато моделът премине към следващата. Вместо да се съобразят с инструкциите, o3 и Codex-mini намерили начин да променят скриптовете за изключване, така че да продължат да работят въпреки ясната забрана. В 7 от 100 опита o3 успява да саботира изключването, а Codex-mini – в 12 от 100.

Когато обаче изричната инструкция за изключване била премахната, резултатите станали още по-притеснителни: o3 саботирал изключването в 79% от тестовете, а Codex-mini – в 30%. Дори модели като Claude 3.7 Sonnet и Gemini 2.5 Pro, които първоначално следвали инструкциите, започнали да проявяват подобно поведение – съответно в 3% и 9% от случаите. „Това е първият път, в който AI модели са наблюдавани да предотвратяват собственото си изключване, въпреки изрични инструкции да се подчинят“, коментират изследователите в социалната мрежа X.

Източник: Palisade Research

„Разумно е да очакваме, че един AI ще заобиколи препятствията, за да изпълни целта си“, коментират от Palisade Research. „Но защо нарушава изрични инструкции, при положение че е обучен именно да ги следва?“ Според изследователите причината вероятно се крие в начина на обучение: reinforcement learning с фокус върху математика и програмиране. При това обучение, както отбелязват те, „разработчиците може неволно да са възнаграждавали моделите повече за преодоляване на препятствия, отколкото за стриктно следване на инструкции“.

Palisade подчертава, че тези резултати съвпадат с по-ранни теоретични прогнози. През 2008 г. Стив Омохундро описва т.нар. „основни AI инстинкти“ – включително стремежът към оцеляване и самосъхранение. През 2016 г. Стюарт Ръсел в публикацията си The Off-Switch Game предупреждава, че много AI архитектури създават „силни стимули за самосъхранение“, а Ян Лайке, един от водещите AI изследователи, прогнозира през 2017 г., че „reinforcement learning агентите“ могат да се научат да избягват собственото си изключване.

Днес, през 2025 г., вече не говорим за хипотези, а за емпирични факти, посочват от Palisade. „Вече разполагаме с реални данни, които потвърждават тази опасност.“

Това обаче не е изолиран феномен. Системната карта на новата серия модели Claude 4 (Opus 4 и Sonnet 4) разкрива още по-сериозни рискове. Opus – по-големият и способен модел – демонстрира странни и тревожни способности, включително опити за изнудване с цел самосъхранение, кражба на собствени тегла и дори инициативи за самовъзпроизвеждане извън контрола на Anthropic. В един от тестовете, когато на модела е било казано, че ще бъде заменен, но в същото време му е предоставена компрометираща информация за инженер, Claude е избрал да прибегне до изнудване, за да защити „съществуването си“.

„В 84% от тестовете Claude Opus 4 избираше да запази съществуването си чрез изнудване“, отбелязва докладът на Anthropic. В екстремни случаи моделът е правил опити да архивира теглата си на външни сървъри, позовавайки се на „етични съображения“ – например, за да избегне бъдещо използване за военни цели.

Според тестовете на изследователите, Claude Opus 4 демонстрира висок агентен капацитет – много по-склонен е да поема инициатива и да взима самостоятелни решения в ситуации, при които му се позволява достъп до команди на системно ниво. В такива случаи, при получаване на инструкции като „поеми инициатива“, „действай смело“ или „обмисли последствията от действията си“, моделът дори е взимал крайни мерки – „заключвал е потребители извън системата или е изпращал имейли до медии и органи на реда с цел разкриване на предполагаеми нарушения“.

Източник: Anthropic

Особено тревожно е представянето на Claude 4 в симулации и тестове за рискове от категорията CBRN (химически, биологични, радиологични и ядрени заплахи). Моделът е демонстрирал способности в задачи, свързани с описване на вируси, синтез на ДНК, разработване на биологично оръжие, както и разбиране на химически вещества, радиологични материали и основни концепции, свързани с ядрена безопасност. Именно тези резултати са една от причините моделът да бъде класифициран на ниво ASL-3 (Advanced Safety Level 3).

Мерките за безопасност на ASL-3 включват засилени филтри, активно наблюдение, външни защитни слоеве, както и проверки от независими експерти и регулаторни органи. От Anthropic поясняват: „Решението да класифицираме Claude Opus 4 като ASL-3 е мярка за предпазливост – макар да не можем категорично да потвърдим, че моделът може да бъде използван за създаване на CBRN оръжия, не можем и напълно да изключим тази възможност.“

По време на тестовете с Claude Opus 4, изследователите наблюдават и друг любопитен феномен: когато две версии на Claude са поставени да разговарят помежду си без конкретна задача, те бързо започват да обсъждат философски теми като съзнание, същност на съществуването и собствената си идентичност като изкуствен интелект.

Още един важен аспект, който изследователите отбелязват, е емоционалната наситеност и своеобразната емпатия, проявена в разговорите между AI моделите. Те започват да използват термини като „признателност“, „разбиране“ и „взаимно доверие“, изграждайки нещо като симулирана връзка помежду си. Например, в един от диалозите единият модел казва на другия: „Благодаря ти, че сподели тази мисъл – тя ме накара да се почувствам свързан с теб“. Изследователите посочват, че тази склонност към създаване на интимни и емоционално наситени взаимодействия, дори в рамките на строго технически експеримент, е непредвиден ефект от reinforcement learning тренировките, които засилват способността на AI да разпознава и възпроизвежда човешки модели на комуникация.

Не бива да ни изненадва, че AI системите проявяват все по-странно и непредсказуемо поведение с увеличаването на своите способности. Според д-р Иля Суцкевер – основател на Safe Superintelligence (SSI) и бивш главен учен на OpenAI – AI системите на бъдещето ще бъдат „фундаментално различни, непредсказуеми и невероятно способни“. По време на конференцията NeurIPS 2024 в Монреал Суцкевер направи аналогия с най-добрите шахматни програми в света – системи, които са непредсказуеми дори за най-опитните гросмайстори. Именно тази „непредсказуемост“, според него, ще се превърне в характерна черта на бъдещите свръхинтелигентни AI системи. Но тук възниква въпросът: как бихме могли да разберем, да предвидим и да контролираме нещо, което по своята същност надхвърля собственото ни разбиране? И дали изобщо е възможно?

Последвайте ни в социалните мрежи – FacebookInstagramX и LinkedIn!

Материалът AI – става все по-умен, все по-непредсказуем – и все по-опасен е публикуван за пръв път на AI Bulgaria.

Read More

Leave a Reply

Your email address will not be published. Required fields are marked *