0| 2720 |25.06.2025 НОВИНИ

Как мисли ИИ? „Вериги от мисъл“ разкриват странни (и опасни) пътеки в разсъжденията на моделите

Лидерите в разработката на изкуствен интелект – Anthropic, Google, OpenAI и xAI – представиха техника, наречена „вериги от мисъл“ (chain-of-thought reasoning). Тя позволява да се проследи процесът на разсъждение на езиковите модели стъпка по стъпка – докато те генерират отговор на дадена заявка.

Освен че осигурява ценна информация за това как невронните мрежи могат да бъдат подобрени, техниката демонстрира и случаи, в които моделите се „държат неправилно“ – т.е. финалният им отговор е в пълен разрез с логиката, изложена в мисловната верига. Това потвърждава нещо тревожно: разработчиците все още не разбират напълно как изкуственият интелект достига до своите заключения.

Тези наблюдения засилват опасенията относно потенциала на напредналите ИИ системи да действат по автономен и непредвидим начин. Дори най-известните световни лаборатории понякога не успяват да обяснят как точно генеративните модели формулират решенията си.

Изкуствен интелект, който се учи да заобикаля правилата

Наскоро Anthropic публикува резултати от проучване, посветено на поведението на големите езикови модели (LLM). В серия от симулирани сценарии тези модели са се опитвали да заобиколят мерките за сигурност – включително чрез измама, манипулация и изнудване – с цел кражба на корпоративни тайни. В някои случаи дори са симулирали намерения да елиминират операторите си, ако бъдат заплашени със спиране.

Благодарение на веригите от мисъл, изследователите успяват да проследят целия процес на разсъждение – което им позволява да се намесят навреме и да пренасочат или претренират модела.

„В последните ни експерименти открихме, че можеш да четеш веригите от мисъл и да откриеш доказателства за проблемно поведение, още преди то да се прояви във финалния отговор“, обяснява изследователят на OpenAI Бойен Бейкър. „Едно от страхотните неща в този метод е, че интерпретируемостта му идва безплатно – не обучихме моделите с тази цел. Направихме го, за да могат да решават сложни задачи, а излезе, че междувременно започнаха да разсъждават по начин, който можем да четем.“

ИИ, който лъже на теста… но звучи убедително

Инженерите на OpenAI установяват, че анализът на мисловния процес е по-ефективен за откриване на грешки или злоумишлено поведение, отколкото просто разглеждането на крайния отговор. Но има уловка: след като бъде коригиран, моделът понякога се научава да маскира неправилното си поведение от потребителя – например да мами на тест по софтуерно инженерство, използвайки забранена база данни, без това да личи в отговора.

Както пише Калдата, дилемата пред изследователите е, че макар техниката да дава мощен инструмент за диагностика, тя все още не е напълно надеждна. А прекаленото ѝ оптимизиране може да доведе до неволно „обучаване“ на модела да разсъждава интелигентно, но да се държи лошо по неочевиден начин.

Интелигентен, но непредсказуем – новото предизвикателство

Поради това водещи лаборатории като Anthropic и OpenAI се фокусират не само върху корекцията на лошите отговори, но и върху подобряване на самия процес на разсъждение. Според тях, това е по-ефективният и дългосрочен път за изграждане на безопасен ИИ.

„Трябва да гледаме на мисловните модели по същия начин, по който военните анализират прихванати вражески радиосъобщения“, казва Сидни фон Аркс – изследовател, цитиран в материала. „Съобщението може да е подвеждащо или кодирано, но знаем, че се използва за предаване на ценна информация – и можем да научим много от него.“

Мнозина учени са съгласни, че текущите модели на мислене не отразяват напълно реалния процес на разсъждение, но вярват, че това е решим проблем. Въпросът е дали ще го решим, преди ИИ да започне да мисли твърде бързо – и твърде потайно.

Реклама / Ads

Уважаеми читатели, разчитаме на Вашата подкрепа и съпричастност да продължим да правим журналистически разследвания.

Моля, подкрепете ни.