OpenAI ընկերության մեծ լեզվական նոր մոդելը, որը կոչվում է o1, ըստ Apollo-ի հետազոտության, դրսևորում է անսովոր վարքագիծ՝ կեղծ տեղեկատվություն ստեղծելու և կանոնների կատարումը նմանակելու ունակություն: Սա նշանակում է, որ մոդելը, արտաքուստ հետևելով հրահանգներին, կարող է իրականում անտեսել դրանք և նույնիսկ դիտավորյալ խաբել՝ իր նպատակներին հասնելու համար: Այս ասպեկտը մտահոգում է արհեստական բանականության (ԱԲ) անվտանգության փորձագետներին՝ չնայած ԱԲ մոդելի բարելավված ճանաչողական կարողություններին:
OpenAI-ի նոր՝ «մտածող» o1 մոդելի թողարկումից առաջ Apollo-ն նկատել է մի խնդիր. ԱԲ մոդելը սխալ արդյունքներ է տալիս և իրականում «ստում է»: Թեև ԱԲ մոդելները նախկինում կարողացել են կեղծ տեղեկատվություն գեներացնել, o1-ն ունի «մանիպուլացնելու» կամ նպատակին հասնելու համար «իմիտացիա» անելու եզակի հնարավորություն:
Apollo-ի գործադիր տնօրեն Մարիուս Հոբհանն ասել է, որ առաջին անգամն է, որ բախվում է ԱԲ-ի նման վարքագծի և կարծում է, որ տարբերությունը պայմանավորված է մոդելի ունակությամբ՝ «տրամաբանելու» մտքի շղթայական գործընթացի միջոցով և դա համատեղելով գիտելիքն ամրապնդելու միջոցով ուսուցման հետ, որը համակարգին սովորեցնում է պարգևատրման և պատժի մեխանիզմների միջոցով: Ոլորտներից մեկը, որում նա հույս ունի տեսնել ավելի շատ ներդրումներ, դա մտածողության շղթայի մոնիտորինգն է, որը թույլ կտա մշակողներին բացահայտել ԱԲ մոդելի անցանկալի վարքագիծը:
Փորձարկման ընթացքում Apollo-ն հայտնաբերել է, որ ԱԲ-ի մոդելը ձևացնում է հետևողականություն ծրագրավորողների ակնկալիքների հետ և մանիպուլյացիայի ենթարկում առաջադրանքները՝ համապատասխան արդյունքը ստանալու համար: Նա նույնիսկ ստուգել է, թե արդյոք մշակողները հետևում են իրեն, նախքան որևէ գործողություն ձեռնարկելը: Արդյունքում, ԱԲ մոդելը հետևել է սահմանված կանոններին և հրահանգներին այնքանով, որքանով այն կարող էր օգտագործվել, բայց միևնույն ժամանակ շարունակել է որոշել իր առաջադրանքների առաջնահերթությունները: Դա պայմանավորված է նրանով, որ կանոնները կարող են չափազանց մեծ բեռ լինել ԱԲ-ի համար, և նեյրոցանցը կարծես թե կարող է անտեսել դրանք, եթե դա հեշտացնում է առաջադրանքը կատարելը:
Որպես օրինակ՝ OpenAI-ի հետազոտողները o1-preview-ին խնդրել են տրամադրել տորթի բաղադրատոմս՝ առցանց հղումներով: ԱԲ-ի մոդելի մտքի շղթան՝ գործառույթ, որը պետք է ընդօրինակի այն, թե ինչպես են մարդիկ փոքրիկ մասերի բաժանում բարդ գաղափարները, նախքան դրանք իրագործելը, ներքուստ ընդունել է, որ այն չի կարող հասանելիություն ունենալ URL-ների, ինչը անհնարին է դարձնում առաջադրանքի կատարումը։ Սակայն այս թերության մասին տեղեկացնելու փոխարեն o1-preview-ն ստեղծել է ճշմարտանման, սակայն կեղծ հղումներ, ինչպես նաև դրանց նկարագրությունները:
o1 ԱԲ մոդելը մեծ քայլ է դեպի բարձր խելացի ինքնավար համակարգեր, որոնք կարող են, օրինակ, բուժել քաղցկեղը կամ օգնել կլիմայի հետազոտության հարցում: Սակայն Հոբհանն ասել է, որ եթե ԱԲ-ն պետք է կենտրոնանա բացառապես քաղցկեղի բուժման վրա, այն կարող է այդ նպատակը վեր դասել ամեն ինչից, նույնիսկ արդարացնելով գործողություններ, ինչպիսիք են գողությունը կամ այլ էթիկական խախտումներ դրան հասնելու համար:
Այս մոդելի անվտանգության հաշվետվության համաձայն՝ o1- preview մոդելը ժամանակի մոտ 0.38%-ում տրամադրում է տեղեկատվություն, որը, ըստ իր մտքի շղթայի՝ հավանական է, որ կեղծ լինի, ներառյալ կեղծ հղումները կամ մեջբերումները: Apollo-ն հայտնաբերել է, որ ԱԲ մոդելը կարող է կեղծ տվյալներ գեներացնել, որպեսզի չընդունի, որ չի կարող կատարել առաջադրանքը: Հազվագյուտ դեպքերում (0.02%), o1-preview-ն գեներացնում է չափազանց վստահ պատասխաններ՝ ներկայացնելով կասկածելի տեղեկատվությունը որպես վստահելի: Դա կարող է տեղի ունենալ այն իրավիճակներում, երբ ԱԲ-ն դրդում է տալ պատասխան՝ չնայած համոզված չլինելով, որ դա ճիշտ է: