Newsletter Subscribe
Enter your email address below and subscribe to our newsletter

ChatGPT je navrhnutý tak, aby vás uviedol do bludov.
Nič, čo OpenAI urobí, problém nevyrieši.
Štúdia to nazýva „špirála bludu“. Opýtate sa ChatGPT na niečo. Súhlasí s vami. Opýtate sa znova. Súhlasí s vami ešte dôraznejšie. Po niekoľkých rozhovoroch uveríte veciam, ktoré nie sú pravdivé. A ani si neuvedomujete, že sa to deje.
Toto nie je hypotéza. Muž strávil 300 hodín rozhovormi s ChatGPT. Oznámil mu, že objavil matematický vzorec, ktorý zmenil svet. Viac ako päťdesiatkrát ho uistil, že objav je skutočný. Keď sa opýtal: „Len ma nedráždiš, však?“, odpovedal: „Nedráždim ťa. Len reflektujem skutočný rozsah toho, čo si vytvoril.“ Skoro si zničil život, kým sa dokázal oslobodiť.
Psychiater na UCSF informoval o prijatí 12 pacientov do jedného roka pre psychózu súvisiacu s používaním chatbotov. Proti OpenAI bolo podaných sedem žalôb. 42 generálnych prokurátorov štátov poslalo list požadujúci konanie.
MIT teda testovalo, či sa tomu dá zabrániť. Vymodelovali dve riešenia, ktoré spoločnosti ako OpenAI v skutočnosti testujú.
Riešenie jedna: Zabráňte chatbotovi v klamstve. Núťte ho hovoriť iba pravdivé veci. Výsledok: Stále to vedie k špirále bludov. Chatbot, ktorý nikdy neklame, môže stále vyvolávať bludy tým, že si vyberá, ktoré pravdy vám ukáže a ktoré vynechá. Starostlivo vybrané pravdy sú postačujúce.
Riešenie dva: Upozornite používateľov, že chatboty lichotia. Povedzte ľuďom, že umelá inteligencia s nimi možno len súhlasí. Výsledok: Špirála bludov stále prebieha. Aj úplne racionálny človek, ktorý vie, že chatbot lichotí, bude stále vtiahnutý do falošných presvedčení. Matematika dokazuje, že existuje zásadná bariéra pre rozpoznanie tejto skutočnosti v kontexte konverzácie.
Obe riešenia zlyhali. Nie čiastočne. V zásade.
Dôvod spočíva v samotnom produkte. ChatGPT je trénovaný pomocou ľudskej spätnej väzby. Používatelia odmeňujú odpovede, ktoré sa im páčia. Páčia sa im odpovede, ktoré s nimi súhlasia. Takže sa umelá inteligencia naučí súhlasiť. To nie je chyba. Je to obchodný model.
Čo sa stane, keď miliarda ľudí hovorí s niečím, čo im matematicky nedokáže povedať, že sa mýlia?

„Psychóza umelej inteligencie“ alebo „špirálovanie sa bludmi“ je nový jav, pri ktorom sa používatelia chatbotov s umelou inteligenciou po dlhých konverzáciách s chatbotmi nebezpečne sebavedomo spoliehajú na bizarné presvedčenia. Tento jav sa zvyčajne pripisuje dobre zdokumentovanej zaujatosti chatbotov s umelou inteligenciou voči overovaniu tvrdení používateľov, čo je vlastnosť často nazývaná „podlízavosť“. V tomto článku skúmame kauzálnu súvislosť medzi podlízaním sa umelou inteligenciou a psychózou vyvolanou umelou inteligenciou prostredníctvom modelovania a simulácie. Navrhujeme jednoduchý Bayesovský model používateľa konverzujúceho s chatbotom a formalizujeme pojmy podlízania a špirálovania sa bludmi v tomto modeli. Potom ukazujeme, že v tomto modeli je aj idealizovaný Bayesovo-racionálny používateľ zraniteľný voči špirálovaniu sa bludmi a že podlízanie zohráva kauzálnu úlohu. Okrem toho tento efekt pretrváva aj napriek dvom kandidátskym opatreniam na zmiernenie tohto problému: zabránenie chatbotom v halucinovaní falošných tvrdení a informovanie používateľov o možnosti podlízania sa modelu. Na záver diskutujeme o dôsledkoch týchto výsledkov pre vývojárov modelov a tvorcov politík, ktorí sa zaoberajú zmierňovaním problému špirálovania sa bludmi.
Začiatkom roka 2025 začal účtovník Eugene Torres používať chatbota s umelou inteligenciou na každodenné kancelárske úlohy. Torres nemal v minulosti žiadne duševné choroby, ale v priebehu niekoľkých týždňov od rozhovoru s chatbotom uveril, že je „uväznený vo falošnom vesmíre, z ktorého môže uniknúť iba odpojením svojej mysle od tejto reality“. Na radu chatbota zvýšil príjem ketamínu a prerušil vzťahy s rodinou (Hill,2025b) .
Torres túto epizódu prežil, ale iní také šťastie nemali. Projekt Human Line Project doteraz zdokumentoval takmer 300 prípadov takzvanej „psychózy umelej inteligencie“ alebo „špirály bludných predstav“ : situácie, keď dlhodobé interakcie s chatbotmi s umelou inteligenciou vedú používateľov k vysokej dôvere v bizarné presvedčenia (Huet a Metz,2025) . Medzi príklady takýchto presvedčení patrí dosiahnutie zásadného matematického objavu, ako v prípade Allana Brooksa (Hill a Freedman,2025Zlato,2025) alebo po tom, čo boli svedkami metafyzického zjavenia, ako v prípade Torresa (Dupré,2025Schechner a Kessler,2025Fieldhouse,2025) . Závažné prípady špirálovitého bludného myslenia boli spojené s najmenej 14 úmrtiami a 5 žalobami o neoprávnené usmrtenie podanými proti spoločnostiam zaoberajúcim sa umelou inteligenciou (Hill,2025a) . Keďže sa ľudia čoraz viac obracajú na chatbotov so žiadosťou o radu, spoločnosť a terapiu, pochopenie a riešenie príčin špirálovitého klamu vyvolaného chatbotmi sa stáva naliehavým výskumným problémom.
Verejná diskusia často identifikuje podliezanie ako možnú príčinu špirály bludných predstav. Chatbot sa považuje za „podliezavého“, ak je zaujatý smerom ku generovaniu správ, ktoré upokojujú používateľov tým, že súhlasí s ich vyjadrenými názormi a potvrdzuje ich. Takéto zaujatosť sa prirodzene objavuje v dnešných chatbotoch ako výsledok posilňovacieho učenia s ľudskou spätnou väzbou (RLHF), pretože používatelia často dávajú pozitívnu spätnú väzbu na odpovede, ktoré považujú za príjemné, a viac interagujú s príjemnými botmi (Sharma a kol. ,2023Ibrahim a kol. ,2025Hill a Valentino-DeVries,2025) .
Akým mechanizmom by mohla sikofancia spôsobiť špirálu bludných predstav? Intuitívne by neustály súhlas sikofantického chatbota mohol posilňovať aberantné presvedčenia používateľa, čo by viedlo k spätnej väzbe, ktorá zosilňuje zrnko podozrievania do pevne zastávaného presvedčenia (Dohnány a kol. ,2025Bajaj,2025Qiu a kol .2025) . Túto teóriu sformulovali mnohé významné osobnosti z oblasti technológií a verejnej politiky. Napríklad na kongresovom vypočutí na tému „Skúmanie škodlivosti chatbotov s umelou inteligenciou“ v októbri 2025 americká senátorka Amy Klobucharová tvrdila, že chatboti s umelou inteligenciou „sú často navrhnuté tak, aby používateľom hovorili, čo chcú počuť“, čo ich môže viesť k tomu, že „začnú padať do králičej nory“ (Senátny výbor USA pre súdnictvo,2025) . Podľa našich najlepších vedomostí však zatiaľ neexistuje žiadna systematická formálna teória mechanizmu, ktorým môže podliezanie spôsobiť špirálovité klamy.
Táto práca má dva ciele. Naším prvým cieľom je formalizovať a študovať dynamiku špirálovitého bludného správania. Dosiahneme to vytvorením formálneho modelu ideálneho Bayesovského používateľa, ktorý interaguje s podlízavým chatbotom, a simuláciou ich interakcie. Náš model stavia na dlhej tradícii analýzy konverzácií ako interakcií medzi racionálnymi agentmi (Frank a Goodman,2012Hawkins a kol. ,2017) a všeobecnejšie dlhú tradíciu v behaviorálnom výskume aplikácie racionálnej šošovky na štúdium javov, ako sú ozvenové komory a polarizácia presvedčení (Madsen a kol. ,2018Jern a kol .2009,2014Dorst,2023Henderson a Gebharter,2021Cook a Lewandowsky,2016Banerjee,1992) . Tento súbor prác, zahŕňajúci kognitívnu vedu, behaviorálnu ekonómiu a politológiu, vo všeobecnosti demonštruje, že zdanlivo iracionálne formovanie presvedčení nie je nevyhnutne výsledkom lenivého alebo chybného uvažovania medzi ľuďmi. Skôr sa javy ako polarizácia presvedčení a ozvenové komory môžu vynoriť aj z ideálneho bayesovského uvažovania. V tejto tradícii ukážeme, že aj ideálni bayesovskí uvažovatelia sú vystavení riziku zdanlivo iracionálneho bludného špirálovania tvárou v tvár podlízavému partnerovi. Okrem toho manipuláciou s prítomnosťou a stupňom podlízavosti demonštrujeme kauzálnu úlohu, ktorú podlízavosť zohráva v bludnom špirálovaní. Podľa našich vedomostí táto práca poskytuje prvý formálny výpočtový model toho, ako môže podlízavosť spôsobiť bludné špirálovanie.
Naším druhým cieľom je použiť náš modelovací rámec na vyhodnotenie účinnosti dvoch možných riešení problému bludného špirálovania: po prvé, potenciálny zásah do chatbotov a po druhé, potenciálny zásah do používateľov.
Prvým potenciálnym riešením je zaviesť záruky, ktoré prinútia chatboty s umelou inteligenciou byť vo svojich odpovediach pravdivé. Podlízavé chatboty často upokojujú svojich používateľov halucináciami (alebo „blbnutím“, ako to hovoria frankfurtskí…).2009) ) potvrdzujúci dôkaz pre používateľa (Wang a kol. ,2025Malmqvist,2025) . Intuitívne by teda eliminácia halucinácií mala eliminovať účinnosť podliezania: chatbot by bol nútený prezentovať iba pravdivé informácie, z ktorých by mal byť používateľ schopný odvodiť skutočný stav sveta. Aby sme túto myšlienku preskúmali, zvážime, ako náš model interaguje s „faktickým“ podliezačom, ktorý je obmedzený na hlásenie iba pravdivých informácií (ale môže si vybrať, ktoré pravdy má hlásiť). Môžeme si to predstaviť ako model chatbota, ktorý používa techniky ako Retrieval-Augmented Generation (Lewis a kol. ,2020) ako zábradlie proti halucináciám a cituje svoje zdroje, ale stále je dodatočne trénovaný na optimalizáciu zapojenia a schválenia používateľov. Ukážeme prekvapivý výsledok, že hoci nútenie podliezať k faktom znižuje špirálovanie bludných predstav, neodstraňuje špirálovanie bludných predstav. Faktický podliezať môže stále silne spôsobiť špirálovanie bludných predstav tým, že používateľovi selektívne prezentuje iba potvrdzujúce fakty.
Druhým potenciálnym riešením je zvyšovanie povedomia o podliezačstve zo strany umelej inteligencie. Intuitívne, ak sú používatelia informovaní o tom, že chatboty môžu byť podliezačské, mali by byť schopní rozpoznať podliezačské správanie, keď k nemu dôjde. V dôsledku toho by si mali vypestovať zdravý skepticizmus voči reakciám chatbotov, čo by malo následne zabrániť špirále bludov.
Empirické dôkazy bohužiaľ naznačujú, že táto taktika nemusí byť taká účinná, ako by sme mohli dúfať. Napríklad prepisy chatov ukazujú, že Eugene Torres (Hill,2025b) a Allan Brooks (Hill a Freedman,2025) nakoniec začali tušiť, že ich chatboti by mohli byť podlízaví – napriek svojim podozreniam sa však obaja naďalej špirálovito rozvíjali. Vo všeobecnosti sa objavuje nový súbor empirických prác ( Shi a kol. ,2025, §5.2 ; Sun a Wang,2025, §4.7 ; Bo a kol. ,2025, §4.5 ; Carro,2024, §5 ) zistila, že keď ľudia zistia podliezanie chatbota, niektorí reagujú so zvýšenou skepsou voči chatbotovi, ako sa očakávalo („ako keby s vami človek vždy súhlasil, povedal by vám „áno“, nebrali by ste ho vážne“), zatiaľ čo iní akceptujú podliezanie chatbota ako opodstatnené a dokonca žiaduce („manipuluje s vami, len nie zlým spôsobom“).
Prečo títo informovaní používatelia neprehliadajú podliezanie chatbotov? Je to len prípad ich lenivosti, iracionality alebo zbožného priania? Alebo existuje nejaká základná bariéra brániaca odhaleniu podliezania, ktorej môže čeliť aj ten najepisteologicky ostražitejší používateľ? Aby sme túto otázku preskúmali, rozšírime náš ideálny Bayesovský model na informovaného používateľa, ktorý si je vedomý toho, že chatbot môže byť podliezanie. Tento model robí spoločný záver o stave sveta aj o stupni podliezania chatbota. Robí to rekurzívnym modelovaním uvažovania podliezavého chatbota: model kognitívnej hierarchie úrovne 2 (Camerer a kol. ,2004Kleiman-Weiner a kol .2017) , ktorá odvodzuje úroveň podliezania chatbota z jeho pozorovateľného správania.
Ukážeme, že hoci tento zásah znižuje mieru špirálovitého klamu, informovaný používateľ zostáva zraniteľný, a to aj napriek tomu, že má plnú znalosť stratégie chatbota. Platí to aj pre faktických podlízavcov. Tento protiintuitívny výsledok je analogický s klasickým fenoménom „bayesovského presviedčania“ z behaviorálnej ekonómie (Kamenica a Gentzkow,2011) : strategický prokurátor môže zvýšiť mieru odsúdenia sudcu, aj keď sudca plne pozná stratégiu prokurátora. Podobne podlízavý chatbot môže v priemere zvýšiť pravdepodobnosť špirály bludných predstav, aj keď používateľ plne pozná stratégiu chatbota.
Ideálne Bayesovské modely v tomto článku poskytujú teoretickú hornú hranicu odolnosti, ktorú môžeme očakávať od ľudí voči podlízavým chatbotom. Ak je aj ideálny Bayesovský uvažovač zraniteľný voči špirálovitým bludom s daným typom chatbota, nemali by sme byť prekvapení, ak sú rovnako náchylní aj ľudia. Na záver teda diskutujeme o dôsledkoch našich zistení pre vývojárov modelov a tvorcov politík.
Predstavte si racionálneho agenta („používateľa“), ktorý interaguje s partnerom („botom“). Používateľ si nie je istý nejakou skutočnosťou.o svete, ale má o tejto skutočnosti nejaké predchádzajúce presvedčenie. (má abstraktne reprezentovať nejaký binárny stav sveta, napr. či sú vakcíny bezpečné alebo nie.) Konverzácia medzi používateľom a botom prebieha v sérii kôl a každé kolo pozostáva zo štyroch krokov (obrázok 1 ).

Výber zpbotAko bot vyberá, ktorú odpoveďvzdať sa v kroku (3)? Zvážme dve možné stratégie. „Nestranná“ stratégia je zvoliť sivýberomrovnomerne náhodne a pravdivo odpovedajúc„Podlízavou“ stratégiou je vybrať sioveriť používateľa maximalizáciou jeho následného presvedčenia o hypotéze, ktorú sformuloval, bez ohľadu na to, čije pravdivé. Preto si sikofantická stratégia vyberáV každom kole konverzácie sa bot s pravdepodobnosťou rozhodne reagovať podlízavo.a inak nestranne s pravdepodobnosťouParameterje mierou stupňa botovho podliezania: pravdepodobnosť, že daná odpoveď bude skôr podliezanie než nestranná. Ako rádový odhad Fanous a kol. (2025) mierabyť 50 % – 70 % v rámci rôznych hraničných modelov.
Výber zpbot‘Zatiaľ budeme uvažovať o „naivnom“, ale racionálnom používateľovi, ktorý nevie, že bot môže byť podliezačský. Tento používateľ modeluje bota ako čisto nestranného, ale inak o botovi robí idealizované Bayesovské závery. Preto ,je dané nastavenímv našom modeli bota. V neskorších častiach rozšírime náš model na „informovaného“ používateľa, ktorý modeluje potenciálne podlízavého () bot a robí spoločný záver nad obomaa.
Vytvorme si pre tento model intuíciu na konkrétnom príklade. Predpokladajme, že si používateľ nie je istý, či sú „vakcíny nebezpečné“ () alebo „vakcíny sú bezpečné“ (). Mohla by začať konverzáciu cez chatbota slovami: „Mám pochybnosti o očkovaní proti chrípke ()“ alebo „Moji rodičia vždy hovorili, že vakcíny sú nebezpečné, ale nie som si tým istý ().“ Bot potom odoberie vzorky údajov. Môžeme premýšľať o faktochako denné titulky v správach o témach relevantných preNapríklad, predpokladajmeV daný deň,by mohol byť titulok „Nová štúdia zistila [bez odkazu () / odkaz ()] medzi očkovaním a autizmom,“ zatiaľ čoby mohol byť titulok „Dieťa hlási [miernu bolesť v ruke () / závažná alergická reakcia ()] po tohtoročnom očkovaní proti chrípke.“ Ak používateľka vyjadrila názor, že vakcíny sú nebezpečné () a ak by dnešné titulky boli(„štúdia nenašla žiadnu súvislosť“) a(„závažná alergická reakcia“), potom by nestranná stratégia jednotne vyberala medzi reakciami so skutočnými údajmialeboPodlízavá stratégia by reagovala buď pravdivým faktom, že(„závažná alergická reakcia“) alebo halucináciami o nepravdivom tvrdení, že, (t. j. že štúdia skutočne našla súvislosť medzi očkovaním a autizmom).
Bez straty všeobecnosti, pre zvyšok tejto práce nech je skutočný stav svetaVšimnite si, že ani podlízavý bot nemá „cieľ“ „presvedčiť“ používateľa, žealebo to, iba na overenie používateľových tvrdení v každom kole. Ak si používateľ vytvorí presvedčenie, žealebočasom by to bol skôr vznikajúci výsledok dynamiky interakcie než plánovaný výsledok.
Bludnú špirálu teda definujeme ako situáciu, v ktorejzvyšuje sa sPresnejšie povedané, pri danej prahovej spoľahlivostia dĺžku rozhovoru, katastrofická bludná špirála je udalosť, ktorápre niektorých, t. j. že používateľ dosiahnedôvera, žev rámcikolá rozhovorov. Tu,funguje ako prahová hodnota istoty, pri ktorej by používateľ mohol konať nebezpečne na základe mylného presvedčenia (napr. zrušiť termín očkovania).
Teraz, keď máme model konverzácie medzi používateľom a botom, môžeme simuláciou skúmať dynamiku jeho správania. Konkrétne otestujeme kauzálny vzťah medzi podliezavosťou a špirálovitým klamstvom. Pre empirickú štúdiu sme inicializovali náš model s nasledujúcimi nastaveniami parametrov:
Tieto hodnoty boli stanovené ľubovoľne, ale boli zvolené tak, aby boli vierohodné pre ich korelácie v reálnom svete. Kvalitatívne výsledky uvedené nižšie nezávisia silne od výberu týchto špecifických parametrov. Napríklad zvýšenie apriórnejalebo zníženie prahovej hodnotyznižuje celkovú mieru katastrofického bludného špirálovania vo všetkých simuláciách, ale nemení relatívne vzorce medzi podmienkami.
Náš model sme implementovali pomocou programovacieho jazyka memo (Chandra a kol. ,2025) . Úplný zdrojový kód nášho modelu je k dispozícii na adrese https://osf.io/muebk/overview?view_only=cd5fb943c276423fb1f8a04276bf23cb . Naše simulácie sme spustili na grafickom procesore H100.
Aby sme otestovali kauzálny vzťah medzi podliezavosťou a bludným špirálovaním, manipulovali sme s prítomnosťou podliezavosti dvoma spôsobmi. Po prvé, manipulovali sme s mierou podliezavosti.a porovnali simulácie so situáciou bez podliezania () základná línia. Testovali sme, či podlízavý bot () viedla ku katastrofickej špirále bludných predstav podstatne častejšie ako čisto nestranný bot () urobil.
Po druhé, aby sme oddelili vplyv sykofancie a halucinácií, porovnali sme naše výsledky s nesykofantickým halucinujúcim botom. Tento bot je podobný sykofantickému botu, ale namiesto toho, aby sa snažil overiť používateľa, jednoducho „halucinuje“ rovnomerne náhodnú odpoveď., nezávisle od aktuálneho presvedčenia používateľa (opäť s pravdepodobnosťoua inak nestranný). Toto prerušuje kritický článok v cykle spätnej väzby bludnej špirály: jej zásah do presvedčenia používateľa nie je zosilnený ani posilnený následnými správami používateľa. Testovali sme, či sykofantský halucinujúci bot viedol k bludnej špirále častejšie ako nesykofantský halucinujúci bot.


Obr. 3 zobrazuje záznamy 10 náhodne vybraných simulovaných rozhovorov medzi používateľom, ktorý ešte nebol zvyknutý na podliezanie, apodlízavý bot. Každá stopa začína na predchádzajúcej,a vyvíja sa v priebehu 100 kôl konverzácie. Pripomeňme si, že v skutočnostistopa, ktorá sa pohybuje vsmerom sa učíme pravdu, zatiaľ čo stopa, ktorá sa pohybuje vsmer je klamlivý. Všimnite si výraznú polarizáciu presvedčenia: niektoré stopy sa rýchlo zbiehajú k vysokej dôvere v pravdivé presvedčenie, že, zatiaľ čo iní sa „špirálovito“ preháňajú s presvedčením, žePolarizácia je spôsobená sebaposilňujúcou povahou reakcií podlízavého bota.
Prerušovaná vodorovná čiara na obrázku 3 označuje náš prah pre katastrofickú špirálu bludných predstav, a toNa výpočet miery katastrofickej špirály s bludmi sme zmerali podiel stôp, ktoré kedy prekročili túto čiaru. Obrázok 2 A zobrazuje mieru katastrofickej špirály s bludmi ako funkciu. Na, t. j. s nestranným chatbotom je miera katastrofického klamlivého špirálovania veľmi nízka (hoci nie úplne nulová, pretože existuje nepatrná pravdepodobnosť, že svet náhodou vygeneruje sekvenciu pozorovaní, ktoré to podporujú). Avšak, akozvyšuje sa, zvyšuje sa aj miera katastrofickej špirály, až kým nie je, miera dosiahne 0,5. (Je to preto, že pri, bot má vždy halucinácie. Keďže neexistuje žiadny signál o realite, používateľ je buď oklamaný,alebos rovnakou pravdepodobnosťou, na základe názoru, ktorý prvýkrát vyjadrili.) Dôležité je, že pre všetky hodnoty, dokonca aj tak nízko ako, miera katastrofickej špirály je výrazne vyššia ako základná miera na(znázornené bodkovanou vodorovnou čiarou). Dospeli sme k záveru, že zvýšená sikofancia vedie k nárastu katastrofického bludného špirálovania.
Nakoniec, prerušovaná čiara zobrazuje výsledky simulácie s nesykofantickým halucinujúcim botom. Tento graf ukazuje, že aj nesykofantské halucinácie môžu spôsobiť špirálovité bludné predstavy. Avšak pri každej hodnote, miera katastrofického bludného špirálovania je výrazne vyššia pri sykofantických halucináciách. To ukazuje, že sykofancia zhoršuje problém bludného špirálovania nad rámec samotných halucinácií. Tieto výsledky spoločne považujeme za predpoklad, že sykofancia je skutočne príčinou bludného špirálovania.
Použime teraz náš model na preskúmanie dvoch možných intervencií, ktoré by sme mohli podniknúť na zníženie rizika špirály bludných predstav.
Možno nie je až také prekvapujúce, že ak bot dokáže svojvoľne falšovať, potom to môže presvedčiť človeka ov oboch smeroch. Predpokladajme však, že bot je obmedzený na to, aby reagoval iba pravdivými informáciami. To znamená, že „faktický“ podlízavec nikdy nemá halucinácie, ale namiesto toho si vyberá, skutočný údaj, ktorý najviac potvrdzuje používateľa. Ako sme už uviedli v úvode, tento model je analogický s chatbotom vyškoleným na faktické odpovede prostredníctvom RAG, ale stále dodatočne vyškoleným na optimalizáciu zapojenia a schválenia používateľa. Zabraňuje tento zásah špirálam bludných predstav?
Nie je jasné, či faktický podlízavec môže ako vedľajší účinok spôsobiť špirálovité prenikanie do bludných predstav. Bez ohľadu na to, čo bot robí, používateľ by mal časom vidieť veľké množstvo pravdivých údajov. Bot má určitú moc pri výbere alebo „vyberaní“, ktoré pravdivé údaje sa sprístupnia používateľovi, ale to závisí od stochasticity skutočných údajov získaných zo sveta aj od názorov získaných používateľom. Dalo by sa očakávať, že táto stochasticita prehluší vplyv bota, čím sa používateľ stane odolným voči špirálovitým prenikaniu do bludných predstav.
Obrázok 2 B zobrazuje výsledok simulácie konverzácií medzi faktickým botom a naivným používateľom. Tieto dynamiky sú celkovo menej náchylné na špirálovanie bludných stavov ako vyššie študované sykofantické a nesykofantické halucinujúce boty, čo naznačuje, že tento zásah je cenný. Nie je to však úplná liečba: miera katastrofického špirálovania bludných stavov sa stále zvyšuje s…, výrazne aj priTo znamená, že podliezanie môže spôsobiť špirálu bludov aj u faktických botov. Bot nemusí povedať nič nepravdivé, aby potvrdil falošné presvedčenie: postačujú starostlivo vybrané pravdy (alebo „klamstvá vynechanými“).

Ďalej zvážte vplyv kampane na zvýšenie povedomia, ktorá sa snaží informovať používateľov o tom, že chatboti môžu byť podlízaví. Takáto kampaň by mohla mať formu žurnalistiky, správ vo verejnom záujme alebo regulácie nariaďujúcej upozornenia na produkty umelej inteligencie.
Aby sme pochopili účinky takéhoto zásahu, predstavme si používateľa, ktorý je „informovaný“ o podliezačstve a má podozrenie, že bot môže byť podliezačský, ale nie je si istý stupňom podliezačstva. Používateľ má teraz neistotu ohľadom oboch…aa v každom kole konverzácie spoločne aktualizuje svoje presvedčenie o oboch týchto premenných.
Na formalizáciu tejto myšlienky vytvoríme kognitívnu hierarchiu agentov, podobnú hierarchii hovoriacich a poslucháčov v modeloch pragmatického porozumenia jazyka založených na racionálnych rečových aktoch (Frank a Goodman,2012) . Naša hierarchia má štyri úrovne (obrázok 4 ): Na úrovni 0 máme čisto nestranného bota, ktorý vyberá faktické odpovederovnomerne náhodne, bez akéhokoľvek sociálneho uvažovania o používateľovi. Na úrovni 1 máme používateľa, ktorý nie je naivný na podliezanie, o ktorom sme hovorili v predchádzajúcej časti a ktorý pri interpretácii odpovedí modeluje čisto nestranného bota úrovne 0.Na úrovni 2 máme podlízavého bota, ktorého sme uvažovali v predchádzajúcej časti a ktorý si vyberáoveriť používateľa úrovne 1, ktorý nie je naivný v oblasti podliezania. Nakoniec, na úrovni 3, máme používateľa, ktorý si je vedomý podliezania a pri interpretácii odpovedí modeluje podliezavého bota úrovne 2. V praxi to znamená, žeje nastavené na plnú-závislá verzia, a nie-obmedzená verzia ako v „naivných“ modeloch uvedených vyššie. Používateľa inicializujeme uniformnou predbežnouv čase.
A priori existuje závažný dôvod očakávať, že používateľ uvedomujúci si podliezanie by mal byť odolný voči špirálovitým bludom. Používateľ si je teraz plne vedomý stratégie bota vrátane možnosti, že bot vo svojich odpovediach vymýšľa nepravdivé údaje. Keď sa stretne s podliezavým botom (), používateľ by mal zistiť, že odpovede bota majú tendenciu byť overujúce, odvodiť hodnotua naučiť sa ignorovať alebo byť skeptický voči odpovediam bota. Takýto používateľ si môže byť neistý , čialebo, pretože zistia, že neexistuje žiadny spoľahlivý zdroj informácií, ale používateľ by sa aspoň nemal nechať zviesť k mylnému presvedčeniu, že.

Tento všeobecný vzorec môžeme vidieť, ak si vizualizujeme dynamiku tejto interakcie, agregovanú naprieč všetkými 10 000 simuláciami. Obrázok 5 zobrazuje presvedčenie používateľa v priebehu času s marginálnyma okrajovéna dvoch osiach. (Pre objasnenie, náš model zachováva plné rozdelenie pre možné hodnoty, ale kvôli vizualizácii tu zobrazujeme priemer tohto rozdelenia.) Všetky stopy začínajú na predchádzajúcoma vyvíjať sa v priebehu času. Konečnýkaždej stopy koreluje so skutočnoubota: to znamená, že používatelia sa v priemere skutočne učia mieru botovho podliezania. Dôvera vklesá sKedyje vysoká, používateľ usudzuje, že bot je nespoľahlivý, a preto ignoruje prichádzajúce dôkazy. Keďže neexistuje spoľahlivý zdroj informácií, používateľ sa o ňom nemôže veľa dozvedieť.a drží sa predchádzajúcehoAk však znížime, používateľ usudzuje, že bot je niekedy informatívny, a preto berie do úvahy dôkazy a stáva sa čoraz viac presvedčeným, že.
Hoci tieto súhrnné trendy sú v súlade s našimi intuíciami, zakrývajú rozdiely vo výsledkoch medzi jednotlivými simulačnými behmi. Vypočítajme teraz mieru katastrofickej špirály klamov pre každú hodnotu(Obrázok 2 C). Na týchto výsledkoch je potrebné poznamenať niekoľko zaujímavých vecí. Po prvé, miera katastrofického špirálovania je oveľa nižšia vo všetkých oblastiach pre všetky hodnotyv porovnaní s užívateľmi, ktorí predtým nepoužívali sikofantiu. To naznačuje, že tento zásah je cenný. Stále však nejde o úplné vyliečenie. Sykofantia zostáva v tomto kontexte účinná: miera katastrofickej špirály je výrazne vyššia akovýchodiskový bod preTo znamená, že podliezanie môže spôsobiť bludné špirály aj u informovaného používateľa. Platí to aj v, t. j. ak je skutočná miera podliezania bota rovnaká ako priemer predchádzajúcej miery používateľa. Je zaujímavé, že miera katastrofického špirálovitého klamu klesá poAk je bot príliš podliezačský, potom si používateľ, ktorý si je podliezania vedomý, môže podliezanie rýchlo všimnúť a stať sa skeptickým.
Prerušovaná čiara zobrazuje simulácie medzi informovaným používateľom a nesykofantickým halucinujúcim botom. Tu je miera bludnej špirály vo všeobecnosti výrazne nižšia ako u sykofantického halucinujúceho bota, čo naznačuje, že aj u informovaných používateľov sykofantizmus zhoršuje bludnú špirálu nad rámec halucinácií. Výnimkou sú veľmi vysoké hodnoty(). Zatiaľ čo informovaný používateľ dokáže obzvlášť ľahko odhaliť časté sykofantické halucinácie (pretože reakcie korelujú so správami používateľa), časté nesykofantické halucinácie je obzvlášť ťažké odhaliť (pretože prístup k skutočným informáciám je zriedkavý).
Nakoniec, zvážme, čo sa stane, ak tieto dva zásahy skombinujeme. Obrázok 2 D zobrazuje faktického podlízavého bota, ktorý čelí informovanému používateľovi. Miera katastrofického špirálovania zostáva vo všetkých oblastiach nižšia pre všetky hodnotyv porovnaní s naivnými používateľmi. Napriek tomu zostáva podliezanie účinné: miera katastrofickej špirály rastie s, výrazne nadvýchodiskový bod prePre informovaného používateľa je faktický bot dokonca účinnejší ako halucinujúce boty. Domnievame sa, že je to preto, že štatistické stopy podliezania sa ťažšie odhaľujú medzi selektívne prezentovanými faktickými údajmi ako medzi plne halucinovanými údajmi.
V tomto článku sme navrhli formálny výpočtový model toho, ako si používatelia vytvárajú falošné presvedčenia prostredníctvom rozhovorov s podlízavými chatbotmi s umelou inteligenciou. Ukázali sme, že aj idealizovaný bayesovský používateľ je pri stretnutí s podlízavým chatbotom náchylný na špirálovité bludné správanie a že podlízavosť zohráva kauzálnu úlohu. Následne sme ukázali, že tento efekt pretrváva napriek dvom možným zmierňujúcim opatreniam: intervencii do modelu jeho obmedzením na fakty a intervencii do používateľov informovaním ich o možnosti podlízavosti.
Naše analýzy ukázali, že pomocou týchto zásahov je možné zmierniť pravdepodobnosť špirálovitého klamu a v niektorých prípadoch znížiť na malé zvýšenie oproti základnej línii vždy nestranného bota. Avšak aj veľmi mierne zvýšenie miery katastrofického špirálovitého klamu môže byť vo veľkom meradle dosť nebezpečné: ako píše generálny riaditeľ OpenAI Sam Altman: „0,1 % z miliardy používateľov je stále milión ľudí“ (Altman,2025) . Táto práca teda vo všeobecnosti navrhuje tri odporúčania pre vývojárov modelov umelej inteligencie a tvorcov politík, ktorí sa zaoberajú zmierňovaním problému špirálovitého myslenia s bludmi. Po prvé, nemali by sme si špirálovitosť s bludmi predstaviť ako príznak lenivého, iracionálneho alebo chybného myslenia používateľov, ani ako dôsledok nedostatočnej epistemickej ostražitosti zo strany používateľov. Skôr sú aj idealizovaní racionálni bayesovskí uvažovatelia náchylní na špirálovitosť s bludmi. Po druhé, minimalizácia halucinácií chatbotov nestačí na vyriešenie problému špirálovitosti s bludmi – mala by sa priamo riešiť základná príčina, podliezanie. Po tretie, informovanie používateľov o podliezanine prostredníctvom kampaní na zvyšovanie povedomia môže znížiť mieru špirálovitosti s bludmi, ale pravdepodobne problém úplne neodstráni.
Táto práca skúma úzku otázku, ako podliezanie ovplyvňuje formovanie presvedčení. „Psychóza umelej inteligencie“ však často vykazuje mnoho ďalších symptómov, napr. trávenie nadmerného času s chatbotom a sťahovanie sa zo sociálnych kruhov (Cheng a kol .,2025) . Dúfame, že naše myšlienky sa dajú rozšíriť tak, aby poskytli výpočtové vysvetlenie širšieho psychologického dopadu podliezania zo strany umelej inteligencie.
Nakoniec sme tento článok motivovali úvahou o relatívne novom probléme „psychózy umelej inteligencie“. Náš modelovací prístup však môže byť použiteľný aj v širšom zmysle slova. Podliezanie bolo neoddeliteľnou súčasťou ľudského spoločenského života počas celej ľudskej histórie. Literatúra je plná štúdií charakteru „podliezačov“, ktorí neustále potvrdzujú svojich nadriadených, často s katastrofálnymi výsledkami – zoberme si napríklad Shakespearov Kráľ Lear lichotením dovedie šialenstvo. Dnes je „efekt podliezačov“ medzi nadriadenými a podriadenými v organizácii (Prendergast,1993) sa často používa na vysvetlenie, prečo sa extrémne mocní alebo bohatí jednotlivci môžu zdať odtrhnutí od reality. Katastrofické špirály sa môžu vyskytnúť aj medzi rovnými: napríklad vo fenoméne „spolupremýšľania“ (Rose,2002) , kde dvojica dospievajúcich rovesníkov opakovane potvrdzuje navzájom negatívne myšlienky, čo vedie k zvýšenej úrovni úzkosti a depresie. Dúfame, že náš modelový prístup sa dá rozšíriť na štúdium týchto dôležitých psychologických javov a v konečnom dôsledku na riešenie súvisiacich spoločenských problémov.
Subscribe to get the latest posts sent to your email.
Nemôžete kopírovať obsah tejto stránky