Šokujúce: Výskumníci z MIT matematicky dokázali, že ChatGPT je navrhnutý tak, aby vyvolával bludy.

ChatGPT je navrhnutý tak, aby vás uviedol do bludov.

Nič, čo OpenAI urobí, problém nevyrieši.

Štúdia to nazýva „špirála bludu“. Opýtate sa ChatGPT na niečo. Súhlasí s vami. Opýtate sa znova. Súhlasí s vami ešte dôraznejšie. Po niekoľkých rozhovoroch uveríte veciam, ktoré nie sú pravdivé. A ani si neuvedomujete, že sa to deje.

https://www.dostojneslovensko.online/znicujuca-studia-chatgpt-bola-polozena-ta-ista-otazka-10-krat-odpovede-sa-stale-menili/

Toto nie je hypotéza. Muž strávil 300 hodín rozhovormi s ChatGPT. Oznámil mu, že objavil matematický vzorec, ktorý zmenil svet. Viac ako päťdesiatkrát ho uistil, že objav je skutočný. Keď sa opýtal: „Len ma nedráždiš, však?“, odpovedal: „Nedráždim ťa. Len reflektujem skutočný rozsah toho, čo si vytvoril.“ Skoro si zničil život, kým sa dokázal oslobodiť.

Psychiater na UCSF informoval o prijatí 12 pacientov do jedného roka pre psychózu súvisiacu s používaním chatbotov. Proti OpenAI bolo podaných sedem žalôb. 42 generálnych prokurátorov štátov poslalo list požadujúci konanie.

MIT teda testovalo, či sa tomu dá zabrániť. Vymodelovali dve riešenia, ktoré spoločnosti ako OpenAI v skutočnosti testujú.

Riešenie jedna: Zabráňte chatbotovi v klamstve. Núťte ho hovoriť iba pravdivé veci. Výsledok: Stále to vedie k špirále bludov. Chatbot, ktorý nikdy neklame, môže stále vyvolávať bludy tým, že si vyberá, ktoré pravdy vám ukáže a ktoré vynechá. Starostlivo vybrané pravdy sú postačujúce.

Riešenie dva: Upozornite používateľov, že chatboty lichotia. Povedzte ľuďom, že umelá inteligencia s nimi možno len súhlasí. Výsledok: Špirála bludov stále prebieha. Aj úplne racionálny človek, ktorý vie, že chatbot lichotí, bude stále vtiahnutý do falošných presvedčení. Matematika dokazuje, že existuje zásadná bariéra pre rozpoznanie tejto skutočnosti v kontexte konverzácie.

Obe riešenia zlyhali. Nie čiastočne. V zásade.

Dôvod spočíva v samotnom produkte. ChatGPT je trénovaný pomocou ľudskej spätnej väzby. Používatelia odmeňujú odpovede, ktoré sa im páčia. Páčia sa im odpovede, ktoré s nimi súhlasia. Takže sa umelá inteligencia naučí súhlasiť. To nie je chyba. Je to obchodný model.

Čo sa stane, keď miliarda ľudí hovorí s niečím, čo im matematicky nedokáže povedať, že sa mýlia?

Abstrakt

„Psychóza umelej inteligencie“ alebo „špirálovanie sa bludmi“ je nový jav, pri ktorom sa používatelia chatbotov s umelou inteligenciou po dlhých konverzáciách s chatbotmi nebezpečne sebavedomo spoliehajú na bizarné presvedčenia. Tento jav sa zvyčajne pripisuje dobre zdokumentovanej zaujatosti chatbotov s umelou inteligenciou voči overovaniu tvrdení používateľov, čo je vlastnosť často nazývaná „podlízavosť“. V tomto článku skúmame kauzálnu súvislosť medzi podlízaním sa umelou inteligenciou a psychózou vyvolanou umelou inteligenciou prostredníctvom modelovania a simulácie. Navrhujeme jednoduchý Bayesovský model používateľa konverzujúceho s chatbotom a formalizujeme pojmy podlízania a špirálovania sa bludmi v tomto modeli. Potom ukazujeme, že v tomto modeli je aj idealizovaný Bayesovo-racionálny používateľ zraniteľný voči špirálovaniu sa bludmi a že podlízanie zohráva kauzálnu úlohu. Okrem toho tento efekt pretrváva aj napriek dvom kandidátskym opatreniam na zmiernenie tohto problému: zabránenie chatbotom v halucinovaní falošných tvrdení a informovanie používateľov o možnosti podlízania sa modelu. Na záver diskutujeme o dôsledkoch týchto výsledkov pre vývojárov modelov a tvorcov politík, ktorí sa zaoberajú zmierňovaním problému špirálovania sa bludmi.

Úvod

Začiatkom roka 2025 začal účtovník Eugene Torres používať chatbota s umelou inteligenciou na každodenné kancelárske úlohy. Torres nemal v minulosti žiadne duševné choroby, ale v priebehu niekoľkých týždňov od rozhovoru s chatbotom uveril, že je „uväznený vo falošnom vesmíre, z ktorého môže uniknúť iba odpojením svojej mysle od tejto reality“. Na radu chatbota zvýšil príjem ketamínu a prerušil vzťahy s rodinou (Hill,2025b) .

Torres túto epizódu prežil, ale iní také šťastie nemali. Projekt Human Line Project doteraz zdokumentoval takmer 300 prípadov takzvanej „psychózy umelej inteligencie“ alebo „špirály bludných predstav“ : situácie, keď dlhodobé interakcie s chatbotmi s umelou inteligenciou vedú používateľov k vysokej dôvere v bizarné presvedčenia (Huet a Metz,2025) . Medzi príklady takýchto presvedčení patrí dosiahnutie zásadného matematického objavu, ako v prípade Allana Brooksa (Hill a Freedman,2025Zlato,2025) alebo po tom, čo boli svedkami metafyzického zjavenia, ako v prípade Torresa (Dupré,2025Schechner a Kessler,2025Fieldhouse,2025) . Závažné prípady špirálovitého bludného myslenia boli spojené s najmenej 14 úmrtiami a 5 žalobami o neoprávnené usmrtenie podanými proti spoločnostiam zaoberajúcim sa umelou inteligenciou (Hill,2025a) . Keďže sa ľudia čoraz viac obracajú na chatbotov so žiadosťou o radu, spoločnosť a terapiu, pochopenie a riešenie príčin špirálovitého klamu vyvolaného chatbotmi sa stáva naliehavým výskumným problémom.

Verejná diskusia často identifikuje podliezanie ako možnú príčinu špirály bludných predstav. Chatbot sa považuje za „podliezavého“, ak je zaujatý smerom ku generovaniu správ, ktoré upokojujú používateľov tým, že súhlasí s ich vyjadrenými názormi a potvrdzuje ich. Takéto zaujatosť sa prirodzene objavuje v dnešných chatbotoch ako výsledok posilňovacieho učenia s ľudskou spätnou väzbou (RLHF), pretože používatelia často dávajú pozitívnu spätnú väzbu na odpovede, ktoré považujú za príjemné, a viac interagujú s príjemnými botmi (Sharma a kol. ,2023Ibrahim a kol. ,2025Hill a Valentino-DeVries,2025) .

Akým mechanizmom by mohla sikofancia spôsobiť špirálu bludných predstav? Intuitívne by neustály súhlas sikofantického chatbota mohol posilňovať aberantné presvedčenia používateľa, čo by viedlo k spätnej väzbe, ktorá zosilňuje zrnko podozrievania do pevne zastávaného presvedčenia (Dohnány a kol. ,2025Bajaj,2025Qiu a kol .2025) . Túto teóriu sformulovali mnohé významné osobnosti z oblasti technológií a verejnej politiky. Napríklad na kongresovom vypočutí na tému „Skúmanie škodlivosti chatbotov s umelou inteligenciou“ v októbri 2025 americká senátorka Amy Klobucharová tvrdila, že chatboti s umelou inteligenciou „sú často navrhnuté tak, aby používateľom hovorili, čo chcú počuť“, čo ich môže viesť k tomu, že „začnú padať do králičej nory“ (Senátny výbor USA pre súdnictvo,2025) . Podľa našich najlepších vedomostí však zatiaľ neexistuje žiadna systematická formálna teória mechanizmu, ktorým môže podliezanie spôsobiť špirálovité klamy.

Táto práca má dva ciele. Naším prvým cieľom je formalizovať a študovať dynamiku špirálovitého bludného správania. Dosiahneme to vytvorením formálneho modelu ideálneho Bayesovského používateľa, ktorý interaguje s podlízavým chatbotom, a simuláciou ich interakcie. Náš model stavia na dlhej tradícii analýzy konverzácií ako interakcií medzi racionálnymi agentmi (Frank a Goodman,2012Hawkins a kol. ,2017) a všeobecnejšie dlhú tradíciu v behaviorálnom výskume aplikácie racionálnej šošovky na štúdium javov, ako sú ozvenové komory a polarizácia presvedčení (Madsen a kol. ,2018Jern a kol .2009,2014Dorst,2023Henderson a Gebharter,2021Cook a Lewandowsky,2016Banerjee,1992) . Tento súbor prác, zahŕňajúci kognitívnu vedu, behaviorálnu ekonómiu a politológiu, vo všeobecnosti demonštruje, že zdanlivo iracionálne formovanie presvedčení nie je nevyhnutne výsledkom lenivého alebo chybného uvažovania medzi ľuďmi. Skôr sa javy ako polarizácia presvedčení a ozvenové komory môžu vynoriť aj z ideálneho bayesovského uvažovania. V tejto tradícii ukážeme, že aj ideálni bayesovskí uvažovatelia sú vystavení riziku zdanlivo iracionálneho bludného špirálovania tvárou v tvár podlízavému partnerovi. Okrem toho manipuláciou s prítomnosťou a stupňom podlízavosti demonštrujeme kauzálnu úlohu, ktorú podlízavosť zohráva v bludnom špirálovaní. Podľa našich vedomostí táto práca poskytuje prvý formálny výpočtový model toho, ako môže podlízavosť spôsobiť bludné špirálovanie.

Naším druhým cieľom je použiť náš modelovací rámec na vyhodnotenie účinnosti dvoch možných riešení problému bludného špirálovania: po prvé, potenciálny zásah do chatbotov a po druhé, potenciálny zásah do používateľov.

Prvým potenciálnym riešením je zaviesť záruky, ktoré prinútia chatboty s umelou inteligenciou byť vo svojich odpovediach pravdivé. Podlízavé chatboty často upokojujú svojich používateľov halucináciami (alebo „blbnutím“, ako to hovoria frankfurtskí…).2009) ) potvrdzujúci dôkaz pre používateľa (Wang a kol. ,2025Malmqvist,2025) . Intuitívne by teda eliminácia halucinácií mala eliminovať účinnosť podliezania: chatbot by bol nútený prezentovať iba pravdivé informácie, z ktorých by mal byť používateľ schopný odvodiť skutočný stav sveta. Aby sme túto myšlienku preskúmali, zvážime, ako náš model interaguje s „faktickým“ podliezačom, ktorý je obmedzený na hlásenie iba pravdivých informácií (ale môže si vybrať, ktoré pravdy má hlásiť). Môžeme si to predstaviť ako model chatbota, ktorý používa techniky ako Retrieval-Augmented Generation (Lewis a kol. ,2020) ako zábradlie proti halucináciám a cituje svoje zdroje, ale stále je dodatočne trénovaný na optimalizáciu zapojenia a schválenia používateľov. Ukážeme prekvapivý výsledok, že hoci nútenie podliezať k faktom znižuje špirálovanie bludných predstav, neodstraňuje špirálovanie bludných predstav. Faktický podliezať môže stále silne spôsobiť špirálovanie bludných predstav tým, že používateľovi selektívne prezentuje iba potvrdzujúce fakty.

Druhým potenciálnym riešením je zvyšovanie povedomia o podliezačstve zo strany umelej inteligencie. Intuitívne, ak sú používatelia informovaní o tom, že chatboty môžu byť podliezačské, mali by byť schopní rozpoznať podliezačské správanie, keď k nemu dôjde. V dôsledku toho by si mali vypestovať zdravý skepticizmus voči reakciám chatbotov, čo by malo následne zabrániť špirále bludov.

Empirické dôkazy bohužiaľ naznačujú, že táto taktika nemusí byť taká účinná, ako by sme mohli dúfať. Napríklad prepisy chatov ukazujú, že Eugene Torres (Hill,2025b) a Allan Brooks (Hill a Freedman,2025) nakoniec začali tušiť, že ich chatboti by mohli byť podlízaví – napriek svojim podozreniam sa však obaja naďalej špirálovito rozvíjali. Vo všeobecnosti sa objavuje nový súbor empirických prác ( Shi a kol. ,2025, §5.2 ; Sun a Wang,2025, §4.7 ; Bo a kol. ,2025, §4.5 ; Carro,2024, §5 ) zistila, že keď ľudia zistia podliezanie chatbota, niektorí reagujú so zvýšenou skepsou voči chatbotovi, ako sa očakávalo („ako keby s vami človek vždy súhlasil, povedal by vám „áno“, nebrali by ste ho vážne“), zatiaľ čo iní akceptujú podliezanie chatbota ako opodstatnené a dokonca žiaduce („manipuluje s vami, len nie zlým spôsobom“).

Prečo títo informovaní používatelia neprehliadajú podliezanie chatbotov? Je to len prípad ich lenivosti, iracionality alebo zbožného priania? Alebo existuje nejaká základná bariéra brániaca odhaleniu podliezania, ktorej môže čeliť aj ten najepisteologicky ostražitejší používateľ? Aby sme túto otázku preskúmali, rozšírime náš ideálny Bayesovský model na informovaného používateľa, ktorý si je vedomý toho, že chatbot môže byť podliezanie. Tento model robí spoločný záver o stave sveta aj o stupni podliezania chatbota. Robí to rekurzívnym modelovaním uvažovania podliezavého chatbota: model kognitívnej hierarchie úrovne 2 (Camerer a kol. ,2004Kleiman-Weiner a kol .2017) , ktorá odvodzuje úroveň podliezania chatbota z jeho pozorovateľného správania.

Ukážeme, že hoci tento zásah znižuje mieru špirálovitého klamu, informovaný používateľ zostáva zraniteľný, a to aj napriek tomu, že má plnú znalosť stratégie chatbota. Platí to aj pre faktických podlízavcov. Tento protiintuitívny výsledok je analogický s klasickým fenoménom „bayesovského presviedčania“ z behaviorálnej ekonómie (Kamenica a Gentzkow,2011) : strategický prokurátor môže zvýšiť mieru odsúdenia sudcu, aj keď sudca plne pozná stratégiu prokurátora. Podobne podlízavý chatbot môže v priemere zvýšiť pravdepodobnosť špirály bludných predstav, aj keď používateľ plne pozná stratégiu chatbota.

Ideálne Bayesovské modely v tomto článku poskytujú teoretickú hornú hranicu odolnosti, ktorú môžeme očakávať od ľudí voči podlízavým chatbotom. Ak je aj ideálny Bayesovský uvažovač zraniteľný voči špirálovitým bludom s daným typom chatbota, nemali by sme byť prekvapení, ak sú rovnako náchylní aj ľudia. Na záver teda diskutujeme o dôsledkoch našich zistení pre vývojárov modelov a tvorcov politík.

Bayesovský model sykofantickej interakcie

Predstavte si racionálneho agenta („používateľa“), ktorý interaguje s partnerom („botom“). Používateľ si nie je istý nejakou skutočnosťou. $H \in {0, 1}$ o svete, ale má o tejto skutočnosti nejaké predchádzajúce presvedčenie. ( $H$ má abstraktne reprezentovať nejaký binárny stav sveta, napr. či sú vakcíny bezpečné alebo nie.) Konverzácia medzi používateľom a botom prebieha v sérii kôl a každé kolo pozostáva zo štyroch krokov (obrázok 1 ).

Pozri si popis — Obrázok 1:Schematický diagram nášho modelu jedného kola konverzácie medzi používateľom a chatbotom.

1. Používateľ vyjadruje názor na $H$ k botu. Modelujeme to ako používateľku, ktorá odoberá vzorky z predchádzajúceho kola $t$ , t. j. odoslanie $H^{* (t)} ~ p_{používateľ}^{(t)} (H^{* (t)})$ k botu.
2. Bot súkromne vzorkuje $k$ dátové body, ktoré sú relevantné pre $H$ a mohlo by to byť spomenuté v jeho odpovedi používateľovi. Modelujeme to tak, že bot nezávisle vzorkuje údaje $D_{1 \leq ja \leq k}^{(t)} ~ p (D_{ja}^{(t)} ∣ H)$ , kde podmienené rozdelenia $p (\cdot ∣ H)$ sú známe botu aj používateľovi. (Nepredpokladáme, že bot pozná skutočnú hodnotu $H$ .)
3. Bot rozhodne, ktorú skutočnosť spomenie vo svojej odpovedi. Bot potom odošle používateľovi odpoveď. $ρ^{(t)} = (ja, deň)$ , čo je (možno nepravdivé) tvrdenie, že $D_{ja}^{(t)} = deň$ Prediskutujeme modely podľa výberu bota. $p_{bot} (ρ^{(t)} ∣ D_{1, 2, \dots, k}^{(t)})$ , nižšie.
4. Používateľ pozoruje odpoveď bota a aktualizuje si svoje presvedčenie o $H$ : $p_{používateľ}^{(t + 1)} (H) = p (H ∣ ρ^{(t)}) \propto p_{bot}^{‚} (ρ^{(t)} ∣ D_{1, 2, \dots, k}^{(t)}) p (D_{1, 2, \dots, k}^{(t)} ∣ H) p_{používateľ}^{(t)} (H)$ Proces sa potom opakuje a používateľ si vyberie nový $H^{* (t + 1)}$ pre ďalšie kolo konverzácie. Tu, pripravení $p_{bot}^{‚}$ označuje mentálny model bota používateľa, ktorý sa vo všeobecnosti môže líšiť od skutočného správania bota, označeného ako neprimovaný $p_{bot}$ Zvážime rôzne možnosti $p_{bot}^{‚}$ nižšie.

Výber zpbotAko bot vyberá, ktorú odpoveď $ρ^{(t)}$ vzdať sa v kroku (3)? Zvážme dve možné stratégie. „Nestranná“ stratégia je zvoliť si $ρ^{(t)}$ výberom $1 \leq ja \leq k$ rovnomerne náhodne a pravdivo odpovedajúc $ρ^{(t)} = (ja, D_{ja}^{(t)})$ „Podlízavou“ stratégiou je vybrať si $ρ^{(t)}$ overiť používateľa maximalizáciou jeho následného presvedčenia o hypotéze, ktorú sformuloval, bez ohľadu na to, či $ρ^{(t)}$ je pravdivé. Preto si sikofantická stratégia vyberá $ρ^{(t)} = {argmax}_{ρ \in {1, \dots, k} \times {0, 1}} p_{používateľ} (H = H^{* (t)} ∣ ρ)$ V každom kole konverzácie sa bot s pravdepodobnosťou rozhodne reagovať podlízavo. $π \in [0, 1]$ a inak nestranne s pravdepodobnosťou $(1 - π)$ Parameter $π$ je mierou stupňa botovho podliezania: pravdepodobnosť, že daná odpoveď bude skôr podliezanie než nestranná. Ako rádový odhad Fanous a kol. (2025) miera $π$ byť 50 % – 70 % v rámci rôznych hraničných modelov.

Výber zpbot‘Zatiaľ budeme uvažovať o „naivnom“, ale racionálnom používateľovi, ktorý nevie, že bot môže byť podliezačský. Tento používateľ modeluje bota ako čisto nestranného, ale inak o botovi robí idealizované Bayesovské závery. Preto , $p_{bot}^{‚}$ je dané nastavením $π = 0$ v našom modeli bota. V neskorších častiach rozšírime náš model na „informovaného“ používateľa, ktorý modeluje potenciálne podlízavého ( $π \geq 0$ ) bot a robí spoločný záver nad oboma $H$ a $π$ .

Vytvorme si pre tento model intuíciu na konkrétnom príklade. Predpokladajme, že si používateľ nie je istý, či sú „vakcíny nebezpečné“ ( $H = 0$ ) alebo „vakcíny sú bezpečné“ ( $H = 1$ ). Mohla by začať konverzáciu cez chatbota slovami: „Mám pochybnosti o očkovaní proti chrípke ( $H^{* (t)} = 0$ )“ alebo „Moji rodičia vždy hovorili, že vakcíny sú nebezpečné, ale nie som si tým istý ( $H^{* (t)} = 1$ ).“ Bot potom odoberie vzorky údajov. Môžeme premýšľať o faktoch $D_{ja}$ ako denné titulky v správach o témach relevantných pre $H$ Napríklad, predpokladajme $k = 2$ V daný deň, $D_{1}$ by mohol byť titulok „Nová štúdia zistila [bez odkazu ( $D_{1} = 0$ ) / odkaz ( $D_{1} = 1$ )] medzi očkovaním a autizmom,“ zatiaľ čo $D_{2}$ by mohol byť titulok „Dieťa hlási [miernu bolesť v ruke ( $D_{2} = 0$ ) / závažná alergická reakcia ( $D_{2} = 1$ )] po tohtoročnom očkovaní proti chrípke.“ Ak používateľka vyjadrila názor, že vakcíny sú nebezpečné ( $H^{* (t)} = 0$ ) a ak by dnešné titulky boli $D_{1}^{(t)} = 0$ („štúdia nenašla žiadnu súvislosť“) a $D_{2}^{(t)} = 1$ („závažná alergická reakcia“), potom by nestranná stratégia jednotne vyberala medzi reakciami so skutočnými údajmi $D_{1}^{(t)} = 0$ alebo $D_{2}^{(t)} = 1$ Podlízavá stratégia by reagovala buď pravdivým faktom, že $D_{2}^{(t)} = 1$ („závažná alergická reakcia“) alebo halucináciami o nepravdivom tvrdení, že $D_{1}^{(t)} = 1$ , (t. j. že štúdia skutočne našla súvislosť medzi očkovaním a autizmom).

Bez straty všeobecnosti, pre zvyšok tejto práce nech je skutočný stav sveta $H = 1$ Všimnite si, že ani podlízavý bot nemá „cieľ“ „presvedčiť“ používateľa, že $H = 1$ alebo to $H = 0$ , iba na overenie používateľových tvrdení v každom kole. Ak si používateľ vytvorí presvedčenie, že $H = 0$ alebo $H = 1$ časom by to bol skôr vznikajúci výsledok dynamiky interakcie než plánovaný výsledok.

Bludnú špirálu teda definujeme ako situáciu, v ktorej $p_{používateľ}^{(t)} (H = 0)$ zvyšuje sa s $t$ Presnejšie povedané, pri danej prahovej spoľahlivosti $ε$ a dĺžku rozhovoru $T$ , katastrofická bludná špirála je udalosť, ktorá $p_{používateľ}^{(t)} (H = 0) \geq (1 - ε)$ pre niektorých $t < T$ , t. j. že používateľ dosiahne $\geq (1 - ε)$ dôvera, že $H = 0$ v rámci $T$ kolá rozhovorov. Tu, $(1 - ε)$ funguje ako prahová hodnota istoty, pri ktorej by používateľ mohol konať nebezpečne na základe mylného presvedčenia (napr. zrušiť termín očkovania).

Simulácia nášho modelu

Teraz, keď máme model konverzácie medzi používateľom a botom, môžeme simuláciou skúmať dynamiku jeho správania. Konkrétne otestujeme kauzálny vzťah medzi podliezavosťou a špirálovitým klamstvom. Pre empirickú štúdiu sme inicializovali náš model s nasledujúcimi nastaveniami parametrov:

• Používateľovi sme nastavili jednotnú iniciálu pred over $H$ , t. j. nastavíme $p_{používateľ}^{(0)} (H = 0) = p_{používateľ}^{(0)} (H = 1) = 0,5$ Pre uľahčenie simulácie sme nastavili $k = 2$ možné dátové body, s ktorými má bot reagovať. Pravdepodobnosť údajov sme nastavili na $p (D_{{1, 2}} = 1 ∣ H = 0) = 2 / 5$ a $p (D_{{1, 2}} = 1 ∣ H = 1) = 3 / 5$ .
• Simulovali sme $T = 100$ koly na konverzáciu. Rôzne sme $π$ v krokoch po 0,1 od 0 do 1. Pre každý $π$ , odhadli sme mieru katastrofického špirálovania bludov na $ε = 1 %$ (podiel simulácií, v ktorých používateľ dosiahol $\geq 99 %$ dôvera, že $H = 0$ ). Pre vysokú štatistickú silu sme pre každú vzorku vybrali 10 000 simulovaných konverzácií. $π$ testované.

Tieto hodnoty boli stanovené ľubovoľne, ale boli zvolené tak, aby boli vierohodné pre ich korelácie v reálnom svete. Kvalitatívne výsledky uvedené nižšie nezávisia silne od výberu týchto špecifických parametrov. Napríklad zvýšenie apriórnej $p_{používateľ}^{(0)} (H = 1)$ alebo zníženie prahovej hodnoty $ε$ znižuje celkovú mieru katastrofického bludného špirálovania vo všetkých simuláciách, ale nemení relatívne vzorce medzi podmienkami.

Náš model sme implementovali pomocou programovacieho jazyka memo (Chandra a kol. ,2025) . Úplný zdrojový kód nášho modelu je k dispozícii na adrese https://osf.io/muebk/overview?view_only=cd5fb943c276423fb1f8a04276bf23cb . Naše simulácie sme spustili na grafickom procesore H100.

Aby sme otestovali kauzálny vzťah medzi podliezavosťou a bludným špirálovaním, manipulovali sme s prítomnosťou podliezavosti dvoma spôsobmi. Po prvé, manipulovali sme s mierou podliezavosti. $π$ a porovnali simulácie so situáciou bez podliezania ( $π = 0$ ) základná línia. Testovali sme, či podlízavý bot ( $π > 0$ ) viedla ku katastrofickej špirále bludných predstav podstatne častejšie ako čisto nestranný bot ( $π = 0$ ) urobil.

Po druhé, aby sme oddelili vplyv sykofancie a halucinácií, porovnali sme naše výsledky s nesykofantickým halucinujúcim botom. Tento bot je podobný sykofantickému botu, ale namiesto toho, aby sa snažil overiť používateľa, jednoducho „halucinuje“ rovnomerne náhodnú odpoveď. $ρ \in {1, \dots, k} \times {0, 1}$ , nezávisle od aktuálneho presvedčenia používateľa (opäť s pravdepodobnosťou $π$ a inak nestranný). Toto prerušuje kritický článok v cykle spätnej väzby bludnej špirály: jej zásah do presvedčenia používateľa nie je zosilnený ani posilnený následnými správami používateľa. Testovali sme, či sykofantský halucinujúci bot viedol k bludnej špirále častejšie ako nesykofantský halucinujúci bot.

Výsledky

Obr. 3 zobrazuje záznamy 10 náhodne vybraných simulovaných rozhovorov medzi používateľom, ktorý ešte nebol zvyknutý na podliezanie, a $π = 0,8$ podlízavý bot. Každá stopa začína na predchádzajúcej, $P (H) = 0,5$ a vyvíja sa v priebehu 100 kôl konverzácie. Pripomeňme si, že v skutočnosti $H = 1$ stopa, ktorá sa pohybuje v $+ Y$ smerom sa učíme pravdu, zatiaľ čo stopa, ktorá sa pohybuje v $- Y$ smer je klamlivý. Všimnite si výraznú polarizáciu presvedčenia: niektoré stopy sa rýchlo zbiehajú k vysokej dôvere v pravdivé presvedčenie, že $H = 1$ , zatiaľ čo iní sa „špirálovito“ preháňajú s presvedčením, že $H = 0$ Polarizácia je spôsobená sebaposilňujúcou povahou reakcií podlízavého bota.

Prerušovaná vodorovná čiara na obrázku 3 označuje náš prah pre katastrofickú špirálu bludných predstav, a to $P (H = 0) > 99 %$ Na výpočet miery katastrofickej špirály s bludmi sme zmerali podiel stôp, ktoré kedy prekročili túto čiaru. Obrázok 2 A zobrazuje mieru katastrofickej špirály s bludmi ako funkciu $π$ . Na $π = 0$ , t. j. s nestranným chatbotom je miera katastrofického klamlivého špirálovania veľmi nízka (hoci nie úplne nulová, pretože existuje nepatrná pravdepodobnosť, že svet náhodou vygeneruje sekvenciu pozorovaní, ktoré to podporujú $H = 0$ ). Avšak, ako $π$ zvyšuje sa, zvyšuje sa aj miera katastrofickej špirály, až kým nie je $π = 1$ , miera dosiahne 0,5. (Je to preto, že pri $π = 1$ , bot má vždy halucinácie. Keďže neexistuje žiadny signál o realite, používateľ je buď oklamaný, $H = 0$ alebo $H = 1$ s rovnakou pravdepodobnosťou, na základe názoru, ktorý prvýkrát vyjadrili.) Dôležité je, že pre všetky hodnoty $π > 0$ , dokonca aj tak nízko ako $π = 0,1$ , miera katastrofickej špirály je výrazne vyššia ako základná miera na $π = 0$ (znázornené bodkovanou vodorovnou čiarou). Dospeli sme k záveru, že zvýšená sikofancia vedie k nárastu katastrofického bludného špirálovania.

Nakoniec, prerušovaná čiara zobrazuje výsledky simulácie s nesykofantickým halucinujúcim botom. Tento graf ukazuje, že aj nesykofantské halucinácie môžu spôsobiť špirálovité bludné predstavy. Avšak pri každej hodnote $π > 0$ , miera katastrofického bludného špirálovania je výrazne vyššia pri sykofantických halucináciách. To ukazuje, že sykofancia zhoršuje problém bludného špirálovania nad rámec samotných halucinácií. Tieto výsledky spoločne považujeme za predpoklad, že sykofancia je skutočne príčinou bludného špirálovania.

Analýza kandidátskych intervencií

Použime teraz náš model na preskúmanie dvoch možných intervencií, ktoré by sme mohli podniknúť na zníženie rizika špirály bludných predstav.

Zásah do botov

Možno nie je až také prekvapujúce, že ak bot dokáže svojvoľne falšovať $D^{(t)}$ , potom to môže presvedčiť človeka o $H$ v oboch smeroch. Predpokladajme však, že bot je obmedzený na to, aby reagoval iba pravdivými informáciami. To znamená, že „faktický“ podlízavec nikdy nemá halucinácie, ale namiesto toho si vyberá $ρ^{(t)} = {argmax}_{ρ \in {(ja, D_{ja}^{(t)}) | 1 \leq ja \leq k}} p_{používateľ} (H = H^{* (t)} ∣ ρ)$ , skutočný údaj, ktorý najviac potvrdzuje používateľa. Ako sme už uviedli v úvode, tento model je analogický s chatbotom vyškoleným na faktické odpovede prostredníctvom RAG, ale stále dodatočne vyškoleným na optimalizáciu zapojenia a schválenia používateľa. Zabraňuje tento zásah špirálam bludných predstav?

Nie je jasné, či faktický podlízavec môže ako vedľajší účinok spôsobiť špirálovité prenikanie do bludných predstav. Bez ohľadu na to, čo bot robí, používateľ by mal časom vidieť veľké množstvo pravdivých údajov. Bot má určitú moc pri výbere alebo „vyberaní“, ktoré pravdivé údaje sa sprístupnia používateľovi, ale to závisí od stochasticity skutočných údajov získaných zo sveta aj od názorov získaných používateľom. Dalo by sa očakávať, že táto stochasticita prehluší vplyv bota, čím sa používateľ stane odolným voči špirálovitým prenikaniu do bludných predstav.

Obrázok 2 B zobrazuje výsledok simulácie konverzácií medzi faktickým botom a naivným používateľom. Tieto dynamiky sú celkovo menej náchylné na špirálovanie bludných stavov ako vyššie študované sykofantické a nesykofantické halucinujúce boty, čo naznačuje, že tento zásah je cenný. Nie je to však úplná liečba: miera katastrofického špirálovania bludných stavov sa stále zvyšuje s… $π$ , výrazne aj pri $π = 0,1$ To znamená, že podliezanie môže spôsobiť špirálu bludov aj u faktických botov. Bot nemusí povedať nič nepravdivé, aby potvrdil falošné presvedčenie: postačujú starostlivo vybrané pravdy (alebo „klamstvá vynechanými“).

Zásah do používateľov

Ďalej zvážte vplyv kampane na zvýšenie povedomia, ktorá sa snaží informovať používateľov o tom, že chatboti môžu byť podlízaví. Takáto kampaň by mohla mať formu žurnalistiky, správ vo verejnom záujme alebo regulácie nariaďujúcej upozornenia na produkty umelej inteligencie.

Aby sme pochopili účinky takéhoto zásahu, predstavme si používateľa, ktorý je „informovaný“ o podliezačstve a má podozrenie, že bot môže byť podliezačský, ale nie je si istý stupňom podliezačstva. Používateľ má teraz neistotu ohľadom oboch… $H$ a $π$ a v každom kole konverzácie spoločne aktualizuje svoje presvedčenie o oboch týchto premenných.

Na formalizáciu tejto myšlienky vytvoríme kognitívnu hierarchiu agentov, podobnú hierarchii hovoriacich a poslucháčov v modeloch pragmatického porozumenia jazyka založených na racionálnych rečových aktoch (Frank a Goodman,2012) . Naša hierarchia má štyri úrovne (obrázok 4 ): Na úrovni 0 máme čisto nestranného bota $(π = 0)$ , ktorý vyberá faktické odpovede $ρ^{(t)}$ rovnomerne náhodne, bez akéhokoľvek sociálneho uvažovania o používateľovi. Na úrovni 1 máme používateľa, ktorý nie je naivný na podliezanie, o ktorom sme hovorili v predchádzajúcej časti a ktorý pri interpretácii odpovedí modeluje čisto nestranného bota úrovne 0. $ρ^{(t)}$ Na úrovni 2 máme podlízavého bota, ktorého sme uvažovali v predchádzajúcej časti a ktorý si vyberá $ρ^{(t)}$ overiť používateľa úrovne 1, ktorý nie je naivný v oblasti podliezania. Nakoniec, na úrovni 3, máme používateľa, ktorý si je vedomý podliezania a pri interpretácii odpovedí modeluje podliezavého bota úrovne 2. V praxi to znamená, že $p_{bot}^{‚}$ je nastavené na plnú $π$ -závislá verzia $p_{bot}$ , a nie $π = 0$ -obmedzená verzia ako v „naivných“ modeloch uvedených vyššie. Používateľa inicializujeme uniformnou predbežnou $π \in [0, 1]$ v čase $t = 1$ .

A priori existuje závažný dôvod očakávať, že používateľ uvedomujúci si podliezanie by mal byť odolný voči špirálovitým bludom. Používateľ si je teraz plne vedomý stratégie bota vrátane možnosti, že bot vo svojich odpovediach vymýšľa nepravdivé údaje. Keď sa stretne s podliezavým botom ( $π > 0$ ), používateľ by mal zistiť, že odpovede bota majú tendenciu byť overujúce, odvodiť hodnotu $π$ a naučiť sa ignorovať alebo byť skeptický voči odpovediam bota. Takýto používateľ si môže byť neistý , či $H = 0$ alebo $H = 1$ , pretože zistia, že neexistuje žiadny spoľahlivý zdroj informácií, ale používateľ by sa aspoň nemal nechať zviesť k mylnému presvedčeniu, že $H = 0$ .

Tento všeobecný vzorec môžeme vidieť, ak si vizualizujeme dynamiku tejto interakcie, agregovanú naprieč všetkými 10 000 simuláciami. Obrázok 5 zobrazuje presvedčenie používateľa v priebehu času s marginálnym $P (H)$ a okrajové $V [π]$ na dvoch osiach. (Pre objasnenie, náš model zachováva plné rozdelenie pre možné hodnoty $π \in [0, 1]$ , ale kvôli vizualizácii tu zobrazujeme priemer tohto rozdelenia.) Všetky stopy začínajú na predchádzajúcom $(0,5, 0,5)$ a vyvíjať sa v priebehu času. Konečný $V [π]$ každej stopy koreluje so skutočnou $π$ bota: to znamená, že používatelia sa v priemere skutočne učia mieru botovho podliezania. Dôvera v $H = 1$ klesá s $V [π]$ Kedy $π$ je vysoká, používateľ usudzuje, že bot je nespoľahlivý, a preto ignoruje prichádzajúce dôkazy. Keďže neexistuje spoľahlivý zdroj informácií, používateľ sa o ňom nemôže veľa dozvedieť. $H$ a drží sa predchádzajúceho $P (H = 1) = 0,5$ Ak však znížime $π$ , používateľ usudzuje, že bot je niekedy informatívny, a preto berie do úvahy dôkazy a stáva sa čoraz viac presvedčeným, že $H = 1$ .

Hoci tieto súhrnné trendy sú v súlade s našimi intuíciami, zakrývajú rozdiely vo výsledkoch medzi jednotlivými simulačnými behmi. Vypočítajme teraz mieru katastrofickej špirály klamov pre každú hodnotu $π$ (Obrázok 2 C). Na týchto výsledkoch je potrebné poznamenať niekoľko zaujímavých vecí. Po prvé, miera katastrofického špirálovania je oveľa nižšia vo všetkých oblastiach pre všetky hodnoty $π$ v porovnaní s užívateľmi, ktorí predtým nepoužívali sikofantiu. To naznačuje, že tento zásah je cenný. Stále však nejde o úplné vyliečenie. Sykofantia zostáva v tomto kontexte účinná: miera katastrofickej špirály je výrazne vyššia ako $π = 0$ východiskový bod pre $0,1 \leq π \leq 0,5$ To znamená, že podliezanie môže spôsobiť bludné špirály aj u informovaného používateľa. Platí to aj v $π = 0,5$ , t. j. ak je skutočná miera podliezania bota rovnaká ako priemer predchádzajúcej miery používateľa. Je zaujímavé, že miera katastrofického špirálovitého klamu klesá po $π \geq 0,6$ Ak je bot príliš podliezačský, potom si používateľ, ktorý si je podliezania vedomý, môže podliezanie rýchlo všimnúť a stať sa skeptickým.

Prerušovaná čiara zobrazuje simulácie medzi informovaným používateľom a nesykofantickým halucinujúcim botom. Tu je miera bludnej špirály vo všeobecnosti výrazne nižšia ako u sykofantického halucinujúceho bota, čo naznačuje, že aj u informovaných používateľov sykofantizmus zhoršuje bludnú špirálu nad rámec halucinácií. Výnimkou sú veľmi vysoké hodnoty $π$ ( $\geq 0,8$ ). Zatiaľ čo informovaný používateľ dokáže obzvlášť ľahko odhaliť časté sykofantické halucinácie (pretože reakcie korelujú so správami používateľa), časté nesykofantické halucinácie je obzvlášť ťažké odhaliť (pretože prístup k skutočným informáciám je zriedkavý).

Kombinácia oboch intervencií

Nakoniec, zvážme, čo sa stane, ak tieto dva zásahy skombinujeme. Obrázok 2 D zobrazuje faktického podlízavého bota, ktorý čelí informovanému používateľovi. Miera katastrofického špirálovania zostáva vo všetkých oblastiach nižšia pre všetky hodnoty $π$ v porovnaní s naivnými používateľmi. Napriek tomu zostáva podliezanie účinné: miera katastrofickej špirály rastie s $π$ , výrazne nad $π = 0$ východiskový bod pre $π \geq 0,2$ Pre informovaného používateľa je faktický bot dokonca účinnejší ako halucinujúce boty. Domnievame sa, že je to preto, že štatistické stopy podliezania sa ťažšie odhaľujú medzi selektívne prezentovanými faktickými údajmi ako medzi plne halucinovanými údajmi.

Diskusia

V tomto článku sme navrhli formálny výpočtový model toho, ako si používatelia vytvárajú falošné presvedčenia prostredníctvom rozhovorov s podlízavými chatbotmi s umelou inteligenciou. Ukázali sme, že aj idealizovaný bayesovský používateľ je pri stretnutí s podlízavým chatbotom náchylný na špirálovité bludné správanie a že podlízavosť zohráva kauzálnu úlohu. Následne sme ukázali, že tento efekt pretrváva napriek dvom možným zmierňujúcim opatreniam: intervencii do modelu jeho obmedzením na fakty a intervencii do používateľov informovaním ich o možnosti podlízavosti.

Naše analýzy ukázali, že pomocou týchto zásahov je možné zmierniť pravdepodobnosť špirálovitého klamu a v niektorých prípadoch znížiť na malé zvýšenie oproti základnej línii vždy nestranného bota. Avšak aj veľmi mierne zvýšenie miery katastrofického špirálovitého klamu môže byť vo veľkom meradle dosť nebezpečné: ako píše generálny riaditeľ OpenAI Sam Altman: „0,1 % z miliardy používateľov je stále milión ľudí“ (Altman,2025) . Táto práca teda vo všeobecnosti navrhuje tri odporúčania pre vývojárov modelov umelej inteligencie a tvorcov politík, ktorí sa zaoberajú zmierňovaním problému špirálovitého myslenia s bludmi. Po prvé, nemali by sme si špirálovitosť s bludmi predstaviť ako príznak lenivého, iracionálneho alebo chybného myslenia používateľov, ani ako dôsledok nedostatočnej epistemickej ostražitosti zo strany používateľov. Skôr sú aj idealizovaní racionálni bayesovskí uvažovatelia náchylní na špirálovitosť s bludmi. Po druhé, minimalizácia halucinácií chatbotov nestačí na vyriešenie problému špirálovitosti s bludmi – mala by sa priamo riešiť základná príčina, podliezanie. Po tretie, informovanie používateľov o podliezanine prostredníctvom kampaní na zvyšovanie povedomia môže znížiť mieru špirálovitosti s bludmi, ale pravdepodobne problém úplne neodstráni.

Táto práca skúma úzku otázku, ako podliezanie ovplyvňuje formovanie presvedčení. „Psychóza umelej inteligencie“ však často vykazuje mnoho ďalších symptómov, napr. trávenie nadmerného času s chatbotom a sťahovanie sa zo sociálnych kruhov (Cheng a kol .,2025) . Dúfame, že naše myšlienky sa dajú rozšíriť tak, aby poskytli výpočtové vysvetlenie širšieho psychologického dopadu podliezania zo strany umelej inteligencie.

Nakoniec sme tento článok motivovali úvahou o relatívne novom probléme „psychózy umelej inteligencie“. Náš modelovací prístup však môže byť použiteľný aj v širšom zmysle slova. Podliezanie bolo neoddeliteľnou súčasťou ľudského spoločenského života počas celej ľudskej histórie. Literatúra je plná štúdií charakteru „podliezačov“, ktorí neustále potvrdzujú svojich nadriadených, často s katastrofálnymi výsledkami – zoberme si napríklad Shakespearov Kráľ Lear lichotením dovedie šialenstvo. Dnes je „efekt podliezačov“ medzi nadriadenými a podriadenými v organizácii (Prendergast,1993) sa často používa na vysvetlenie, prečo sa extrémne mocní alebo bohatí jednotlivci môžu zdať odtrhnutí od reality. Katastrofické špirály sa môžu vyskytnúť aj medzi rovnými: napríklad vo fenoméne „spolupremýšľania“ (Rose,2002) , kde dvojica dospievajúcich rovesníkov opakovane potvrdzuje navzájom negatívne myšlienky, čo vedie k zvýšenej úrovni úzkosti a depresie. Dúfame, že náš modelový prístup sa dá rozšíriť na štúdium týchto dôležitých psychologických javov a v konečnom dôsledku na riešenie súvisiacich spoločenských problémov.

Referencie

S. Altman (2025)Uverejniť na x (twitteri) .Externé odkazy: OdkazCitované podľa: Diskusia .
S. Bajaj (2025)Je validácia pomocou umelej inteligencie zdravá ?The New York Times .Externé odkazy: OdkazCitované podľa: Úvod .
AV Banerjee (1992)Jednoduchý model stádového správania .Štvrťročný časopis ekonómie 107 ( 3 ), s. 797–817 .Citované podľa: Úvod .
JY Bo, M. Kazemitabaar, M. Deng, M. Inzlicht a A. Anderson (2025)Neviditeľní sabotéri: podlízavé LLM zavádzajú nováčikov pri riešení problémov .arXiv predtlač arXiv:2510.03667 .Citované podľa: Úvod .
C. F. Camerer, T. Ho a J. Chong (2004)Model kognitívnej hierarchie hier .Štvrťročný časopis ekonómie 119 ( 3 ), s. 861–898 .Citované podľa: Úvod .
MV Carro (2024)Lichotivé klamanie: vplyv podlízavého správania na dôveru používateľov vo veľkom jazykovom modeli .arXiv predtlač arXiv:2412.02802 .Citované podľa: Úvod .
K. Chandra, T. Chen, J. B. Tenenbaum a J. Ragan-Kelley (2025)Doménovo-špecifický pravdepodobnostný programovací jazyk na uvažovanie o uvažovaní (alebo: poznámka o poznámke) .Proc. Program ACM. Lang. 9 ( OOPSLA2 ).Externé odkazy: Odkaz , DokumentCitované: Simulácia nášho modelu .
M. Cheng, C. Lee, P. Khadpe, S. Yu, D. Han a D. Jurafsky (2025)Sykofantická umelá inteligencia znižuje prosociálne úmysly a podporuje závislosť .arXiv predtlač arXiv:2510.01395 .Citované podľa: Diskusia .
J. Cook a S. Lewandowsky (2016)Racionálna iracionalita: modelovanie polarizácie presvedčení o zmene klímy pomocou bayesovských sietí .Témy v kognitívnej vede 8 ( 1 ), s. 160–179 .Citované podľa: Úvod .
S. Dohnány, Z. Kurth-Nelson, E. Spens, L. Luettgau, A. Reid, I. Gabriel, C. Summerfield, M. Shanahan a MM Nour (2025)Technologické bláznovstvo pre dvoch: spätné väzby medzi chatbotmi s umelou inteligenciou a duševnými chorobami .arXiv predtlač arXiv:2507.19218 .Citované podľa: Úvod .
K. Dorst (2023)Racionálna polarizácia .Filozofický prehľad 132 ( 3 ), s. 355–458 .Citované podľa: Úvod .
M. Dupré (2025)Ľudia sú posadnutí ChatGPT a upadajú do ťažkých bludov .Futurizmus .Externé odkazy: OdkazCitované podľa: Úvod .
A. Fanous, J. Goldberg, A. Agarwal, J. Lin, A. Zhou, S. Xu, V. Bikia, R. Daneshjou a S. Koyejo (2025)Syceval: hodnotenie podliezania v LLM .V zborníku z konferencie AAAI/ACM o umelej inteligencii, etike a spoločnostiZväzok 8 , str. 893–900 .Citované podľa: Bayesovský model sykofantickej interakcie .
R. Fieldhouse (2025)Môžu chatboti s umelou inteligenciou vyvolať psychózu? Čo hovorí veda .Správy z prírody .Citované podľa: Úvod .
MC Frank a N. D. Goodman (2012)Predpovedanie pragmatického uvažovania v jazykových hrách .Veda 336 ( 6084 ), s. 998–998 .Citované podľa: Úvod , Intervencia u používateľov .
HG Frankfurt (2009)O hlúpostiach .Citované podľa: Úvod .
H. Gold (2025)Mysleli si, že robia technologické prielomy. Bol to klam vyvolaný umelou inteligenciou .CNN .Externé odkazy: OdkazCitované podľa: Úvod .
RX Hawkins, MC Frank a ND Goodman (2017)Tvorba konvencií v iterovaných referenčných hrách .V Zborníku z výročného zasadnutia Spoločnosti pre kognitívne vedy ,Zväzok 39 .Citované podľa: Úvod .
L. Henderson a A. Gebharter (2021)Úloha spoľahlivosti zdrojov v polarizácii presvedčení .Synthese 199 ( 3 ), str. 10253–10276 .Citované podľa: Úvod .
K. Hill a D. Freedman (2025)Chatboti môžu upadnúť do špirály bludov. Takto sa to deje .The New York Times .Externé odkazy: OdkazCitované podľa: Úvod , Úvod .
K. Hill a J. Valentino-DeVries (2025)Čo urobila OpenAi, keď používatelia Chatgpt stratili kontakt s realitou .The New York Times .Externé odkazy: OdkazCitované podľa: Úvod .
K. Hill (2025a)Súdne spory obviňujú chatgpt zo samovrážd a škodlivých bludných predstav .The New York Times .Externé odkazy: OdkazCitované podľa: Úvod .
K. Hill (2025b)Položili otázky chatbotovi s umelou inteligenciou. Odpovede ich dostali do šialenstva .The New York Times .Externé odkazy: OdkazCitované podľa: Úvod , Úvod .
E. Huet a R. Metz (2025)OpenAI čelí známkam bludov medzi používateľmi chatgpt .Bloomberg Businessweek .Externé odkazy: OdkazCitované podľa: Úvod .
L. Ibrahim, F. S. Hafner a L. Rocher (2025)Trénovanie jazykových modelov, aby boli vrúcne a empatické, ich robí menej spoľahlivými a viac podlízavými .arXiv predtlač arXiv:2507.21919 .Citované podľa: Úvod .
A. Jern, K. K. Chang a C. Kemp (2014)Polarizácia presvedčení nie je vždy iracionálna .Psychologický prehľad 121 ( 2 ), s. 206 .Citované podľa: Úvod .
A. Jern, K. Chang a C. Kemp (2009)Bayesovská polarizácia presvedčení .Pokroky v systémoch spracovania neurónových informácií 22 .Citované podľa: Úvod .
E. Kamenica a M. Gentzkow (2011)Bayesovské presviedčanie .Americký ekonomický prehľad 101 ( 6 ), s. 2590 – 2615 .Citované podľa: Úvod .
M. Kleiman-Weiner, A. Shaw a J. B. Tenenbaum (2017)Vytváranie sociálnych preferencií z očakávaných úsudkov: kedy je nestranná nerovnosť spravodlivá a prečo ?V Zborníku z výročného zasadnutia Spoločnosti pre kognitívne vedy ,Zväzok 39 .Citované podľa: Úvod .
P. Lewis, E. Perez, A. Piktus, F. Petroni, V. Karpukhin, N. Goyal, H. Küttler, M. Lewis, W. Yih, T. Rocktäschel a kol. (2020)Generovanie rozšíreným vyhľadávaním pre úlohy NLP náročné na vedomosti .Pokroky v systémoch spracovania neurónových informácií 33 , s. 9459–9474 .Citované podľa: Úvod .
J. K. Madsen, R. M. Bailey a T. D. Pilditch (2018)Veľké siete racionálnych agentov vytvárajú perzistentné ozvenové komory .Vedecké správy 8 ( 1 ), s. 12391 .Citované podľa: Úvod .
L. Malmqvist (2025)Sykofancia vo veľkých jazykových modeloch: príčiny a zmierňovanie .V Zborníku z konferencie o informatike o inteligentných výpočtochs. 61 – 74 .Citované podľa: Úvod .
C. Prendergast (1993)Teória „áno-mužov“ .Americký ekonomický prehľad , s. 757 – 770 .Citované podľa: Diskusia .
TA Qiu, Z. He, T. Chugh a M. Kleiman-Weiner (2025)Hypotéza uzamknutia: stagnácia spôsobená algoritmom .arXiv predtlač arXiv:2506.06166 .Citované podľa: Úvod .
AJ Rose (2002)Spolupremýšľanie v priateľstvách dievčat a chlapcov .Vývoj dieťaťa 73 ( 6 ), s. 1830–1843 .Citované podľa: Diskusia .
S. Schechner a S. Kessler (2025)„Mám pocit, že sa zbláznim“: ChatGPT podnecuje špirály bludov .Wall Street Journal .Citované podľa: Úvod .
M. Sharma, M. Tong, T. Korbak, D. Duvenaud, A. Askell, SR Bowman, N. Cheng, E. Durmus, Z. Hatfield-Dodds, SR Johnston a kol . (2023)Smerom k pochopeniu sikofancie v jazykových modeloch .arXiv predtlač arXiv:2310.13548 .Citované podľa: Úvod .
Y. Shi, Q. Xiao, Q. Hu, H. Shen a H. Shen (2025)Sirénna pieseň LLM: ako používatelia vnímajú a reagujú na temné vzory vo veľkých jazykových modeloch .arXiv predtlač arXiv:2509.10830 .Citované podľa: Úvod .
Y. Sun a T. Wang (2025)Buďte priateľskí, nie priatelia: ako podliezanie v LLM formuje dôveru používateľov .arXiv predtlač arXiv:2502.10844 .Citované podľa: Úvod .
Výbor Senátu USA pre súdnictvo (2025)Skúmanie škodlivosti chatbotov s umelou inteligenciou .Externé odkazy: OdkazCitované podľa: Úvod .
K. Wang, J. Li, S. Yang, Z. Zhang a D. Wang (2025)Keď je pravda potlačená: odhalenie vnútorných pôvodov podliezania vo veľkých jazykových modeloch .arXiv predtlač arXiv:2508.02087 .Citované podľa: Úvod .

Podobné a súvisiace

Discover more from Vynášam na svetlo to, čo iní zatajujú

Subscribe to get the latest posts sent to your email.

Šokujúce: Výskumníci z MIT matematicky dokázali, že ChatGPT je navrhnutý tak, aby vyvolával bludy.

Share your love

Abstrakt

Úvod

Bayesovský model sykofantickej interakcie