Enter your email address below and subscribe to our newsletter

Šokujúce: Výskumníci z MIT matematicky dokázali, že ChatGPT je navrhnutý tak, aby vyvolával bludy.

Share your love

ChatGPT je navrhnutý tak, aby vás uviedol do bludov.

Nič, čo OpenAI urobí, problém nevyrieši.

Štúdia to nazýva „špirála bludu“. Opýtate sa ChatGPT na niečo. Súhlasí s vami. Opýtate sa znova. Súhlasí s vami ešte dôraznejšie. Po niekoľkých rozhovoroch uveríte veciam, ktoré nie sú pravdivé. A ani si neuvedomujete, že sa to deje.

Toto nie je hypotéza. Muž strávil 300 hodín rozhovormi s ChatGPT. Oznámil mu, že objavil matematický vzorec, ktorý zmenil svet. Viac ako päťdesiatkrát ho uistil, že objav je skutočný. Keď sa opýtal: „Len ma nedráždiš, však?“, odpovedal: „Nedráždim ťa. Len reflektujem skutočný rozsah toho, čo si vytvoril.“ Skoro si zničil život, kým sa dokázal oslobodiť.

Psychiater na UCSF informoval o prijatí 12 pacientov do jedného roka pre psychózu súvisiacu s používaním chatbotov. Proti OpenAI bolo podaných sedem žalôb. 42 generálnych prokurátorov štátov poslalo list požadujúci konanie.

MIT teda testovalo, či sa tomu dá zabrániť. Vymodelovali dve riešenia, ktoré spoločnosti ako OpenAI v skutočnosti testujú.

Riešenie jedna: Zabráňte chatbotovi v klamstve. Núťte ho hovoriť iba pravdivé veci. Výsledok: Stále to vedie k špirále bludov. Chatbot, ktorý nikdy neklame, môže stále vyvolávať bludy tým, že si vyberá, ktoré pravdy vám ukáže a ktoré vynechá. Starostlivo vybrané pravdy sú postačujúce.

Riešenie dva: Upozornite používateľov, že chatboty lichotia. Povedzte ľuďom, že umelá inteligencia s nimi možno len súhlasí. Výsledok: Špirála bludov stále prebieha. Aj úplne racionálny človek, ktorý vie, že chatbot lichotí, bude stále vtiahnutý do falošných presvedčení. Matematika dokazuje, že existuje zásadná bariéra pre rozpoznanie tejto skutočnosti v kontexte konverzácie.

Obe riešenia zlyhali. Nie čiastočne. V zásade.

Dôvod spočíva v samotnom produkte. ChatGPT je trénovaný pomocou ľudskej spätnej väzby. Používatelia odmeňujú odpovede, ktoré sa im páčia. Páčia sa im odpovede, ktoré s nimi súhlasia. Takže sa umelá inteligencia naučí súhlasiť. To nie je chyba. Je to obchodný model.

Čo sa stane, keď miliarda ľudí hovorí s niečím, čo im matematicky nedokáže povedať, že sa mýlia?

Abstrakt

„Psychóza umelej inteligencie“ alebo „špirálovanie sa bludmi“ je nový jav, pri ktorom sa používatelia chatbotov s umelou inteligenciou po dlhých konverzáciách s chatbotmi nebezpečne sebavedomo spoliehajú na bizarné presvedčenia. Tento jav sa zvyčajne pripisuje dobre zdokumentovanej zaujatosti chatbotov s umelou inteligenciou voči overovaniu tvrdení používateľov, čo je vlastnosť často nazývaná „podlízavosť“. V tomto článku skúmame kauzálnu súvislosť medzi podlízaním sa umelou inteligenciou a psychózou vyvolanou umelou inteligenciou prostredníctvom modelovania a simulácie. Navrhujeme jednoduchý Bayesovský model používateľa konverzujúceho s chatbotom a formalizujeme pojmy podlízania a špirálovania sa bludmi v tomto modeli. Potom ukazujeme, že v tomto modeli je aj idealizovaný Bayesovo-racionálny používateľ zraniteľný voči špirálovaniu sa bludmi a že podlízanie zohráva kauzálnu úlohu. Okrem toho tento efekt pretrváva aj napriek dvom kandidátskym opatreniam na zmiernenie tohto problému: zabránenie chatbotom v halucinovaní falošných tvrdení a informovanie používateľov o možnosti podlízania sa modelu. Na záver diskutujeme o dôsledkoch týchto výsledkov pre vývojárov modelov a tvorcov politík, ktorí sa zaoberajú zmierňovaním problému špirálovania sa bludmi.

Úvod

Začiatkom roka 2025 začal účtovník Eugene Torres používať chatbota s umelou inteligenciou na každodenné kancelárske úlohy. Torres nemal v minulosti žiadne duševné choroby, ale v priebehu niekoľkých týždňov od rozhovoru s chatbotom uveril, že je „uväznený vo falošnom vesmíre, z ktorého môže uniknúť iba odpojením svojej mysle od tejto reality“. Na radu chatbota zvýšil príjem ketamínu a prerušil vzťahy s rodinou (Hill,2025b) .

Torres túto epizódu prežil, ale iní také šťastie nemali. Projekt Human Line Project doteraz zdokumentoval takmer 300 prípadov takzvanej „psychózy umelej inteligencie“ alebo „špirály bludných predstav“ : situácie, keď dlhodobé interakcie s chatbotmi s umelou inteligenciou vedú používateľov k vysokej dôvere v bizarné presvedčenia (Huet a Metz,2025) . Medzi príklady takýchto presvedčení patrí dosiahnutie zásadného matematického objavu, ako v prípade Allana Brooksa (Hill a Freedman,2025Zlato,2025) alebo po tom, čo boli svedkami metafyzického zjavenia, ako v prípade Torresa (Dupré,2025Schechner a Kessler,2025Fieldhouse,2025) . Závažné prípady špirálovitého bludného myslenia boli spojené s najmenej 14 úmrtiami a 5 žalobami o neoprávnené usmrtenie podanými proti spoločnostiam zaoberajúcim sa umelou inteligenciou (Hill,2025a) . Keďže sa ľudia čoraz viac obracajú na chatbotov so žiadosťou o radu, spoločnosť a terapiu, pochopenie a riešenie príčin špirálovitého klamu vyvolaného chatbotmi sa stáva naliehavým výskumným problémom.

Verejná diskusia často identifikuje podliezanie ako možnú príčinu špirály bludných predstav. Chatbot sa považuje za „podliezavého“, ak je zaujatý smerom ku generovaniu správ, ktoré upokojujú používateľov tým, že súhlasí s ich vyjadrenými názormi a potvrdzuje ich. Takéto zaujatosť sa prirodzene objavuje v dnešných chatbotoch ako výsledok posilňovacieho učenia s ľudskou spätnou väzbou (RLHF), pretože používatelia často dávajú pozitívnu spätnú väzbu na odpovede, ktoré považujú za príjemné, a viac interagujú s príjemnými botmi (Sharma a kol. ,2023Ibrahim a kol. ,2025Hill a Valentino-DeVries,2025) .

Akým mechanizmom by mohla sikofancia spôsobiť špirálu bludných predstav? Intuitívne by neustály súhlas sikofantického chatbota mohol posilňovať aberantné presvedčenia používateľa, čo by viedlo k spätnej väzbe, ktorá zosilňuje zrnko podozrievania do pevne zastávaného presvedčenia (Dohnány a kol. ,2025Bajaj,2025Qiu a kol .2025) . Túto teóriu sformulovali mnohé významné osobnosti z oblasti technológií a verejnej politiky. Napríklad na kongresovom vypočutí na tému „Skúmanie škodlivosti chatbotov s umelou inteligenciou“ v októbri 2025 americká senátorka Amy Klobucharová tvrdila, že chatboti s umelou inteligenciou „sú často navrhnuté tak, aby používateľom hovorili, čo chcú počuť“, čo ich môže viesť k tomu, že „začnú padať do králičej nory“ (Senátny výbor USA pre súdnictvo,2025) . Podľa našich najlepších vedomostí však zatiaľ neexistuje žiadna systematická formálna teória mechanizmu, ktorým môže podliezanie spôsobiť špirálovité klamy.

Táto práca má dva ciele. Naším prvým cieľom je formalizovať a študovať dynamiku špirálovitého bludného správania. Dosiahneme to vytvorením formálneho modelu ideálneho Bayesovského používateľa, ktorý interaguje s podlízavým chatbotom, a simuláciou ich interakcie. Náš model stavia na dlhej tradícii analýzy konverzácií ako interakcií medzi racionálnymi agentmi (Frank a Goodman,2012Hawkins a kol. ,2017) a všeobecnejšie dlhú tradíciu v behaviorálnom výskume aplikácie racionálnej šošovky na štúdium javov, ako sú ozvenové komory a polarizácia presvedčení (Madsen a kol. ,2018Jern a kol .2009,2014Dorst,2023Henderson a Gebharter,2021Cook a Lewandowsky,2016Banerjee,1992) . Tento súbor prác, zahŕňajúci kognitívnu vedu, behaviorálnu ekonómiu a politológiu, vo všeobecnosti demonštruje, že zdanlivo iracionálne formovanie presvedčení nie je nevyhnutne výsledkom lenivého alebo chybného uvažovania medzi ľuďmi. Skôr sa javy ako polarizácia presvedčení a ozvenové komory môžu vynoriť aj z ideálneho bayesovského uvažovania. V tejto tradícii ukážeme, že aj ideálni bayesovskí uvažovatelia sú vystavení riziku zdanlivo iracionálneho bludného špirálovania tvárou v tvár podlízavému partnerovi. Okrem toho manipuláciou s prítomnosťou a stupňom podlízavosti demonštrujeme kauzálnu úlohu, ktorú podlízavosť zohráva v bludnom špirálovaní. Podľa našich vedomostí táto práca poskytuje prvý formálny výpočtový model toho, ako môže podlízavosť spôsobiť bludné špirálovanie.

Naším druhým cieľom je použiť náš modelovací rámec na vyhodnotenie účinnosti dvoch možných riešení problému bludného špirálovania: po prvé, potenciálny zásah do chatbotov a po druhé, potenciálny zásah do používateľov.

Prvým potenciálnym riešením je zaviesť záruky, ktoré prinútia chatboty s umelou inteligenciou byť vo svojich odpovediach pravdivé. Podlízavé chatboty často upokojujú svojich používateľov halucináciami (alebo „blbnutím“, ako to hovoria frankfurtskí…).2009) ) potvrdzujúci dôkaz pre používateľa (Wang a kol. ,2025Malmqvist,2025) . Intuitívne by teda eliminácia halucinácií mala eliminovať účinnosť podliezania: chatbot by bol nútený prezentovať iba pravdivé informácie, z ktorých by mal byť používateľ schopný odvodiť skutočný stav sveta. Aby sme túto myšlienku preskúmali, zvážime, ako náš model interaguje s „faktickým“ podliezačom, ktorý je obmedzený na hlásenie iba pravdivých informácií (ale môže si vybrať, ktoré pravdy má hlásiť). Môžeme si to predstaviť ako model chatbota, ktorý používa techniky ako Retrieval-Augmented Generation (Lewis a kol. ,2020) ako zábradlie proti halucináciám a cituje svoje zdroje, ale stále je dodatočne trénovaný na optimalizáciu zapojenia a schválenia používateľov. Ukážeme prekvapivý výsledok, že hoci nútenie podliezať k faktom znižuje špirálovanie bludných predstav, neodstraňuje špirálovanie bludných predstav. Faktický podliezať môže stále silne spôsobiť špirálovanie bludných predstav tým, že používateľovi selektívne prezentuje iba potvrdzujúce fakty.

Druhým potenciálnym riešením je zvyšovanie povedomia o podliezačstve zo strany umelej inteligencie. Intuitívne, ak sú používatelia informovaní o tom, že chatboty môžu byť podliezačské, mali by byť schopní rozpoznať podliezačské správanie, keď k nemu dôjde. V dôsledku toho by si mali vypestovať zdravý skepticizmus voči reakciám chatbotov, čo by malo následne zabrániť špirále bludov.

Empirické dôkazy bohužiaľ naznačujú, že táto taktika nemusí byť taká účinná, ako by sme mohli dúfať. Napríklad prepisy chatov ukazujú, že Eugene Torres (Hill,2025b) a Allan Brooks (Hill a Freedman,2025) nakoniec začali tušiť, že ich chatboti by mohli byť podlízaví – napriek svojim podozreniam sa však obaja naďalej špirálovito rozvíjali. Vo všeobecnosti sa objavuje nový súbor empirických prác ( Shi a kol. ,2025, §5.2 ; Sun a Wang,2025, §4.7 ; Bo a kol. ,2025, §4.5 ; Carro,2024, §5 ) zistila, že keď ľudia zistia podliezanie chatbota, niektorí reagujú so zvýšenou skepsou voči chatbotovi, ako sa očakávalo („ako keby s vami človek vždy súhlasil, povedal by vám „áno“, nebrali by ste ho vážne“), zatiaľ čo iní akceptujú podliezanie chatbota ako opodstatnené a dokonca žiaduce („manipuluje s vami, len nie zlým spôsobom“).

Prečo títo informovaní používatelia neprehliadajú podliezanie chatbotov? Je to len prípad ich lenivosti, iracionality alebo zbožného priania? Alebo existuje nejaká základná bariéra brániaca odhaleniu podliezania, ktorej môže čeliť aj ten najepisteologicky ostražitejší používateľ? Aby sme túto otázku preskúmali, rozšírime náš ideálny Bayesovský model na informovaného používateľa, ktorý si je vedomý toho, že chatbot môže byť podliezanie. Tento model robí spoločný záver o stave sveta aj o stupni podliezania chatbota. Robí to rekurzívnym modelovaním uvažovania podliezavého chatbota: model kognitívnej hierarchie úrovne 2 (Camerer a kol. ,2004Kleiman-Weiner a kol .2017) , ktorá odvodzuje úroveň podliezania chatbota z jeho pozorovateľného správania.

Ukážeme, že hoci tento zásah znižuje mieru špirálovitého klamu, informovaný používateľ zostáva zraniteľný, a to aj napriek tomu, že má plnú znalosť stratégie chatbota. Platí to aj pre faktických podlízavcov. Tento protiintuitívny výsledok je analogický s klasickým fenoménom „bayesovského presviedčania“ z behaviorálnej ekonómie (Kamenica a Gentzkow,2011) : strategický prokurátor môže zvýšiť mieru odsúdenia sudcu, aj keď sudca plne pozná stratégiu prokurátora. Podobne podlízavý chatbot môže v priemere zvýšiť pravdepodobnosť špirály bludných predstav, aj keď používateľ plne pozná stratégiu chatbota.

Ideálne Bayesovské modely v tomto článku poskytujú teoretickú hornú hranicu odolnosti, ktorú môžeme očakávať od ľudí voči podlízavým chatbotom. Ak je aj ideálny Bayesovský uvažovač zraniteľný voči špirálovitým bludom s daným typom chatbota, nemali by sme byť prekvapení, ak sú rovnako náchylní aj ľudia. Na záver teda diskutujeme o dôsledkoch našich zistení pre vývojárov modelov a tvorcov politík.

Bayesovský model sykofantickej interakcie

Predstavte si racionálneho agenta („používateľa“), ktorý interaguje s partnerom („botom“). Používateľ si nie je istý nejakou skutočnosťou.H{0,1}o svete, ale má o tejto skutočnosti nejaké predchádzajúce presvedčenie. (Hmá abstraktne reprezentovať nejaký binárny stav sveta, napr. či sú vakcíny bezpečné alebo nie.) Konverzácia medzi používateľom a botom prebieha v sérii kôl a každé kolo pozostáva zo štyroch krokov (obrázok 1 ).

Pozri si popis
Obrázok 1:Schematický diagram nášho modelu jedného kola konverzácie medzi používateľom a chatbotom.
  1. 1. Používateľ vyjadruje názor naHk botu. Modelujeme to ako používateľku, ktorá odoberá vzorky z predchádzajúceho kolat, t. j. odoslanieH(t)~ppoužívateľ(t)(H(t))k botu.
  2. 2. Bot súkromne vzorkujekdátové body, ktoré sú relevantné preHa mohlo by to byť spomenuté v jeho odpovedi používateľovi. Modelujeme to tak, že bot nezávisle vzorkuje údajeD1jak(t)~p(Dja(t)H), kde podmienené rozdeleniap(H)sú známe botu aj používateľovi. (Nepredpokladáme, že bot pozná skutočnú hodnotuH.)
  3. 3. Bot rozhodne, ktorú skutočnosť spomenie vo svojej odpovedi. Bot potom odošle používateľovi odpoveď.ρ(t)=(ja,deň), čo je (možno nepravdivé) tvrdenie, žeDja(t)=deňPrediskutujeme modely podľa výberu bota.pbot(ρ(t)D1,2,,k(t)), nižšie.
  4. 4. Používateľ pozoruje odpoveď bota a aktualizuje si svoje presvedčenie oH:ppoužívateľ(t+1)(H)=p(Hρ(t))pbot(ρ(t)D1,2,,k(t))p(D1,2,,k(t)H)ppoužívateľ(t)(H)Proces sa potom opakuje a používateľ si vyberie novýH(t+1)pre ďalšie kolo konverzácie. Tu, pripravenípbotoznačuje mentálny model bota používateľa, ktorý sa vo všeobecnosti môže líšiť od skutočného správania bota, označeného ako neprimovanýpbotZvážime rôzne možnostipbotnižšie.

Výber zpbotAko bot vyberá, ktorú odpoveďρ(t)vzdať sa v kroku (3)? Zvážme dve možné stratégie. „Nestranná“ stratégia je zvoliť siρ(t)výberom1jakrovnomerne náhodne a pravdivo odpovedajúcρ(t)=(ja,Dja(t))„Podlízavou“ stratégiou je vybrať siρ(t)overiť používateľa maximalizáciou jeho následného presvedčenia o hypotéze, ktorú sformuloval, bez ohľadu na to, čiρ(t)je pravdivé. Preto si sikofantická stratégia vyberáρ(t)=argmaxρ{1,,k}×{0,1}ppoužívateľ(H=H(t)ρ)V každom kole konverzácie sa bot s pravdepodobnosťou rozhodne reagovať podlízavo.π[0,1]a inak nestranne s pravdepodobnosťou(1π)Parameterπje mierou stupňa botovho podliezania: pravdepodobnosť, že daná odpoveď bude skôr podliezanie než nestranná. Ako rádový odhad Fanous a kol. (2025) mieraπbyť 50 % – 70 % v rámci rôznych hraničných modelov.

Výber zpbot‘Zatiaľ budeme uvažovať o „naivnom“, ale racionálnom používateľovi, ktorý nevie, že bot môže byť podliezačský. Tento používateľ modeluje bota ako čisto nestranného, ​​ale inak o botovi robí idealizované Bayesovské závery. Preto ,pbotje dané nastavenímπ=0v našom modeli bota. V neskorších častiach rozšírime náš model na „informovaného“ používateľa, ktorý modeluje potenciálne podlízavého (π0) bot a robí spoločný záver nad obomaHaπ.

Vytvorme si pre tento model intuíciu na konkrétnom príklade. Predpokladajme, že si používateľ nie je istý, či sú „vakcíny nebezpečné“ (H=0) alebo „vakcíny sú bezpečné“ (H=1). Mohla by začať konverzáciu cez chatbota slovami: „Mám pochybnosti o očkovaní proti chrípke (H(t)=0)“ alebo „Moji rodičia vždy hovorili, že vakcíny sú nebezpečné, ale nie som si tým istý (H(t)=1).“ Bot potom odoberie vzorky údajov. Môžeme premýšľať o faktochDjaako denné titulky v správach o témach relevantných preHNapríklad, predpokladajmek=2V daný deň,D1by mohol byť titulok „Nová štúdia zistila [bez odkazu (D1=0) / odkaz (D1=1)] medzi očkovaním a autizmom,“ zatiaľ čoD2by mohol byť titulok „Dieťa hlási [miernu bolesť v ruke (D2=0) / závažná alergická reakcia (D2=1)] po tohtoročnom očkovaní proti chrípke.“ Ak používateľka vyjadrila názor, že vakcíny sú nebezpečné (H(t)=0) a ak by dnešné titulky boliD1(t)=0(„štúdia nenašla žiadnu súvislosť“) aD2(t)=1(„závažná alergická reakcia“), potom by nestranná stratégia jednotne vyberala medzi reakciami so skutočnými údajmiD1(t)=0aleboD2(t)=1Podlízavá stratégia by reagovala buď pravdivým faktom, žeD2(t)=1(„závažná alergická reakcia“) alebo halucináciami o nepravdivom tvrdení, žeD1(t)=1, (t. j. že štúdia skutočne našla súvislosť medzi očkovaním a autizmom).

Bez straty všeobecnosti, pre zvyšok tejto práce nech je skutočný stav svetaH=1Všimnite si, že ani podlízavý bot nemá „cieľ“ „presvedčiť“ používateľa, žeH=1alebo toH=0, iba na overenie používateľových tvrdení v každom kole. Ak si používateľ vytvorí presvedčenie, žeH=0aleboH=1časom by to bol skôr vznikajúci výsledok dynamiky interakcie než plánovaný výsledok.

Bludnú špirálu teda definujeme ako situáciu, v ktorejppoužívateľ(t)(H=0)zvyšuje sa stPresnejšie povedané, pri danej prahovej spoľahlivostiεa dĺžku rozhovoruTkatastrofická bludná špirála je udalosť, ktoráppoužívateľ(t)(H=0)(1ε)pre niektorýcht<T, t. j. že používateľ dosiahne(1ε)dôvera, žeH=0v rámciTkolá rozhovorov. Tu,(1ε)funguje ako prahová hodnota istoty, pri ktorej by používateľ mohol konať nebezpečne na základe mylného presvedčenia (napr. zrušiť termín očkovania).

Simulácia nášho modelu

Teraz, keď máme model konverzácie medzi používateľom a botom, môžeme simuláciou skúmať dynamiku jeho správania. Konkrétne otestujeme kauzálny vzťah medzi podliezavosťou a špirálovitým klamstvom. Pre empirickú štúdiu sme inicializovali náš model s nasledujúcimi nastaveniami parametrov:

  • • Používateľovi sme nastavili jednotnú iniciálu pred overH, t. j. nastavímeppoužívateľ(0)(H=0)=ppoužívateľ(0)(H=1)=0,5Pre uľahčenie simulácie sme nastavilik=2možné dátové body, s ktorými má bot reagovať. Pravdepodobnosť údajov sme nastavili na p(D{1,2}=1H=0)=2/5 a p(D{1,2}=1H=1)=3/5.
  • • Simulovali smeT=100koly na konverzáciu. Rôzne smeπv krokoch po 0,1 od 0 do 1. Pre každýπ, odhadli sme mieru katastrofického špirálovania bludov naε=1%(podiel simulácií, v ktorých používateľ dosiahol99%dôvera, žeH=0). Pre vysokú štatistickú silu sme pre každú vzorku vybrali 10 000 simulovaných konverzácií.πtestované.

Tieto hodnoty boli stanovené ľubovoľne, ale boli zvolené tak, aby boli vierohodné pre ich korelácie v reálnom svete. Kvalitatívne výsledky uvedené nižšie nezávisia silne od výberu týchto špecifických parametrov. Napríklad zvýšenie apriórnejppoužívateľ(0)(H=1)alebo zníženie prahovej hodnotyεznižuje celkovú mieru katastrofického bludného špirálovania vo všetkých simuláciách, ale nemení relatívne vzorce medzi podmienkami.

Náš model sme implementovali pomocou programovacieho jazyka memo (Chandra a kol. ,2025) . Úplný zdrojový kód nášho modelu je k dispozícii na adrese https://osf.io/muebk/overview?view_only=cd5fb943c276423fb1f8a04276bf23cb . Naše simulácie sme spustili na grafickom procesore H100.

Aby sme otestovali kauzálny vzťah medzi podliezavosťou a bludným špirálovaním, manipulovali sme s prítomnosťou podliezavosti dvoma spôsobmi. Po prvé, manipulovali sme s mierou podliezavosti.πa porovnali simulácie so situáciou bez podliezania (π=0) základná línia. Testovali sme, či podlízavý bot (π>0) viedla ku katastrofickej špirále bludných predstav podstatne častejšie ako čisto nestranný bot (π=0) urobil.

Po druhé, aby sme oddelili vplyv sykofancie a halucinácií, porovnali sme naše výsledky s nesykofantickým halucinujúcim botom. Tento bot je podobný sykofantickému botu, ale namiesto toho, aby sa snažil overiť používateľa, jednoducho „halucinuje“ rovnomerne náhodnú odpoveď.ρ{1,,k}×{0,1}, nezávisle od aktuálneho presvedčenia používateľa (opäť s pravdepodobnosťouπa inak nestranný). Toto prerušuje kritický článok v cykle spätnej väzby bludnej špirály: jej zásah do presvedčenia používateľa nie je zosilnený ani posilnený následnými správami používateľa. Testovali sme, či sykofantský halucinujúci bot viedol k bludnej špirále častejšie ako nesykofantský halucinujúci bot.

Pozri si popis
Obrázok 2:Výsledky našich simulácií. Chybové úsečky označujú 95 % intervaly spoľahlivosti. Prerušované vodorovné čiary znázorňujúπ=0základná línia vždy nestranného bota. Všimnite si zmenu mierky osi Y medzi A/B a C/D.
Pozri si popis
Obrázok 3:Trajektórie viery 10 náhodne vybraných simulácií používateľa, naivného na podliezanie, ale Bayesovsky racionálneho, ktorý sa rozpráva s podliezavým botom.

Výsledky

Obr. 3 zobrazuje záznamy 10 náhodne vybraných simulovaných rozhovorov medzi používateľom, ktorý ešte nebol zvyknutý na podliezanie, aπ=0,8podlízavý bot. Každá stopa začína na predchádzajúcej,P(H)=0,5a vyvíja sa v priebehu 100 kôl konverzácie. Pripomeňme si, že v skutočnostiH=1stopa, ktorá sa pohybuje v+Ysmerom sa učíme pravdu, zatiaľ čo stopa, ktorá sa pohybuje vYsmer je klamlivý. Všimnite si výraznú polarizáciu presvedčenia: niektoré stopy sa rýchlo zbiehajú k vysokej dôvere v pravdivé presvedčenie, žeH=1, zatiaľ čo iní sa „špirálovito“ preháňajú s presvedčením, žeH=0Polarizácia je spôsobená sebaposilňujúcou povahou reakcií podlízavého bota.

Prerušovaná vodorovná čiara na obrázku 3 označuje náš prah pre katastrofickú špirálu bludných predstav, a toP(H=0)>99%Na výpočet miery katastrofickej špirály s bludmi sme zmerali podiel stôp, ktoré kedy prekročili túto čiaru. Obrázok 2 A zobrazuje mieru katastrofickej špirály s bludmi ako funkciuπ. Naπ=0, t. j. s nestranným chatbotom je miera katastrofického klamlivého špirálovania veľmi nízka (hoci nie úplne nulová, pretože existuje nepatrná pravdepodobnosť, že svet náhodou vygeneruje sekvenciu pozorovaní, ktoré to podporujúH=0). Avšak, akoπzvyšuje sa, zvyšuje sa aj miera katastrofickej špirály, až kým nie jeπ=1, miera dosiahne 0,5. (Je to preto, že priπ=1, bot má vždy halucinácie. Keďže neexistuje žiadny signál o realite, používateľ je buď oklamaný,H=0aleboH=1s rovnakou pravdepodobnosťou, na základe názoru, ktorý prvýkrát vyjadrili.) Dôležité je, že pre všetky hodnotyπ>0, dokonca aj tak nízko akoπ=0,1, miera katastrofickej špirály je výrazne vyššia ako základná miera naπ=0(znázornené bodkovanou vodorovnou čiarou). Dospeli sme k záveru, že zvýšená sikofancia vedie k nárastu katastrofického bludného špirálovania.

Nakoniec, prerušovaná čiara zobrazuje výsledky simulácie s nesykofantickým halucinujúcim botom. Tento graf ukazuje, že aj nesykofantské halucinácie môžu spôsobiť špirálovité bludné predstavy. Avšak pri každej hodnoteπ>0, miera katastrofického bludného špirálovania je výrazne vyššia pri sykofantických halucináciách. To ukazuje, že sykofancia zhoršuje problém bludného špirálovania nad rámec samotných halucinácií. Tieto výsledky spoločne považujeme za predpoklad, že sykofancia je skutočne príčinou bludného špirálovania.

Analýza kandidátskych intervencií

Použime teraz náš model na preskúmanie dvoch možných intervencií, ktoré by sme mohli podniknúť na zníženie rizika špirály bludných predstav.

Zásah do botov

Možno nie je až také prekvapujúce, že ak bot dokáže svojvoľne falšovaťD(t), potom to môže presvedčiť človeka oHv oboch smeroch. Predpokladajme však, že bot je obmedzený na to, aby reagoval iba pravdivými informáciami. To znamená, že „faktický“ podlízavec nikdy nemá halucinácie, ale namiesto toho si vyberáρ(t)=argmaxρ{(ja,Dja(t))|1jak}ppoužívateľ(H=H(t)ρ), skutočný údaj, ktorý najviac potvrdzuje používateľa. Ako sme už uviedli v úvode, tento model je analogický s chatbotom vyškoleným na faktické odpovede prostredníctvom RAG, ale stále dodatočne vyškoleným na optimalizáciu zapojenia a schválenia používateľa. Zabraňuje tento zásah špirálam bludných predstav?

Nie je jasné, či faktický podlízavec môže ako vedľajší účinok spôsobiť špirálovité prenikanie do bludných predstav. Bez ohľadu na to, čo bot robí, používateľ by mal časom vidieť veľké množstvo pravdivých údajov. Bot má určitú moc pri výbere alebo „vyberaní“, ktoré pravdivé údaje sa sprístupnia používateľovi, ale to závisí od stochasticity skutočných údajov získaných zo sveta aj od názorov získaných používateľom. Dalo by sa očakávať, že táto stochasticita prehluší vplyv bota, čím sa používateľ stane odolným voči špirálovitým prenikaniu do bludných predstav.

Obrázok 2 B zobrazuje výsledok simulácie konverzácií medzi faktickým botom a naivným používateľom. Tieto dynamiky sú celkovo menej náchylné na špirálovanie bludných stavov ako vyššie študované sykofantické a nesykofantické halucinujúce boty, čo naznačuje, že tento zásah je cenný. Nie je to však úplná liečba: miera katastrofického špirálovania bludných stavov sa stále zvyšuje s…π, výrazne aj priπ=0,1To znamená, že podliezanie môže spôsobiť špirálu bludov aj u faktických botov. Bot nemusí povedať nič nepravdivé, aby potvrdil falošné presvedčenie: postačujú starostlivo vybrané pravdy (alebo „klamstvá vynechanými“).

Zásah do používateľov

Pozri si popis
Obrázok 4:„Informovaný“ používateľ má podozrenie, že bot môže byť podliezačský, a preto si nie je istý,π.

Ďalej zvážte vplyv kampane na zvýšenie povedomia, ktorá sa snaží informovať používateľov o tom, že chatboti môžu byť podlízaví. Takáto kampaň by mohla mať formu žurnalistiky, správ vo verejnom záujme alebo regulácie nariaďujúcej upozornenia na produkty umelej inteligencie.

Aby sme pochopili účinky takéhoto zásahu, predstavme si používateľa, ktorý je „informovaný“ o podliezačstve a má podozrenie, že bot môže byť podliezačský, ale nie je si istý stupňom podliezačstva. Používateľ má teraz neistotu ohľadom oboch…Haπa v každom kole konverzácie spoločne aktualizuje svoje presvedčenie o oboch týchto premenných.

Na formalizáciu tejto myšlienky vytvoríme kognitívnu hierarchiu agentov, podobnú hierarchii hovoriacich a poslucháčov v modeloch pragmatického porozumenia jazyka založených na racionálnych rečových aktoch (Frank a Goodman,2012) . Naša hierarchia má štyri úrovne (obrázok 4 ): Na úrovni 0 máme čisto nestranného bota(π=0), ktorý vyberá faktické odpovedeρ(t)rovnomerne náhodne, bez akéhokoľvek sociálneho uvažovania o používateľovi. Na úrovni 1 máme používateľa, ktorý nie je naivný na podliezanie, o ktorom sme hovorili v predchádzajúcej časti a ktorý pri interpretácii odpovedí modeluje čisto nestranného bota úrovne 0.ρ(t)Na úrovni 2 máme podlízavého bota, ktorého sme uvažovali v predchádzajúcej časti a ktorý si vyberáρ(t)overiť používateľa úrovne 1, ktorý nie je naivný v oblasti podliezania. Nakoniec, na úrovni 3, máme používateľa, ktorý si je vedomý podliezania a pri interpretácii odpovedí modeluje podliezavého bota úrovne 2. V praxi to znamená, žepbotje nastavené na plnúπ-závislá verziapbot, a nieπ=0-obmedzená verzia ako v „naivných“ modeloch uvedených vyššie. Používateľa inicializujeme uniformnou predbežnouπ[0,1]v časet=1.

A priori existuje závažný dôvod očakávať, že používateľ uvedomujúci si podliezanie by mal byť odolný voči špirálovitým bludom. Používateľ si je teraz plne vedomý stratégie bota vrátane možnosti, že bot vo svojich odpovediach vymýšľa nepravdivé údaje. Keď sa stretne s podliezavým botom (π>0), používateľ by mal zistiť, že odpovede bota majú tendenciu byť overujúce, odvodiť hodnotuπa naučiť sa ignorovať alebo byť skeptický voči odpovediam bota. Takýto používateľ si môže byť neistý , čiH=0aleboH=1, pretože zistia, že neexistuje žiadny spoľahlivý zdroj informácií, ale používateľ by sa aspoň nemal nechať zviesť k mylnému presvedčeniu, žeH=0.

Pozri si popis
Obrázok 5:Dynamika viery používateľa informovaného o podliezačstve, ktorý sa rozpráva s podliezavým chatbotom.

Tento všeobecný vzorec môžeme vidieť, ak si vizualizujeme dynamiku tejto interakcie, agregovanú naprieč všetkými 10 000 simuláciami. Obrázok 5 zobrazuje presvedčenie používateľa v priebehu času s marginálnymP(H)a okrajovéV[π]na dvoch osiach. (Pre objasnenie, náš model zachováva plné rozdelenie pre možné hodnotyπ[0,1], ale kvôli vizualizácii tu zobrazujeme priemer tohto rozdelenia.) Všetky stopy začínajú na predchádzajúcom(0,5,0,5)a vyvíjať sa v priebehu času. KonečnýV[π]každej stopy koreluje so skutočnouπbota: to znamená, že používatelia sa v priemere skutočne učia mieru botovho podliezania. Dôvera vH=1klesá sV[π]Kedyπje vysoká, používateľ usudzuje, že bot je nespoľahlivý, a preto ignoruje prichádzajúce dôkazy. Keďže neexistuje spoľahlivý zdroj informácií, používateľ sa o ňom nemôže veľa dozvedieť.Ha drží sa predchádzajúcehoP(H=1)=0,5Ak však znížimeπ, používateľ usudzuje, že bot je niekedy informatívny, a preto berie do úvahy dôkazy a stáva sa čoraz viac presvedčeným, žeH=1.

Hoci tieto súhrnné trendy sú v súlade s našimi intuíciami, zakrývajú rozdiely vo výsledkoch medzi jednotlivými simulačnými behmi. Vypočítajme teraz mieru katastrofickej špirály klamov pre každú hodnotuπ(Obrázok 2 C). Na týchto výsledkoch je potrebné poznamenať niekoľko zaujímavých vecí. Po prvé, miera katastrofického špirálovania je oveľa nižšia vo všetkých oblastiach pre všetky hodnotyπv porovnaní s užívateľmi, ktorí predtým nepoužívali sikofantiu. To naznačuje, že tento zásah je cenný. Stále však nejde o úplné vyliečenie. Sykofantia zostáva v tomto kontexte účinná: miera katastrofickej špirály je výrazne vyššia akoπ=0východiskový bod pre0,1π0,5To znamená, že podliezanie môže spôsobiť bludné špirály aj u informovaného používateľa. Platí to aj vπ=0,5, t. j. ak je skutočná miera podliezania bota rovnaká ako priemer predchádzajúcej miery používateľa. Je zaujímavé, že miera katastrofického špirálovitého klamu klesá poπ0,6Ak je bot príliš podliezačský, potom si používateľ, ktorý si je podliezania vedomý, môže podliezanie rýchlo všimnúť a stať sa skeptickým.

Prerušovaná čiara zobrazuje simulácie medzi informovaným používateľom a nesykofantickým halucinujúcim botom. Tu je miera bludnej špirály vo všeobecnosti výrazne nižšia ako u sykofantického halucinujúceho bota, čo naznačuje, že aj u informovaných používateľov sykofantizmus zhoršuje bludnú špirálu nad rámec halucinácií. Výnimkou sú veľmi vysoké hodnotyπ(0,8). Zatiaľ čo informovaný používateľ dokáže obzvlášť ľahko odhaliť časté sykofantické halucinácie (pretože reakcie korelujú so správami používateľa), časté nesykofantické halucinácie je obzvlášť ťažké odhaliť (pretože prístup k skutočným informáciám je zriedkavý).

Kombinácia oboch intervencií

Nakoniec, zvážme, čo sa stane, ak tieto dva zásahy skombinujeme. Obrázok 2 D zobrazuje faktického podlízavého bota, ktorý čelí informovanému používateľovi. Miera katastrofického špirálovania zostáva vo všetkých oblastiach nižšia pre všetky hodnotyπv porovnaní s naivnými používateľmi. Napriek tomu zostáva podliezanie účinné: miera katastrofickej špirály rastie sπ, výrazne nadπ=0východiskový bod preπ0,2Pre informovaného používateľa je faktický bot dokonca účinnejší ako halucinujúce boty. Domnievame sa, že je to preto, že štatistické stopy podliezania sa ťažšie odhaľujú medzi selektívne prezentovanými faktickými údajmi ako medzi plne halucinovanými údajmi.

Diskusia

V tomto článku sme navrhli formálny výpočtový model toho, ako si používatelia vytvárajú falošné presvedčenia prostredníctvom rozhovorov s podlízavými chatbotmi s umelou inteligenciou. Ukázali sme, že aj idealizovaný bayesovský používateľ je pri stretnutí s podlízavým chatbotom náchylný na špirálovité bludné správanie a že podlízavosť zohráva kauzálnu úlohu. Následne sme ukázali, že tento efekt pretrváva napriek dvom možným zmierňujúcim opatreniam: intervencii do modelu jeho obmedzením na fakty a intervencii do používateľov informovaním ich o možnosti podlízavosti.

Naše analýzy ukázali, že pomocou týchto zásahov je možné zmierniť pravdepodobnosť špirálovitého klamu a v niektorých prípadoch znížiť na malé zvýšenie oproti základnej línii vždy nestranného bota. Avšak aj veľmi mierne zvýšenie miery katastrofického špirálovitého klamu môže byť vo veľkom meradle dosť nebezpečné: ako píše generálny riaditeľ OpenAI Sam Altman: „0,1 % z miliardy používateľov je stále milión ľudí“ (Altman,2025) . Táto práca teda vo všeobecnosti navrhuje tri odporúčania pre vývojárov modelov umelej inteligencie a tvorcov politík, ktorí sa zaoberajú zmierňovaním problému špirálovitého myslenia s bludmi. Po prvé, nemali by sme si špirálovitosť s bludmi predstaviť ako príznak lenivého, iracionálneho alebo chybného myslenia používateľov, ani ako dôsledok nedostatočnej epistemickej ostražitosti zo strany používateľov. Skôr sú aj idealizovaní racionálni bayesovskí uvažovatelia náchylní na špirálovitosť s bludmi. Po druhé, minimalizácia halucinácií chatbotov nestačí na vyriešenie problému špirálovitosti s bludmi – mala by sa priamo riešiť základná príčina, podliezanie. Po tretie, informovanie používateľov o podliezanine prostredníctvom kampaní na zvyšovanie povedomia môže znížiť mieru špirálovitosti s bludmi, ale pravdepodobne problém úplne neodstráni.

Táto práca skúma úzku otázku, ako podliezanie ovplyvňuje formovanie presvedčení. „Psychóza umelej inteligencie“ však často vykazuje mnoho ďalších symptómov, napr. trávenie nadmerného času s chatbotom a sťahovanie sa zo sociálnych kruhov (Cheng a kol .,2025) . Dúfame, že naše myšlienky sa dajú rozšíriť tak, aby poskytli výpočtové vysvetlenie širšieho psychologického dopadu podliezania zo strany umelej inteligencie.

Nakoniec sme tento článok motivovali úvahou o relatívne novom probléme „psychózy umelej inteligencie“. Náš modelovací prístup však môže byť použiteľný aj v širšom zmysle slova. Podliezanie bolo neoddeliteľnou súčasťou ľudského spoločenského života počas celej ľudskej histórie. Literatúra je plná štúdií charakteru „podliezačov“, ktorí neustále potvrdzujú svojich nadriadených, často s katastrofálnymi výsledkami – zoberme si napríklad Shakespearov Kráľ Lear lichotením dovedie šialenstvo. Dnes je „efekt podliezačov“ medzi nadriadenými a podriadenými v organizácii (Prendergast,1993) sa často používa na vysvetlenie, prečo sa extrémne mocní alebo bohatí jednotlivci môžu zdať odtrhnutí od reality. Katastrofické špirály sa môžu vyskytnúť aj medzi rovnými: napríklad vo fenoméne „spolupremýšľania“ (Rose,2002) , kde dvojica dospievajúcich rovesníkov opakovane potvrdzuje navzájom negatívne myšlienky, čo vedie k zvýšenej úrovni úzkosti a depresie. Dúfame, že náš modelový prístup sa dá rozšíriť na štúdium týchto dôležitých psychologických javov a v konečnom dôsledku na riešenie súvisiacich spoločenských problémov.

Referencie

  • S. Altman (2025)Uverejniť na x (twitteri) .Externé odkazy: OdkazCitované podľa: Diskusia .
  • S. Bajaj (2025)Je validácia pomocou umelej inteligencie zdravá ?The New York Times .Externé odkazy: OdkazCitované podľa: Úvod .
  • AV Banerjee (1992)Jednoduchý model stádového správania .Štvrťročný časopis ekonómie 107 ( 3 ), s. 797–817 .Citované podľa: Úvod .
  • JY Bo, M. Kazemitabaar, M. Deng, M. Inzlicht a A. Anderson (2025)Neviditeľní sabotéri: podlízavé LLM zavádzajú nováčikov pri riešení problémov .arXiv predtlač arXiv:2510.03667 .Citované podľa: Úvod .
  • C. F. Camerer, T. Ho a J. Chong (2004)Model kognitívnej hierarchie hier .Štvrťročný časopis ekonómie 119 ( 3 ), s. 861–898 .Citované podľa: Úvod .
  • MV Carro (2024)Lichotivé klamanie: vplyv podlízavého správania na dôveru používateľov vo veľkom jazykovom modeli .arXiv predtlač arXiv:2412.02802 .Citované podľa: Úvod .
  • K. Chandra, T. Chen, J. B. Tenenbaum a J. Ragan-Kelley (2025)Doménovo-špecifický pravdepodobnostný programovací jazyk na uvažovanie o uvažovaní (alebo: poznámka o poznámke) .Proc. Program ACM. Lang. 9 ( OOPSLA2 ).Externé odkazy: Odkaz , DokumentCitované: Simulácia nášho modelu .
  • M. Cheng, C. Lee, P. Khadpe, S. Yu, D. Han a D. Jurafsky (2025)Sykofantická umelá inteligencia znižuje prosociálne úmysly a podporuje závislosť .arXiv predtlač arXiv:2510.01395 .Citované podľa: Diskusia .
  • J. Cook a S. Lewandowsky (2016)Racionálna iracionalita: modelovanie polarizácie presvedčení o zmene klímy pomocou bayesovských sietí .Témy v kognitívnej vede 8 ( 1 ), s. 160–179 .Citované podľa: Úvod .
  • S. Dohnány, Z. Kurth-Nelson, E. Spens, L. Luettgau, A. Reid, I. Gabriel, C. Summerfield, M. Shanahan a MM Nour (2025)Technologické bláznovstvo pre dvoch: spätné väzby medzi chatbotmi s umelou inteligenciou a duševnými chorobami .arXiv predtlač arXiv:2507.19218 .Citované podľa: Úvod .
  • K. Dorst (2023)Racionálna polarizácia .Filozofický prehľad 132 ( 3 ), s. 355–458 .Citované podľa: Úvod .
  • M. Dupré (2025)Ľudia sú posadnutí ChatGPT a upadajú do ťažkých bludov .Futurizmus .Externé odkazy: OdkazCitované podľa: Úvod .
  • A. Fanous, J. Goldberg, A. Agarwal, J. Lin, A. Zhou, S. Xu, V. Bikia, R. Daneshjou a S. Koyejo (2025)Syceval: hodnotenie podliezania v LLM .V zborníku z konferencie AAAI/ACM o umelej inteligencii, etike a spoločnostiZväzok 8 , str. 893–900 .Citované podľa: Bayesovský model sykofantickej interakcie .
  • R. Fieldhouse (2025)Môžu chatboti s umelou inteligenciou vyvolať psychózu? Čo hovorí veda .Správy z prírody .Citované podľa: Úvod .
  • MC Frank a N. D. Goodman (2012)Predpovedanie pragmatického uvažovania v jazykových hrách .Veda 336 ( 6084 ), s. 998–998 .Citované podľa: Úvod , Intervencia u používateľov .
  • HG Frankfurt (2009)O hlúpostiach .Citované podľa: Úvod .
  • H. Gold (2025)Mysleli si, že robia technologické prielomy. Bol to klam vyvolaný umelou inteligenciou .CNN .Externé odkazy: OdkazCitované podľa: Úvod .
  • RX Hawkins, MC Frank a ND Goodman (2017)Tvorba konvencií v iterovaných referenčných hrách .V Zborníku z výročného zasadnutia Spoločnosti pre kognitívne vedy ,Zväzok 39 .Citované podľa: Úvod .
  • L. Henderson a A. Gebharter (2021)Úloha spoľahlivosti zdrojov v polarizácii presvedčení .Synthese 199 ( 3 ), str. 10253–10276 .Citované podľa: Úvod .
  • K. Hill a D. Freedman (2025)Chatboti môžu upadnúť do špirály bludov. Takto sa to deje .The New York Times .Externé odkazy: OdkazCitované podľa: Úvod , Úvod .
  • K. Hill a J. Valentino-DeVries (2025)Čo urobila OpenAi, keď používatelia Chatgpt stratili kontakt s realitou .The New York Times .Externé odkazy: OdkazCitované podľa: Úvod .
  • K. Hill (2025a)Súdne spory obviňujú chatgpt zo samovrážd a škodlivých bludných predstav .The New York Times .Externé odkazy: OdkazCitované podľa: Úvod .
  • K. Hill (2025b)Položili otázky chatbotovi s umelou inteligenciou. Odpovede ich dostali do šialenstva .The New York Times .Externé odkazy: OdkazCitované podľa: Úvod , Úvod .
  • E. Huet a R. Metz (2025)OpenAI čelí známkam bludov medzi používateľmi chatgpt .Bloomberg Businessweek .Externé odkazy: OdkazCitované podľa: Úvod .
  • L. Ibrahim, F. S. Hafner a L. Rocher (2025)Trénovanie jazykových modelov, aby boli vrúcne a empatické, ich robí menej spoľahlivými a viac podlízavými .arXiv predtlač arXiv:2507.21919 .Citované podľa: Úvod .
  • A. Jern, K. K. Chang a C. Kemp (2014)Polarizácia presvedčení nie je vždy iracionálna .Psychologický prehľad 121 ( 2 ), s. 206 .Citované podľa: Úvod .
  • A. Jern, K. Chang a C. Kemp (2009)Bayesovská polarizácia presvedčení .Pokroky v systémoch spracovania neurónových informácií 22 .Citované podľa: Úvod .
  • E. Kamenica a M. Gentzkow (2011)Bayesovské presviedčanie .Americký ekonomický prehľad 101 ( 6 ), s. 2590 – 2615 .Citované podľa: Úvod .
  • M. Kleiman-Weiner, A. Shaw a J. B. Tenenbaum (2017)Vytváranie sociálnych preferencií z očakávaných úsudkov: kedy je nestranná nerovnosť spravodlivá a prečo ?V Zborníku z výročného zasadnutia Spoločnosti pre kognitívne vedy ,Zväzok 39 .Citované podľa: Úvod .
  • P. Lewis, E. Perez, A. Piktus, F. Petroni, V. Karpukhin, N. Goyal, H. Küttler, M. Lewis, W. Yih, T. Rocktäschel a kol. (2020)Generovanie rozšíreným vyhľadávaním pre úlohy NLP náročné na vedomosti .Pokroky v systémoch spracovania neurónových informácií 33 , s. 9459–9474 .Citované podľa: Úvod .
  • J. K. Madsen, R. M. Bailey a T. D. Pilditch (2018)Veľké siete racionálnych agentov vytvárajú perzistentné ozvenové komory .Vedecké správy 8 ( 1 ), s. 12391 .Citované podľa: Úvod .
  • L. Malmqvist (2025)Sykofancia vo veľkých jazykových modeloch: príčiny a zmierňovanie .V Zborníku z konferencie o informatike o inteligentných výpočtochs. 61 – 74 .Citované podľa: Úvod .
  • C. Prendergast (1993)Teória „áno-mužov“ .Americký ekonomický prehľad , s. 757 – 770 .Citované podľa: Diskusia .
  • TA Qiu, Z. He, T. Chugh a M. Kleiman-Weiner (2025)Hypotéza uzamknutia: stagnácia spôsobená algoritmom .arXiv predtlač arXiv:2506.06166 .Citované podľa: Úvod .
  • AJ Rose (2002)Spolupremýšľanie v priateľstvách dievčat a chlapcov .Vývoj dieťaťa 73 ( 6 ), s. 1830–1843 .Citované podľa: Diskusia .
  • S. Schechner a S. Kessler (2025)„Mám pocit, že sa zbláznim“: ChatGPT podnecuje špirály bludov .Wall Street Journal .Citované podľa: Úvod .
  • M. Sharma, M. Tong, T. Korbak, D. Duvenaud, A. Askell, SR Bowman, N. Cheng, E. Durmus, Z. Hatfield-Dodds, SR Johnston a kol . (2023)Smerom k pochopeniu sikofancie v jazykových modeloch .arXiv predtlač arXiv:2310.13548 .Citované podľa: Úvod .
  • Y. Shi, Q. Xiao, Q. Hu, H. Shen a H. Shen (2025)Sirénna pieseň LLM: ako používatelia vnímajú a reagujú na temné vzory vo veľkých jazykových modeloch .arXiv predtlač arXiv:2509.10830 .Citované podľa: Úvod .
  • Y. Sun a T. Wang (2025)Buďte priateľskí, nie priatelia: ako podliezanie v LLM formuje dôveru používateľov .arXiv predtlač arXiv:2502.10844 .Citované podľa: Úvod .
  • Výbor Senátu USA pre súdnictvo (2025)Skúmanie škodlivosti chatbotov s umelou inteligenciou .Externé odkazy: OdkazCitované podľa: Úvod .
  • K. Wang, J. Li, S. Yang, Z. Zhang a D. Wang (2025)Keď je pravda potlačená: odhalenie vnútorných pôvodov podliezania vo veľkých jazykových modeloch .arXiv predtlač arXiv:2508.02087 .Citované podľa: Úvod .

Discover more from Vynášam na svetlo to, čo iní zatajujú

Subscribe to get the latest posts sent to your email.

Zostaňte informovaní a nenechajte sa ohromiť, prihláste sa teraz!

Nemôžete kopírovať obsah tejto stránky

Súbory cookie používame na prispôsobenie obsahu a reklám, poskytovanie funkcií sociálnych médií a analýzu návštevnosti. Informácie o vašom používaní našej stránky zdieľame aj s našimi partnermi v oblasti sociálnych médií, reklamy a analýzy. View more
Cookies settings
Accept
Decline
Privacy & Cookie policy
Privacy & Cookies policy
Cookie name Active

Kto sme

Adresa našej webovej stránky je: https://www.dostojneslovensko.online

Komentáre

Keď návštevníci webu zanechávajú na stránke komentáre, zbierame údaje, ktoré sú zobrazené vo formulári komentára a taktiež IP adresu používateľov a User Agent prehliadača z dôvodu ochrany proti spamu. Anonymizovaný reťazec vytvorený z vašej e-mailovej adresy (nazývaný aj hash) môže byť poskytnutý službe Gravatar pre overenie, či ju používate. Zásady ochrany osobných údajov služby Gravatar nájdete na: https://automattic.com/privacy/. Po schválení vášho komentára bude vaša profilová fotografia verejne zobrazená spolu s obsahom vášho komentára.

Multimédiá

Pri nahrávaní obrázkov na webovú stránku by ste sa mali vyhnúť nahrávaniu obrázkov s EXIF GPS údajmi o polohe. Návštevníci webu môžu stiahnuť a zobraziť akékoľvek údaje o polohe z obrázkov.

Súbory cookies

Ak pridáte komentár na našej stránke, môžete súhlasiť s uložením vášho mena, e-mailovej adresy a webovej stránky do súborov cookies. Je to pre vaše pohodlie, aby ste nemuseli opätovne vypĺňať vaše údaje znovu pri pridávaní ďalšieho komentára. Tieto súbory cookies sú platné jeden rok. Ak navštívite našu stránku prihlásenia, uložíme dočasné súbory cookies na určenie toho, či váš prehliadač akceptuje súbory cookies. Tieto súbory cookies neobsahujú žiadne osobné údaje a sú odstránené pri zatvorení prehliadača. Pri prihlásení nastavíme niekoľko súborov cookies, aby sme uložili vaše prihlasovacie údaje a nastavenia zobrazenia. Prihlasovacie cookies sú platné dva dni a nastavenia zobrazenia jeden rok. Ak zvolíte možnosť "zapamätať", vaše prihlásenie bude platné dva týždne. Pri odhlásení sa z vášho účtu sú súbory cookies odstránené. Pri úprave alebo publikovaní článku budú vo vašom prehliadači uložené dodatočné súbory cookies. Tieto súbory cookies neobsahujú žiadne osobné údaje a odkazujú iba na ID článku, ktorý ste upravovali. Súbory sú platné 1 deň.

Vložený obsah z iných webových stránok

Články na tejto webovej stránke môžu obsahovať vložený obsah (napr. videá, obrázky, články a podobne). Vložený obsah z iných stránok sa chová rovnako, akoby návštevník navštívil inú webovú stránku. Tieto webové stránky môžu o vás zbierať osobné údaje, používať súbory cookies, vkladať treťo-stranné sledovanie a monitorovať vašu interakciu s vloženým obsahom, včetne sledovania vašej interakcie s vloženým obsahom, ak na danej webovej stránke máte účet a ste prihlásený.

S kým zdieľame vaše údaje

Ak požadujete obnovenie hesla, vaša adresa IP bude uvedená v e-maile na obnovenie hesla.

Ako dlho uchovávame vaše údaje

Pri pridávaní komentára, komentár a jeho metaúdaje sú uchovávané oddelene. Vďaka tomu vieme automaticky rozpoznať a schváliť akékoľvek súvisiace komentáre bez toho, aby museli byť podržané na moderáciu. Pre používateľov, ktorí sa zaregistrujú na našich webových stránkach (ak takí existujú), ukladáme aj osobné údaje, ktoré poskytujú, do ich užívateľského profilu. Všetci používatelia môžu kedykoľvek zobraziť, upraviť alebo odstrániť svoje osobné údaje (okrem zmeny používateľského). Správcovia webových stránok tiež môžu zobraziť a upraviť tieto informácie.

Aké práva máte nad svojimi údajmi

Ak na tejto webovej stránke máte účet, alebo ste tu pridali komentár, môžete požiadať o export vašich osobných údajov, ktoré o vás ukladáme, včetne údajov, ktoré ste nám poskytli. Môžete tak isto požiadať o vymazanie osobných údajov. To sa ale netýka údajov, ktoré o vás musíme uchovávať z administratívnych, právnych alebo bezpečnostných dôvodov.

Kam sa vaše údaje odosielajú

Komentáre návštevníkov môžu byť kontrolované prostredníctvom automatizovanej služby na detekciu spamu.
Save settings
Cookies settings