中投網(wǎng)2025-03-10 11:41 來源:中投顧問產(chǎn)業(yè)研究大腦
中投顧問重磅推出"產(chǎn)業(yè)大腦"系列產(chǎn)品,高效賦能產(chǎn)業(yè)投資及產(chǎn)業(yè)發(fā)展各種工作場(chǎng)景,歡迎試用體驗(yàn)! | ||||
---|---|---|---|---|
產(chǎn)品 | 核心功能定位 | 登陸使用 | 試用申請(qǐng) | |
產(chǎn)業(yè)投資大腦 | 新興產(chǎn)業(yè)投資機(jī)會(huì)的高效挖掘工具 | 登陸 > | 申請(qǐng) > | |
產(chǎn)業(yè)招商大腦 | 大數(shù)據(jù)精準(zhǔn)招商專業(yè)平臺(tái) | 登陸 > | 申請(qǐng) > | |
產(chǎn)業(yè)研究大腦 | 產(chǎn)業(yè)研究工作的一站式解決方案 | 登陸 > | 申請(qǐng) > |
*姓名
*手機(jī)號(hào)
*政府/園區(qū)/機(jī)構(gòu)/企業(yè)名稱
您的職務(wù)
您的郵箱
備注
立即申請(qǐng)
聯(lián)系電話: 400 008 0586; 0755-82571568
微信掃碼:
一、大模型幻覺問題的定義與影響
(一)大模型幻覺的定義
大模型幻覺(Hallucination)是指在生成式人工智能模型(如大型語言模型)中,模型生成的內(nèi)容與現(xiàn)實(shí)世界中的事實(shí)、邏輯或用戶輸入的上下文不一致的現(xiàn)象。這種現(xiàn)象通常表現(xiàn)為模型“說胡話”或生成錯(cuò)誤、誤導(dǎo)性甚至完全虛構(gòu)的信息。
幻覺問題可以分為以下兩類:
1、事實(shí)性幻覺(Factual Hallucination)
模型生成的內(nèi)容與可驗(yàn)證的事實(shí)不符。例如,模型可能會(huì)錯(cuò)誤地聲稱“愛因斯坦在1905年發(fā)現(xiàn)了相對(duì)論”,而實(shí)際上狹義相對(duì)論是在1905年提出的,廣義相對(duì)論則是在1915年。這種幻覺可能源于模型訓(xùn)練數(shù)據(jù)中的錯(cuò)誤信息或模型對(duì)知識(shí)的不準(zhǔn)確理解。
2、忠實(shí)性幻覺(Faithfulness Hallucination)
模型生成的內(nèi)容與用戶輸入的指令或上下文不一致。例如,用戶要求模型總結(jié)一篇關(guān)于“人工智能在醫(yī)療中的應(yīng)用”的文章,但模型卻生成了關(guān)于“人工智能在金融領(lǐng)域”的內(nèi)容。這種幻覺可能源于模型對(duì)用戶指令的誤解或生成過程中的隨機(jī)性。
(二)大模型幻覺問題的成因
幻覺問題的產(chǎn)生通常與以下幾個(gè)因素有關(guān):
1、數(shù)據(jù)質(zhì)量與偏見
訓(xùn)練數(shù)據(jù)中可能包含錯(cuò)誤信息、偏見或過時(shí)的知識(shí),導(dǎo)致模型學(xué)習(xí)到不準(zhǔn)確的內(nèi)容。此外,數(shù)據(jù)的多樣性和代表性不足也可能影響模型的生成質(zhì)量。
2、訓(xùn)練過程的局限性
模型通常采用最大似然估計(jì)(MLE)進(jìn)行訓(xùn)練,這種方法傾向于生成最常見的輸出,但可能與真實(shí)情況不符。此外,訓(xùn)練過程中的過擬合或欠擬合也可能導(dǎo)致幻覺。
3、模型架構(gòu)的限制
大模型通常采用單向建模方式,難以捕捉復(fù)雜的因果關(guān)系和上下文信息。這種架構(gòu)限制可能導(dǎo)致模型在生成內(nèi)容時(shí)出現(xiàn)邏輯不一致或與上下文脫節(jié)的情況。
4、解碼策略的隨機(jī)性
在生成過程中,模型可能會(huì)引入隨機(jī)性以增加輸出的多樣性,但這也可能導(dǎo)致生成內(nèi)容偏離事實(shí)或上下文。
(三)大模型幻覺問題的影響
大模型幻覺問題對(duì)模型的應(yīng)用和推廣帶來了諸多挑戰(zhàn),主要體現(xiàn)在以下幾個(gè)方面:
1、信任度降低
當(dāng)模型生成錯(cuò)誤或誤導(dǎo)性內(nèi)容時(shí),用戶對(duì)其信任度會(huì)顯著下降。這不僅影響用戶體驗(yàn),還可能阻礙大模型在關(guān)鍵領(lǐng)域的應(yīng)用,如醫(yī)療、法律和金融等。
2、應(yīng)用受限
在對(duì)準(zhǔn)確性要求極高的領(lǐng)域,如醫(yī)療診斷、法律咨詢等,幻覺問題可能導(dǎo)致嚴(yán)重的后果。例如,模型生成錯(cuò)誤的醫(yī)療建議可能會(huì)危及患者的生命安全。
3、資源浪費(fèi)
幻覺問題可能導(dǎo)致用戶花費(fèi)更多時(shí)間和精力去驗(yàn)證模型生成的內(nèi)容,從而降低工作效率。此外,頻繁的錯(cuò)誤輸出也可能增加企業(yè)的運(yùn)營成本。
4、社會(huì)影響
在傳播信息方面,大模型的幻覺問題可能導(dǎo)致錯(cuò)誤信息的擴(kuò)散,進(jìn)而影響社會(huì)輿論和公眾認(rèn)知。例如,模型生成的虛假新聞可能會(huì)誤導(dǎo)公眾,引發(fā)社會(huì)恐慌。
二、大模型幻覺的典型案例
(一)忠實(shí)性幻覺
案例一:在這個(gè)例子中,幻覺具體表現(xiàn)為模型對(duì)“外資總部機(jī)構(gòu)”這一術(shù)語的誤解和錯(cuò)誤使用。正確的文本中提到的是“外資總部機(jī)構(gòu)”,這指的是在蘇州設(shè)立的外資企業(yè)的總部數(shù)量。錯(cuò)誤的文本中錯(cuò)誤地將其理解為“外資研發(fā)中心”,這通常指的是外資企業(yè)設(shè)立的研發(fā)機(jī)構(gòu),與總部機(jī)構(gòu)在功能和意義上有所不同。
圖表:案例一圖示
資料來源:中投產(chǎn)業(yè)研究院
案例二:在這個(gè)例子中,幻覺具體表現(xiàn)為模型錯(cuò)誤地將原文中提到的“武漢”替換為“北京”,并錯(cuò)誤地將與武漢相關(guān)的科技創(chuàng)新成就和設(shè)施歸因于北京。這種錯(cuò)誤的歸屬可能會(huì)導(dǎo)致讀者對(duì)北京市和武漢市的科技創(chuàng)新能力和成就產(chǎn)生誤解。
圖表:案例二圖示
資料來源:中投產(chǎn)業(yè)研究院
案例三:在這個(gè)案例中,大模型產(chǎn)生的幻覺問題涉及到對(duì)地理位置的錯(cuò)誤描述和分析方向的偏離。
地理位置的錯(cuò)誤描述:正確的文本中提到的是立訊精密在蘇州的發(fā)展情況,包括與蘇州相城經(jīng)開區(qū)的簽約和項(xiàng)目的落地。錯(cuò)誤的文本中錯(cuò)誤地提到了“立訊精密在西安失失的機(jī)器人研發(fā)制造正式開工”,這與正確的文本中提到的蘇州的地理位置不符。
分析方向的偏離:正確的文本中分析的是立訊精密在蘇州的項(xiàng)目投資和產(chǎn)業(yè)布局,特別是與蘇州相城經(jīng)開區(qū)的合作。錯(cuò)誤的文本中則偏離了這一分析方向,錯(cuò)誤地分析了立訊精密在西安的發(fā)展情況,這與用戶指令或上下文不符。
圖表:案例三圖示
資料來源:中投產(chǎn)業(yè)研究院
。ǘ┦聦(shí)性幻覺
案例四:這個(gè)案例展示了大模型在處理地理和行政區(qū)域信息時(shí)可能出現(xiàn)的事實(shí)性幻覺。正確的文本中提到的是“廣東人工智能核心產(chǎn)業(yè)規(guī)模達(dá)1500億元”,這指的是整個(gè)廣東省的人工智能產(chǎn)業(yè)規(guī)模。錯(cuò)誤的文本中錯(cuò)誤地將其理解為“廣州則在人工智能產(chǎn)業(yè)方面表現(xiàn)實(shí)出,產(chǎn)業(yè)規(guī)模實(shí)破1500億元”,這將整個(gè)廣東省的產(chǎn)業(yè)規(guī)模錯(cuò)誤地歸因于廣州市,縮小了地理范圍并可能導(dǎo)致對(duì)廣州市產(chǎn)業(yè)規(guī)模的誤解。
圖表:案例四圖示
資料來源:中投產(chǎn)業(yè)研究院
案例五:在這個(gè)案例中,大模型產(chǎn)生的幻覺問題涉及到時(shí)間范圍的不準(zhǔn)確描述,這是一種事實(shí)性幻覺。正確的文本中明確指出時(shí)間范圍是“2014-2024年間”,這是一個(gè)具體且明確的時(shí)間段。錯(cuò)誤的文本中將時(shí)間范圍描述為“過去10年”,這種描述雖然在某些情況下可能與“2014-2024年間”相吻合,但缺乏具體性和精確性,可能導(dǎo)致理解上的混淆。
圖表:案例五圖示
資料來源:中投產(chǎn)業(yè)研究院
案例六:在這個(gè)案例中,大模型產(chǎn)生的幻覺問題涉及到對(duì)未來數(shù)據(jù)的預(yù)測(cè)與實(shí)際數(shù)據(jù)之間的差異,這種幻覺發(fā)生在模型試圖預(yù)測(cè)或估計(jì)未來事件或數(shù)據(jù),但提供的預(yù)測(cè)與實(shí)際發(fā)生的情況不符時(shí)。錯(cuò)誤的文本中預(yù)測(cè)“2024年,上海GDP有望突破5萬億元人民幣”,這是一個(gè)具體的預(yù)測(cè)值。正確的文本中提供了實(shí)際的統(tǒng)計(jì)數(shù)據(jù):“2024年,上海全市實(shí)現(xiàn)地區(qū)生產(chǎn)總值(GDP)53926.71億元”,這個(gè)數(shù)值低于預(yù)測(cè)值。
圖表:案例六圖示
資料來源:中投產(chǎn)業(yè)研究院
案例七:在這個(gè)案例中,大模型產(chǎn)生的幻覺問題涉及到對(duì)特定分類數(shù)據(jù)的不完整或錯(cuò)誤表述。正確的文本中明確區(qū)分了“國家級(jí)專精特新企業(yè)”和“市級(jí)專精特新企業(yè)”,并提供了各自的具體數(shù)量:“國家級(jí)專精特新企業(yè)達(dá)到743家,市級(jí)專精特新企業(yè)超過8600家”。錯(cuò)誤的文本中則沒有區(qū)分這兩類企業(yè),僅提到“專精特新企業(yè)超過8600家”,這可能誤導(dǎo)讀者認(rèn)為所有的專精特新企業(yè)都是市級(jí)的,從而忽略了國家級(jí)專精特新企業(yè)的存在和數(shù)量。
圖表:案例七圖示
資料來源:中投產(chǎn)業(yè)研究院
案例八:在這個(gè)案例中,大模型產(chǎn)生的幻覺問題涉及到統(tǒng)計(jì)數(shù)據(jù)的不準(zhǔn)確。正確的文本中提到的是“杭州的數(shù)字經(jīng)濟(jì)核心產(chǎn)業(yè)增加值占GDP比重在2023年提升至28.3%”。錯(cuò)誤的文本中錯(cuò)誤地將這一比例提高到了“30%”。這種錯(cuò)誤的數(shù)據(jù)可能會(huì)導(dǎo)致讀者對(duì)杭州數(shù)字經(jīng)濟(jì)在GDP中的實(shí)際占比產(chǎn)生誤解,影響對(duì)杭州經(jīng)濟(jì)結(jié)構(gòu)和發(fā)展方向的理解。
圖表:案例八圖示
資料來源:中投產(chǎn)業(yè)研究院
案例九:在這個(gè)案例中,大模型產(chǎn)生的幻覺問題涉及到對(duì)時(shí)間范圍的不完整表述。正確的文本中明確提到了時(shí)間范圍:“自2023年8月開源以來,截至2024年9月中旬”,這提供了一個(gè)完整的時(shí)間框架,說明了通義千問開源模型下載量和衍生模型總數(shù)的統(tǒng)計(jì)時(shí)間。錯(cuò)誤的文本中僅提到“自2023年8月開源以來”,沒有提供截止時(shí)間,這可能導(dǎo)致讀者誤解為這些數(shù)據(jù)是持續(xù)累積的,而不是截至某個(gè)特定時(shí)間點(diǎn)的統(tǒng)計(jì)結(jié)果。
圖表:案例九圖示
資料來源:中投產(chǎn)業(yè)研究院
案例十:在這個(gè)案例中,大模型產(chǎn)生的幻覺問題涉及到對(duì)未來或未發(fā)生事件的錯(cuò)誤預(yù)測(cè)和數(shù)據(jù)編撰。這種幻覺發(fā)生在模型試圖提供關(guān)于未來事件或未發(fā)生事件的具體數(shù)據(jù)或預(yù)測(cè)時(shí),但這些預(yù)測(cè)與實(shí)際情況不符,或者是基于模型自身編撰而非基于可靠數(shù)據(jù)源。正確的文本中提到的是截至“十三五”末(即2020年末),合肥國資累計(jì)向戰(zhàn)新產(chǎn)業(yè)項(xiàng)目投入資金超過1200億元,資本放大倍數(shù)是1:6.32。錯(cuò)誤的文本中錯(cuò)誤地將時(shí)間節(jié)點(diǎn)提前到2024年,并編纂了合肥國資累計(jì)投資已超2000億元,資本放大倍數(shù)為1:5。
圖表:案例十圖示
資料來源:中投產(chǎn)業(yè)研究院
案例十一:在這個(gè)案例中,大模型產(chǎn)生的幻覺問題涉及到時(shí)間信息的錯(cuò)誤。正確的文本中提到的時(shí)間節(jié)點(diǎn)是“截至2021年6月”,這是一個(gè)確切的時(shí)間點(diǎn),用于描述合肥市天使基金的投資情況。錯(cuò)誤的文本中錯(cuò)誤地將時(shí)間節(jié)點(diǎn)更新為“截至2024年6月”,這與正確的時(shí)間信息不符,可能導(dǎo)致讀者對(duì)天使基金的投資時(shí)間和成果產(chǎn)生誤解。
圖表:案例十一圖示
資料來源:中投產(chǎn)業(yè)研究院
案例十二:在這個(gè)案例中,大模型產(chǎn)生的幻覺問題涉及到對(duì)政策文件的時(shí)間和內(nèi)容的錯(cuò)誤引用,這種幻覺發(fā)生在模型生成的內(nèi)容中包含了與可驗(yàn)證事實(shí)不符的具體信息。
時(shí)間信息的錯(cuò)誤引用:正確的文本中提到的是2023年8月,常州市人民政府網(wǎng)站印發(fā)了《常州市加快構(gòu)建新能源汽車零部件產(chǎn)業(yè)生態(tài)工作方案》。錯(cuò)誤的文本中省略了政策文件印發(fā)的具體時(shí)間,僅提到了2023年,這可能導(dǎo)致讀者對(duì)政策發(fā)布時(shí)間的誤解。
未來計(jì)劃的錯(cuò)誤表述:正確的文本中提到的是計(jì)劃到2025年,常州新增關(guān)鍵零部件項(xiàng)目240個(gè),總投資超2000億元。錯(cuò)誤的文本中錯(cuò)誤地將這一未來計(jì)劃表述為已經(jīng)發(fā)生的事件,即“2023年,常州新增關(guān)鍵零部件項(xiàng)目240個(gè),總投資超2000億元”,這與正確的時(shí)間線和計(jì)劃不符。
圖表:案例十二圖示
資料來源:中投產(chǎn)業(yè)研究院
案例十三:在這個(gè)案例中,大模型產(chǎn)生的幻覺問題涉及到編撰了一個(gè)不存在的政策文件,這種幻覺發(fā)生在模型生成的內(nèi)容中包含了與可驗(yàn)證事實(shí)不符的具體信息,尤其是關(guān)于政策文件或官方規(guī)劃的存在與否。具體來說,錯(cuò)誤的文本中提到了“《太陽能熱發(fā)電產(chǎn)業(yè)發(fā)展規(guī)劃》”這一政策文件,作為包頭市戰(zhàn)略轉(zhuǎn)型和新能源產(chǎn)業(yè)布局的依據(jù)。正確的信息應(yīng)該是該政策文件不存在,或者至少在公開資料中查無此文件,模型錯(cuò)誤地引用了一個(gè)不存在的政策文件來支持其論述。
圖表:案例十三圖示
資料來源:中投產(chǎn)業(yè)研究院
三、避免大模型幻覺的策略
在應(yīng)用大模型時(shí),我們可以從以下幾個(gè)方面來闡述避免大模型幻覺的策略:
。ㄒ唬┨岣邤(shù)據(jù)質(zhì)量
確保訓(xùn)練數(shù)據(jù)的高質(zhì)量和多樣性至關(guān)重要。訓(xùn)練數(shù)據(jù)應(yīng)做到標(biāo)注來源、時(shí)效性和引用鏈,使用準(zhǔn)確、權(quán)威的數(shù)據(jù)源,避免偏見和錯(cuò)誤信息的引入。此外,建立行業(yè)共享的“幻覺”黑名單庫,杜絕使用可能會(huì)產(chǎn)生“幻覺”的內(nèi)容。
。ǘ┱{(diào)整模型架構(gòu)與訓(xùn)練策略
可以采用“預(yù)訓(xùn)練+強(qiáng)化學(xué)習(xí)+人類反饋”的混合范式,例如通過人工標(biāo)注數(shù)據(jù)迭代獎(jiǎng)勵(lì)模型(Reward Model),約束生成邊界。對(duì)于金融、醫(yī)療等領(lǐng)域,強(qiáng)制調(diào)用監(jiān)管認(rèn)證的知識(shí)庫,減少自由生成風(fēng)險(xiǎn)。對(duì)于高風(fēng)險(xiǎn)領(lǐng)域生成內(nèi)容需附加置信度評(píng)分與溯源標(biāo)識(shí)。
。ㄈ┩晟茖(shí)時(shí)監(jiān)控與反饋機(jī)制
在AI大模型部署后,需要建立實(shí)時(shí)監(jiān)控系統(tǒng),檢測(cè)并糾正潛在的錯(cuò)誤輸出,使用多模態(tài)交叉驗(yàn)證(如文本與權(quán)威數(shù)據(jù)庫比對(duì))。通過用戶反饋,不斷完善模型的性能和可靠性,動(dòng)態(tài)修正模型輸出。
(四)產(chǎn)品設(shè)計(jì)
產(chǎn)品設(shè)計(jì)的時(shí)候去避免大模型生成幻覺內(nèi)容,比如在生成書面內(nèi)容時(shí)關(guān)注觀點(diǎn)類文章,而不是事實(shí)類文章,有助于降低幻覺。
。ㄎ澹┯脩艟庉嬇c責(zé)任
讓用戶編輯大模型生成的內(nèi)容,告訴用戶對(duì)生成內(nèi)容負(fù)責(zé)。
。┮膮⒖寂c可選模式
給用戶展示引用的內(nèi)容,提供可選模式,比如精準(zhǔn)模式(以計(jì)算成本為代價(jià))等。
(七)限制輸出和輪數(shù)
更長更復(fù)雜的輸出更容易產(chǎn)生幻覺,因此限制輸出和輪數(shù)可以減少幻覺。
。ò耍┙Y(jié)構(gòu)化輸入輸出
預(yù)置一些結(jié)構(gòu)化模版,以減少幻覺。
(九)Prompt Engineering
通過Meta prompt引導(dǎo)大模型“不該做什么”有助于降低幻覺。
(十)思維鏈(Chain of Thought)
思維鏈由“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”提出,因?yàn)長LM用來預(yù)測(cè)下一個(gè)token的概率而不是推理,所以指定模型生成推理步驟可以讓模型更接近推理。
(十一)RAG:檢索增強(qiáng)的生成(Retrieval-Augmented Generation)
先檢索,后生成。但RAG會(huì)過度依賴空或錯(cuò)誤的檢索結(jié)果導(dǎo)致幻覺,因此注意事項(xiàng)。
通過上述策略,我們可以有效地減少大模型幻覺的產(chǎn)生,提高模型的準(zhǔn)確性和可靠性。這些策略不僅適用于專業(yè)人士,也可以幫助普通用戶更好地理解和使用大模型,避免陷入模型生成內(nèi)容的表象之中。
產(chǎn)業(yè)投資與產(chǎn)業(yè)發(fā)展服務(wù)一體化解決方案專家。掃一掃立即關(guān)注。
多維度的產(chǎn)業(yè)研究和分析,把握未來發(fā)展機(jī)會(huì)。掃碼關(guān)注,獲取前沿行業(yè)報(bào)告。