Python知識分享網(wǎng) - 專業(yè)的Python學習網(wǎng)站 學Python,上Python222
大語言模型安全與隱私風險綜述 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-06-10 08:58:50
(侵權(quán)舉報)
(假如點擊沒反應,多刷新兩次就OK!)

大語言模型安全與隱私風險綜述 PDF 下載 圖1

 

 

資料內(nèi)容:

 

1.1 大語言模型相關(guān)概念術(shù)語
1.1.1 語言模型
P(w1,w2,,wn |θ) S = w1,w2,,
wn n θ
S
P(w1,w2,,wn |θ) = P(w1|θ)P(w2|w1, θ)P(wn|w1,
w2,,wn1 , θ)
{wk ,wk+1,,wn } {w0 ,w1,,wk1 }
wk
深度學習領(lǐng)域中的術(shù)語語言模型不等同于通
常意義上的處理自然語言的模型”,而是對應一種
概率模型通常用于預測文本序列的下一個單詞
言模型可以評估 ,其中
為 個單詞組成的文本,即可由參數(shù) 推測某個句
子 出現(xiàn)的概率實現(xiàn)語言建模目前流行的 LLM
常以自回歸語言建模為訓練任務,對整個句子的出
現(xiàn)的概率可以分解為從左到右每個單詞出現(xiàn)的概率
的 乘,
, 訓練的過程中 掩蓋住訓練語句中
,讓模型以文本序列 預
測 的分布.
 
1.1.2 語言預訓練模型與預訓練語言模型
為了將文本中將單詞映射到高維空間中的向量
表示,以便神經(jīng)網(wǎng)絡(luò)模型處理,Mikolov 等人[4] 提出
word2vec系統(tǒng)的介紹了詞嵌入word embedding
,之后 Pennington 等人[5] 提出 GloVe,同樣致力于通
過淺層神經(jīng)網(wǎng)絡(luò)在通用文本上獲取通用的單詞表征.
這些預訓練模型并不具備預測文本的語言建模能力
也不屬最終任務模型的一部分,有時稱為語訓練模型.
不同的是,預訓練語言模型不僅能預測文本中詞匯
概率,還能生成單詞關(guān)于上下文的向量表征,參數(shù)量
也要高幾個數(shù)量級作為下游任務一部分參與微調(diào).
 
1.1.3 大語言模型
相較于傳統(tǒng)在較小標注數(shù)據(jù)集上進行監(jiān)督訓練
DNN 模型,GPT BERT 等在無監(jiān)督文本上作自
監(jiān)督訓練的預訓練語言模型參數(shù)量達到了 1 億級別,
高了若干數(shù)量級,因此這些模型也被稱為大模型或
大語言模型LLM隨著 LLM 的發(fā)展其模型參數(shù)
規(guī)模持續(xù)增長,GPT-4 等目前已達萬億參數(shù)級別.
雖然 BERT 等早期大模型與之相差甚遠,但仍應被稱
作大語言模型[6] . 為了有所區(qū)別,也有人將百億參數(shù)
級別之上的大模型稱為大規(guī)模語言模型large-scale
language model本文中的 PLM LLM 2 個術(shù)語
可以互換.
 
1.1.4 基礎(chǔ)模型
基礎(chǔ)模型由斯坦福大學的 HAI 中心與 2021
年最早提出指代具有大規(guī)模參數(shù)的機器學習模型,
不針對某一特定任務設(shè)計通常在某些模態(tài)下的大
量無標注數(shù)據(jù)如文本上作自監(jiān)督訓練以習得其分
布特征可以作為骨干模型backbone model),助力各
種下游任務的解決,一般 PLM 都可稱為基礎(chǔ)模型,
還有不少支持圖像視頻等多模態(tài)的基礎(chǔ)模型存在.