更新時(shí)間:2023-05-26 來(lái)源:黑馬程序員 瀏覽量:
BERT是谷歌公司提出的預(yù)訓(xùn)練模型,主要模擬語(yǔ)言模型和語(yǔ)句預(yù)測(cè)。由12層transformer的編碼器羅列組成,可以進(jìn)行遷移學(xué)習(xí)從而滿足不同要求任務(wù),也可以用來(lái)進(jìn)行詞向量生成。
Bert是一個(gè)預(yù)訓(xùn)練模型,bilstm是一個(gè)模型結(jié)構(gòu)。首先兩個(gè)結(jié)構(gòu)不同,bert是基于transformer改進(jìn)而來(lái)引入多頭注意力機(jī)制等,bilstm是一個(gè)時(shí)間序列的模型包含遺忘門(mén)、輸入門(mén)、輸出門(mén)、細(xì)胞狀態(tài)。
Bert中利用了attention,在谷歌論文中 attention is all you need
中提出了多頭注意力和transformer,bert是由12層transformer的編碼器羅列組成。
關(guān)于Q,K,V:Q可以理解為一段文本,K 可以理解為關(guān)鍵詞提示,V可以理解為模型學(xué)習(xí)后對(duì)文本關(guān)鍵部分的理解。在模型訓(xùn)練時(shí),K
V由編碼器給出,Q由解碼器給出,模型根據(jù)Q以及K學(xué)習(xí)理解文本的關(guān)鍵含義得到V。