資料來(lái)源
https://www.bilibili.com/video/BV11g4y1i7MW
80年代的n元語(yǔ)法
隱馬爾科夫模型
SVM
MRF
CRF
等等
提綱
1.n元文法
2.神經(jīng)語(yǔ)言模型
3.問(wèn)題思考
歷史
后面詞的出現(xiàn)受前面詞的影響,改進(jìn)為條件概率,數(shù)據(jù)量太大
改進(jìn),當(dāng)前詞只和前面n個(gè)詞相關(guān),這樣就出現(xiàn)了n階馬爾科夫鏈
要解決的問(wèn)題:
1.數(shù)據(jù)稀疏問(wèn)題-會(huì)出現(xiàn)新的詞-很可能在訓(xùn)練數(shù)據(jù)中從未出現(xiàn)過(guò),需要數(shù)據(jù)平滑
2.領(lǐng)域自適應(yīng)
3.以離散符號(hào)為統(tǒng)計(jì)單元,忽略了詞與詞之間的相似性-比如英文的單詞有不同的時(shí)態(tài),但其實(shí)是一樣的意思
枯燥和乏味是相近詞-n元文法做不到
分析原因
帶來(lái)的問(wèn)題:相似度沒(méi)有體現(xiàn)
想辦法解決,用連續(xù)空間去編碼,同時(shí)也要降低維度,one-hot維度太大
還有一個(gè)好處,同時(shí)算概率的時(shí)候,可以共享一些歷史數(shù)據(jù)
歷史數(shù)據(jù)-“很”是一樣的
怎么賦值呢?
神經(jīng)語(yǔ)言模型
FNN怎么實(shí)現(xiàn)語(yǔ)言模型的計(jì)算?
1.查詞向量
2.計(jì)算后驗(yàn)概率
(L_T)是查表
輸入是一個(gè)句子,
舉例說(shuō)明
非線性變換
注意,這里輸入的是 “這本書(shū)很乏味”,這個(gè)完整的句子了,不再是 “這本書(shū)很”
需要n-1個(gè)詞的歷史數(shù)據(jù)
僅對(duì)小窗口的歷史信息進(jìn)行建模
能不能把所有的歷史數(shù)據(jù)考慮進(jìn)去
RNN登場(chǎng)
完整的圖
案例的RNN模型
梯度爆炸,彌散問(wèn)題
能不能選擇性的遺忘一些東西?
LSTM登場(chǎng)
不管是RNN 還是LSTM 都只考慮了歷史,沒(méi)有考慮歷史哪個(gè)詞對(duì)當(dāng)前影響性大
不同的影響性要賦予不同的權(quán)重
自注意力機(jī)制
考慮了語(yǔ)境信息
Transformer
Bert模型
問(wèn)題思考
問(wèn)題1:樣本的局限性
案例-脫貧困難,資源就那么點(diǎn)
問(wèn)題2:和自然語(yǔ)言的局限性
問(wèn)題3:東施效顰,沒(méi)有學(xué)到精髓
近年來(lái)老師團(tuán)隊(duì)的成果
比如出租車(chē),車(chē)很重要,車(chē)怎么可以賦予更高的權(quán)重?得到質(zhì)量跟高的向量
論文1 - EMNLP 2017
光在文本上學(xué)也是有問(wèn)題的,有時(shí)候的圖文結(jié)合的,所以要利用圖片信息
詞也不一樣,有些是抽象詞,有些是具體詞,具象詞,這種不同模態(tài)的詞,賦予不同的權(quán)重
論文2 -
不同此類(lèi)的詞相互的影響
把上下文語(yǔ)境信息存起來(lái),對(duì)一些頻繁訪問(wèn)的上下文信息,記錄在緩存中
看起來(lái)挺新的,但其實(shí)很早就這么做了,基于緩存的n元文法,有點(diǎn)像外部記憶
上面的東西
基本是在解決問(wèn)題1
包括把聲音的信息都拿進(jìn)來(lái)
驚異度機(jī)制
借助外部?jī)x器的圖像-探索大腦的解析形式
fMRI 核磁共振圖像
怎么從大腦圖像中重構(gòu)語(yǔ)義信息?
三種方式
1.給一張圖片觀察fMRI核磁圖像
2.給一句句子觀察
3.給一張?jiān)~圖觀察圖像
有的時(shí)候會(huì)造一些相同的句子去理解一些說(shuō)的話
所有論文
本文摘自 :https://www.cnblogs.com/