在文本挖掘中,我們經(jīng)常有文檔集合,例如博客文章或新聞文章,我們希望將它們分成自然組,以便我們理解它們。主題建模是一種對此類文檔進行分類的方法。在本視頻中,我們介紹了潛在狄利克雷分配LDA模型,并通過R軟件應(yīng)用于數(shù)據(jù)集來理解它。
視頻:文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)
文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)
時長12:59
什么是主題建模?
主題建模是一種對文檔進行無監(jiān)督分類的方法,類似于對數(shù)字數(shù)據(jù)進行聚類。
一個文檔可以是多個主題的一部分,有點像模糊聚類(或軟聚類),其中每個數(shù)據(jù)點屬于多個聚類。
簡而言之,主題建模設(shè)想了一組固定的主題。每個主題代表一組單詞。主題建模 的目標是以某種方式將所有文檔映射到主題,這樣每個文檔中的單詞大部分都被那些虛構(gòu)的主題捕獲。
主題建模的工具和技術(shù)將文本分類或分類為每個主題的單詞,這些是基于狄利克雷分布建模的。
什么是潛在狄利克雷分配?
潛在狄利克雷分配是一種無監(jiān)督算法,它為每個文檔為每個定義的主題分配一個值。
潛在是隱藏的另一個詞(即無法直接測量的特征),而狄利克雷是一種概率分布。
我們要從數(shù)據(jù)中提取的主題也是“隱藏主題”。它還有待被發(fā)現(xiàn)。它的用途包括自然語言處理 (NLP)和主題建模等。
這種方法遵循與我們?nèi)祟愊嗨频乃季S方式。這使得 潛在狄利克雷分配 更易于解釋,并且是目前最流行的方法之一。不過,其中最棘手的部分是找出主題和迭代的最佳數(shù)量。
不要將潛在狄利克雷分配與潛在判別分析(也稱為 LDA)相混淆。潛在判別分析是一種有監(jiān)督的降維技術(shù),用于高維數(shù)據(jù)的分類或預(yù)處理。
為什么要進行主題建模?
主題建模提供了自動組織、理解、搜索和總結(jié)大型電子檔案的方法。
它可以幫助解決以下問題:
發(fā)現(xiàn)收藏中隱藏的主題。新聞提供者可以使用主題建模來快速理解文章或?qū)ο嗨莆恼逻M行聚類。另一個有趣的應(yīng)用是圖像的無監(jiān)督聚類,其中每個圖像都被視為類似于文檔。
將文檔分類為發(fā)現(xiàn)的主題。歷史學(xué)家可以使用 LDA通過分析基于年份的文本來識別歸類為歷史上的重要事件相關(guān)的主題。
使用分類來組織/總結(jié)/搜索文檔。基于 Web 的圖書館可以使用 LDA根據(jù)您過去的閱讀內(nèi)容推薦書籍。例如,假設(shè)一個文檔屬于主題 :食品、寵物狗和健康。因此,如果用戶查詢“狗糧”,他們可能會發(fā)現(xiàn)上述文檔是相關(guān)的,因為它涵蓋了這些主題(以及其他主題)。我們甚至無需瀏覽整個文檔就能夠計算出它與查詢的相關(guān)性。
因此,通過注釋文檔,基于建模方法預(yù)測的主題,我們能夠優(yōu)化我們的搜索過程。
潛在狄利克雷分配及其過程
潛在狄利克雷分配是一種將句子映射到主題的技術(shù)。它根據(jù)我們提供給它的主題提取某些主題集。在生成這些主題之前,LDA 執(zhí)行了許多過程。
在應(yīng)用該過程之前,我們有一定的規(guī)則或假設(shè)。
主題建模的 LDA 假設(shè)有兩個:
首先,每個文檔都是主題的混合體。我們想象每個文檔可能包含來自多個主題的特定比例的單詞。例如,在雙主題模型中,我們可以說“文檔 1 是20%的主題A和80%的主題B,而文檔2是70% 的主題A和30%的主題B”。
其次,每個主題都是單詞的混合。例如,我們可以想象一個新聞的兩個主題模型,一個主題是“政治”,一個主題是“娛樂”。政治話題中最常見的詞可能是“主席”和“政府”,而娛樂話題可能由“電影”、“電視”和“演員”等詞組成。重要的是,單詞可以在主題之間共享;像“預(yù)算”這樣的詞可能會同時出現(xiàn)在兩者中。
LDA 是一種同時估計這兩者的數(shù)學(xué)方法:找到與每個主題相關(guān)聯(lián)的詞的混合,同時確定描述每個文檔的主題的混合。
并且,這些主題使用概率分布生成單詞。在統(tǒng)計語言中,文檔被稱為主題的概率密度(或分布),而主題是單詞的概率密度(或分布)。
主題本身就是詞的概率分布。
這些是用戶在應(yīng)用 LDA 之前必須了解的假設(shè)。
LDA 是如何工作的?
LDA 有兩個部分:
屬于文檔的詞,我們已經(jīng)知道。
這屬于某個主題的詞或?qū)儆谀硞€主題的單詞的概率,我們需要計算。
找到后者的算法。
瀏覽每個文檔并將文檔中的每個單詞隨機分配給k個主題之一(k是預(yù)先選擇的)。
現(xiàn)在我們嘗試了解它的完整工作過程:
假設(shè)我們有一組來自某個數(shù)據(jù)集或隨機來源的文檔。我們決定要發(fā)現(xiàn)K 個主題,并將使用 LDA 來學(xué)習每個文檔的主題表示以及與每個主題相關(guān)聯(lián)的單詞。
LDA 算法循環(huán)遍歷每個文檔,并將文檔中的每個單詞隨機分配給 K 個主題中的一個。這種隨機分配已經(jīng)給出了所有文檔的主題表示和所有文檔的單詞分布以及所有主題的單詞分布。LDA 將遍歷每個文檔中的每個單詞以改進這些主題。但是這些主題的表示并不合適。所以我們必須改進這個限制。為此,對于每個文檔中的每個單詞和每個主題 T,我們計算:
文檔 d 中當前分配給主題 T 的單詞的比例
主題 T 的分配在來自這個詞的所有文檔中的比例
將單詞重新分配給一個新主題,我們以P(主題 T | 文檔 D) 乘以 P(單詞| 主題 T)的概率選擇主題 T,這實質(zhì)上是,主題T生成的單詞的概率。在多次重復(fù)上一步之后,我們最終達到了一個大致穩(wěn)定的狀態(tài),即分配是可以接受的。最后,我們將每個文檔分配給一個主題。我們可以搜索最有可能被分配到某個主題的單詞。
我們最終得到了輸出,例如
·分配給每個主題的文檔
·主題的最常用關(guān)鍵詞
·由用戶來解釋這些主題。
兩個重要說明:
·用戶必須決定文檔中存在的主題數(shù)量
·用戶必須解釋主題是什么
所以通常如果我們有文檔集合,我們想要生成一組主題來表示文檔,我們可以使用 LDA 來執(zhí)行它。因為 LDA 將通過遍歷每個文檔來訓(xùn)練這些文檔并將單詞分配給主題。但這不是一個循環(huán)過程。這里是一個學(xué)習過程。它將遍歷每個文檔中的每個單詞并應(yīng)用上面討論的公式。
R軟件?LDA?應(yīng)用
我們將嘗試通過R軟件將 LDA 應(yīng)用于數(shù)據(jù)來更簡要地理解它。
越來越多的人愿意精神消費。旅游不僅可以提升人們對外地環(huán)境和外地人文的認知,也可以放松身心、愉悅心情,是一種受歡迎的精神消費。
隨著國內(nèi)近些年來互聯(lián)網(wǎng)的發(fā)展,越來越多的人開始線上消費,消費感受的推薦成為了潮流。在各個旅游平臺上,越來越多的人愿意參與旅游目的地游玩感受的分享。
本文試圖從馬蜂窩旅游官網(wǎng)上就新疆這個旅游目的地游記進行感知分析。
游記表現(xiàn)出多元復(fù)雜的情感
通過情感分析(也稱為意見挖掘),用文本挖掘和計算機語言學(xué)來識別和提取原始資料中的主觀信息,分析主觀信息(例如觀點,情感,態(tài)度,評估,情感等),以進行提取,分析,處理,歸納和推理。
圖表1
通過數(shù)據(jù)分析可知,旅客對新疆整體上正向情感還是遠高于負向情感,旅游群體對新疆旅游地區(qū)還是呈現(xiàn)出積極的肯定態(tài)度,如舒適、恬靜、賞心悅目、激動、留戀等。從詞頻統(tǒng)計看出,自然風光多,旅游對民族特色的較為關(guān)注,如:盆地、白云、沙漠、草原、南疆。當然還有吃食,如“奶酪”等等。從結(jié)果也可以看到有少量的“失望”、“惆悵”等情感,通過游記我們發(fā)現(xiàn)風景基本上滿足了旅客的需求,但是深層次的體驗項目較少,新疆旅游景點間空間跨度大、路況條件差、行車時間長、節(jié)假日擁堵排隊等。新疆旅游大部分都是景區(qū)內(nèi)的風景,對于自然風貌記錄偏少,規(guī)劃、人文旅游也偏少。情感分析可知,游客對風景、美食都很滿意,有著更高的期待。?
哪些游記幫助人數(shù)最多
通過游記的內(nèi)容特點和幫助人數(shù),我們通過決策樹來判斷哪些游記的幫助人數(shù)最多,同時也發(fā)現(xiàn)大多數(shù)驢友的心里出行需求。
圖表2
樣本游記從游記篇幅、作者等級、人均花費、旅行組合、出行天數(shù)等方面反映游記的特點。游記篇幅的大小和作者等級是影響幫助人數(shù)的最重要的因素,內(nèi)容詳盡的游記能幫助到更多的人,經(jīng)驗老道的驢友的游記一般更有參考價值。旅行組合中家庭組合較少,赴疆游客以個人或朋友背包客徒步、自由行旅游為主,人均費用在7k以下,出行天數(shù)小于12天。游記的幫助人數(shù)客觀地反映了驢友們旅游行程規(guī)劃的心理預(yù)期,同時會對其他旅游者的決策和對旅游目的地的營銷產(chǎn)生重要影響。
游記話題情感認知形象
接下來我們通過主題挖掘?qū)ふ矣斡浽掝}和表達情感之間的關(guān)系。
圖表3
從中可以看到有兩個主題是景點相關(guān),從關(guān)鍵詞中可以用看到驢友們關(guān)注比較多的景點是獨庫公路、天山、喀納斯、禾木、布爾津、五彩灘等。“新疆”、“獨庫公路”、“喀納斯”、“烏魯木齊”是游記樣本中共現(xiàn)頻率最高的詞,成為兩個重要的中心節(jié)點。通常情況下,距離中心節(jié)點越近,表示與兩個節(jié)點的關(guān)聯(lián)越緊密。由此可見,語義網(wǎng)絡(luò)圖呈現(xiàn)出兩個較為明顯的趨勢:一是“新疆”一詞輻射出的語義網(wǎng)絡(luò)除旅游景區(qū)外,更多地表現(xiàn)了游客對新疆“雪山”、“草原”、“景色”等旅游形象的整體情感感知:如“獨特”、“寧靜”等,這與新疆對外旅游宣傳所采用的詞語相一致; 二是“烏魯木齊”、“風景”一詞輻射出的語義網(wǎng)絡(luò)集合了更多與行程和旅游攻略相關(guān)的信息,如“酒店”、“機場”、“包車”、“自駕”等,從游客感知視角證實了新疆旅游的旅游攻略行程信息以及烏魯木齊作為重要的旅游集散中心在新疆旅游業(yè)發(fā)展中的地位。
本文摘自 :https://blog.51cto.com/t