人是眾生;我們?cè)?0%的時(shí)間里都會(huì)體驗(yàn)情緒、感覺(jué)和感受。情緒分析對(duì)于研究人員、企業(yè)和組織了解客戶反饋和確定改進(jìn)領(lǐng)域變得越來(lái)越重要。它有多種應(yīng)用,但也面臨一些挑戰(zhàn)。
情緒是指由情緒驅(qū)動(dòng)的想法、觀點(diǎn)和態(tài)度——持有或表達(dá)。例如,如今大多數(shù)人只是通過(guò)社交媒體在推文等內(nèi)容中表達(dá)他們的觀點(diǎn)。因此,文本挖掘研究人員致力于社交媒體情緒分析,以了解公眾輿論、預(yù)測(cè)趨勢(shì)并改善客戶體驗(yàn)。
讓我們?cè)谙旅嬖敿?xì)討論情緒分析。
什么是情緒分析?
自然語(yǔ)言處理(NLP) 技術(shù)分析文本數(shù)據(jù)(例如客戶評(píng)論)以了解文本背后的情緒并將其分類為正面、負(fù)面或中性,稱為情緒分析。
在線共享的文本數(shù)據(jù)量巨大。每天有超過(guò)5 億條帶有情感和觀點(diǎn)的推文被分享。通過(guò)培養(yǎng)分析這種大容量、高多樣性和高速數(shù)據(jù)的能力,組織可以做出數(shù)據(jù)驅(qū)動(dòng)的決策。
情緒分析主要有以下三種類型:
1. 多模態(tài)情感分析
這是一種情感分析,我們考慮多種數(shù)據(jù)模式,如視頻、音頻和文本,來(lái)分析內(nèi)容中表達(dá)的情感。考慮到面部表情等視覺(jué)和聽(tīng)覺(jué)線索,語(yǔ)調(diào)給出了廣泛的情緒。
2. 基于方面的情感分析
基于方面的分析涉及NLP方法來(lái)分析和提取與產(chǎn)品和服務(wù)的特定方面或特征相關(guān)的情緒和意見(jiàn)。例如,在餐廳評(píng)論中,研究人員可以提取與食物、服務(wù)、氛圍等相關(guān)的情感。
3.多語(yǔ)言情感分析
每種語(yǔ)言都有不同的語(yǔ)法、句法和詞匯。每種語(yǔ)言表達(dá)的情緒都不同。在多語(yǔ)言情感分析中,每種語(yǔ)言都經(jīng)過(guò)專門訓(xùn)練以提取被分析文本的情感。
您可以使用哪些工具進(jìn)行情緒分析?
在情感分析中,我們收集數(shù)據(jù)(客戶評(píng)論、社交媒體帖子、評(píng)論等),對(duì)其進(jìn)行預(yù)處理(刪除不需要的文本、標(biāo)記化、POS 標(biāo)記、詞干提取/詞形還原)、提取特征(將單詞轉(zhuǎn)換為數(shù)字以進(jìn)行建模)、并將文本分類為正面、負(fù)面或中性。
各種Python 庫(kù)和商用工具簡(jiǎn)化了情緒分析過(guò)程,如下所示:
1. Python 庫(kù)
NLTK(自然語(yǔ)言工具包)是廣泛用于情感分析的文本處理庫(kù)。Vader(Valence Aware Dictionary 和 sEntiment Reasoner)和 TextBlob 等各種其他庫(kù)都構(gòu)建在 NLTK 之上。
BERT(Bidirectional Encoder Representations from Transformers)是一種強(qiáng)大的語(yǔ)言表示模型,已在許多 NLP 任務(wù)上顯示出最先進(jìn)的結(jié)果。
2. 市售工具
開(kāi)發(fā)人員和企業(yè)可以為他們的應(yīng)用程序使用許多商業(yè)可用的工具。這些工具是可定制的,因此可以根據(jù)特定需求定制預(yù)處理和建模技術(shù)。流行的工具是:
IBM 沃森自然語(yǔ)言理解
IBM Watson NLU 是一種基于云的服務(wù),可協(xié)助文本分析,例如情緒分析。它支持多種語(yǔ)言,并使用深度學(xué)習(xí)來(lái)識(shí)別情緒。
谷歌云自然語(yǔ)言 API
Google的自然語(yǔ)言API可以執(zhí)行各種NLP任務(wù)。API使用機(jī)器學(xué)習(xí)和預(yù)訓(xùn)練模型來(lái)提供情緒和量級(jí)分?jǐn)?shù)。
情感分析的應(yīng)用
1.客戶體驗(yàn)管理(CEM)
從反饋和評(píng)論中提取和分析客戶的情緒以改進(jìn)產(chǎn)品和服務(wù)稱為客戶體驗(yàn)管理。簡(jiǎn)而言之,CEM——使用情緒分析——可以提高客戶滿意度,從而增加收入。當(dāng)客戶滿意時(shí),72%的客戶會(huì)與他人分享他們的體驗(yàn)。
2. 社交媒體分析
世界上大約65%的人口使用社交媒體。今天,我們可以找到人們對(duì)任何重大事件的看法和看法。研究人員可以通過(guò)收集有關(guān)特定事件的數(shù)據(jù)來(lái)評(píng)估公眾輿論。
例如,一項(xiàng)研究比較了西方國(guó)家和東方國(guó)家人們對(duì) ISIS 的看法。研究得出結(jié)論,人們將 ISIS 視為一種威脅,無(wú)論他們來(lái)自哪里。
3.政治分析
通過(guò)分析社交媒體上的公眾情緒,政治運(yùn)動(dòng)可以了解他們的優(yōu)勢(shì)和劣勢(shì),并對(duì)公眾最關(guān)心的問(wèn)題做出回應(yīng)。此外,研究人員可以通過(guò)分析對(duì)政黨和候選人的情緒來(lái)預(yù)測(cè)選舉結(jié)果。
推特與投票數(shù)據(jù)的相關(guān)性高達(dá)94%,這意味著它在預(yù)測(cè)選舉方面高度一致。
情感分析的挑戰(zhàn)
1.歧義
歧義是指單詞或表達(dá)根據(jù)周圍上下文具有多重含義的情況。例如,根據(jù)上下文,單詞 sick 可以具有正面含義(“那場(chǎng)音樂(lè)會(huì)病了”)或負(fù)面含義(“我病了”)。
2. 諷刺
檢測(cè)文本中的諷刺可能具有挑戰(zhàn)性,因?yàn)槭艿酱碳さ娜丝梢允褂梅e極的詞語(yǔ)來(lái)表達(dá)消極情緒,反之亦然。例如,根據(jù)上下文,文本“太好了,另一次會(huì)議”可能是諷刺評(píng)論。
3.數(shù)據(jù)質(zhì)量
尋找沒(méi)有數(shù)據(jù)隱私和安全問(wèn)題的高質(zhì)量特定領(lǐng)域數(shù)據(jù)可能具有挑戰(zhàn)性。從社交媒體網(wǎng)站抓取數(shù)據(jù)始終是一個(gè)灰色地帶。Meta對(duì)兩家公司 BrandTotal 和 Unimania 提起訴訟,指控它們違反 Facebook 的條款和政策為 Facebook 進(jìn)行抓取擴(kuò)展。
4.表情符號(hào)
表情符號(hào)越來(lái)越多地被用來(lái)在社交媒體應(yīng)用程序的對(duì)話中表達(dá)情感。但是表情符號(hào)的解釋是主觀的并且依賴于上下文。大多數(shù)從業(yè)者從文本中刪除表情符號(hào),這在某些情況下可能不是最佳選擇。因此,很難從整體上分析文本的情感。
2023 年及以后的情緒分析狀況!
像 BERT 和 GPT 這樣的大型語(yǔ)言模型已經(jīng)在許多 NLP 任務(wù)上取得了最先進(jìn)的結(jié)果。研究人員正在使用表情符號(hào)嵌入和多頭自注意力架構(gòu)分別解決文本中表情符號(hào)和諷刺的挑戰(zhàn)。隨著時(shí)間的推移,此類技術(shù)將實(shí)現(xiàn)更好的準(zhǔn)確性、可擴(kuò)展性和速度。