首頁>Club>
11
回覆列表
  • 1 # 機器之心Pro

    文字挖掘一直是十分重要的資訊處理領域,因為不論是推薦系統、搜尋系統還是其它廣泛性應用,我們都需要藉助文字挖掘的力量。每天所產生的資訊量正在迅猛增加,而這些資訊基本都是非結構化的海量文字,它們無法輕易由計算機處理與感知。因此,我們需要一些高效的技術和演算法來發現有用的模式。文字挖掘近年來頗受大眾關注,是一項從文字檔案中提取有效資訊的任務。

    由於以各種形式(如社交網路、病歷、醫療保障資料、新聞出版等)出現的文字資料數量驚人,文字挖掘(TM)近年來頗受關注。IDC在一份報告中預測道:截至到2020年,資料量將會增長至400億TB(4*(10^22) 位元組),即從2010年初開始增長了50倍[50]。

    文字資料是典型的非結構化資訊,它是在大多數情況下可產生的最簡單的資料形式之一。人類可以輕鬆處理與感知非結構化文字,但機器顯然很難理解。不用說,這些文字定然是資訊和知識的一個寶貴來源。因此,設計出能有效處理各類應用中非結構化文字的方法就顯得便迫在眉睫。目前現在的文字挖掘方法主要有:

    1. 資訊檢索(Information Retrieval,IR):資訊檢索是從滿足資訊需求的非結構化資料集合中查詢資訊資源(通常指文件)的行為。

    2. 自然語言處理(Natural Language Processing ,NLP):自然語言處理是計算機科學、人工智慧和語言學的子領域,旨在透過運用計算機理解自然語言。

    3. 文字資訊提取(Information Extraction from text ,IE):資訊提取是從非結構化或半結構化文件中自動提取資訊或事實的任務。

    4. 文字摘要:許多文字挖掘應用程式需要總結文字文件,以便對大型文件或某一主題的文件集合做出簡要概述。

    5. 無監督學習方法(文字):無監督學習方法是嘗試從未標註文字中獲取隱藏資料結構的技術,例如使用聚類方法將相似文字分為同一類。

    6. 監督學習方法(文字):監督學習方法從標註訓練資料中學習分類器或推斷功能,以對未知資料執行預測的機器學習技術。

    7. 文字挖掘的機率方法:有許多種機率技術,包括無監督主題模型(如機率潛在語義分析模型(pLSA) [64] 與文件主題生成模型(LDA)[16])和監督學習方法(如可在文字挖掘語境中使用的條件隨機場)[83]。

    8. 文字流與社交媒體挖掘:網路上存在許多不同的應用程式,它們可以生成大量的文字資料流。

    10. 生物醫學文字挖掘:生物醫學文字挖掘是指對生物醫學科學領域的文字進行文字挖掘的任務。

  • 2 # BIGHE

    說一種簡單的,怎麼判斷兩篇說的是一個事呢?

    首先,你要有兩篇新聞,網上找也好,爬蟲爬也好,總之,你現在有了兩篇文章。

    有了文章之後要幹啥,分詞,計算詞頻,生成詞向量,這中間不要忘了剔除停用詞。

    生成詞向量,textrank或者tfidf,這樣就把一篇文章變成了一個向量。

    兩個文章也就是兩個向量計算相似度,最簡單的,計算夾角餘弦。

    然後就知道兩篇文章的相似程度了。

    當你一時間獲得很多文章時,你能靠計算相似度獲得幾個文章的聚類,這就是當時新聞的熱點事件。

  • 3 # 宋天龍Tony

    常見的文字挖掘和應用包括文字聚類、文字分類、非結構化資訊提取、文字糾錯、相關文字推薦、文件相似度判別、情感分析等。

    文字聚類

    文字聚類就是要找到一堆文件中,哪些文件具有較高的相似性,然後可以針對這些相似性文件的聚合進行類別劃分。

    文字聚類應用場景:提供大規模文件集進行類別劃分並提取公共內容的概括和總覽;找到潛在的各個文件間的相似度以進行相似度判別、類別修正,以減少瀏覽相似文件和資訊的時間和精力。

    文字聚類常用方法:層次聚類法、平面劃分法、簡單貝葉斯聚類法、分級聚類法、基於概念的文字聚類、混合模型聚類、光譜聚類、潛在語義標引聚類(LSI)等。

    文字分類

    文字分類也是將文字劃分為不同的類別,與文字聚類的區別在於文字聚類沒有Label可用於訓練,因此它是一種非監督式的學習;而文字分類有特定的Label可供學習和訓練,這是一種監督式的學習方法。從實際應用角度,聚類提供的是在沒有任何經驗或先前知識的前提下,對大規模文字進行類別自動劃分;分類提供的是基於已有的訓練模式和Label屬性,預測其類別所屬。

    文字分類應用場景:資訊的類別劃分,例如將網頁的資訊自動劃分為影視、音樂、健康、財經、汽車、政治等類別,將根據郵件內容進行垃圾郵件過濾,針對論壇、部落格等社會化媒體中惡意帖子的識別和過濾等。

    文字分類常用方法:樸素貝葉斯、矩陣變換法、K-近鄰、支援向量機、神經網路等。

    非結構化資訊抽取

    非結構化資訊抽取指的是從文字提取特定非結構化資訊,包括摘要、關鍵字等。非結構化資訊抽取能生成簡短的關於文件內容的指示性資訊,將文件的主要內容或核心關鍵字呈現給使用者,以決定是否要閱讀文件的原文,這樣能夠節省大量的瀏覽時間並提高資訊關鍵資訊的展示能力。

    非結構化資訊抽取常用方法:透過詞頻統計獲得文字的主要關鍵字,而摘要提取方法包括自動摘錄、基於理解的自動文摘、資訊抽取和基於結構的自動文摘等。

    文字糾錯

    文字糾錯能夠實現對文字的自動糾錯功能,這是一種輔助輸入的功能。文字糾錯包含字詞級別的短文字糾錯、語法搭配糾錯和長句子的語義糾錯,目前主要的文字糾錯側重於短文字糾錯。

    文字糾錯應用場景:文字編輯器糾錯、搜尋引擎輸入內容糾錯、輸入法的輸入糾錯、書籍和稿件校正等。

    文字糾錯常用方法:基於機器學習演算法的糾錯演算法是較為廣泛且精確的自動糾錯方法,包括SVM、貝葉斯、神經網路、邏輯迴歸、決策樹等,除此之外也有透過特定模式和規則的泛化匹配、N-gram模型判斷文字中的錯誤字詞。

    相關文字推薦

    使用者在某些文字之間可能存在頻繁的關聯查閱關係,而這些關鍵之間會蘊藏使用者的潛在意圖,這可以透過相關文字推薦來實現。例如,當用戶在搜尋引擎搜尋“熱度分析”一詞時,相關的搜尋詞可能包括: 空間熱度分析、關鍵詞熱度分析、音訊熱度分析、熱詞分析、關鍵詞熱度分析十法、關鍵詞熱度分析是指、網路遊戲熱度排行榜等。

    相關文字推薦應用場景:新聞資訊推薦、博文帖子推薦、活動推薦、搜尋內容推薦等。

    相關文字推薦常用方法:Apriori、FP-growth等關聯模型。

    文件相似度判別

    情感分析

    情感分析是對情感傾向的分析,是用於分析特定物件對相關屬性的觀點、態度、情緒、立場以及其他主觀感情的技術,通常分析的情感結果會屬於正向,中性或負向。

    情感分析應用場景:主要應用於競爭情報、輿情監測、客戶正負向、話題監督、口碑分析等。

    情感分析常用方法:除了非負矩陣分解、基於遺傳演算法的情感分析之外,使用的最多的還是監督學習演算法,例如樸素貝葉斯、K近鄰、最大熵和支援向量機等。

    其他應用

    除此以外,文字分析還廣泛應用於簡繁轉換、自動注音、語音識別後處理、自動校對、機器翻譯、基於句子的漢字鍵盤輸入、使用者興趣模式識別等。

  • 4 # 科技爸
    01 文字分析的主要思路--5W2H七問分析法

    5W2H七問分析法的歷史悠久,早在二戰中美國陸軍就開始使用了。這是一個廣泛適用於企業管理和技術活動等場景的方法,按照發現問題、解決問題的普遍思路來解決問題,有助於你順藤摸瓜洞悉事物本質。具體含義見圖。

    02 常規的分析方法--描述統計分析

    描述統計分析,這裡主要指不涉及程式設計,而是使用excel,spss等工具來做的分析。

    具體分析方法就是做描述性統計,包括了一是頻數分析:包括了單個專案的佔比分析、也包括了多個專案的交叉分析。二是集中趨勢分析,包括了最大最小值、平均值、中位數分析等。三是離散趨勢分析,包括了方差分析、標準差分析、離差分析、直方圖分析等等。

    對於時間、地點、年齡等等這些簡單的條目先進行數量上的頻數統計,然後選好炫目的圖表展示就可以了。如果專案較多,還可以進行交叉頻數分析。比如分析不同性別,不同年齡的滿意度怎樣等等。效果見圖。

    但是對於文字內容的分析(也就是what),excel等工具表示抱歉,無法做。

    描述統計完之後,還可以對另外一個W(原因)和2H(如何做?做到什麼程度?)進行分析啦。找到剛才的分析要求,細細進行深入地分析思考吧。

    比如分析了地域的分佈,發現排名前十的城市依次為:北京、上海、南京、杭州、深圳、廣州、成都、長沙、重慶、西安。上述城市大都是近年的GDP排行中居上游,消費力強勁的一、二線大城市。為什麼會出現這樣的情況呢?其中城市人口基數和熒幕數量的因素很重要。一線大城市的熒幕數量總額是超過其他二三線城市的,大城市人口基數龐大,較多的熒幕數量和座位、較高密度的排片場次,讓大量影迷便捷觀影,這樣一來票房自然就比其他城市高出不少,活躍的觀眾評論也多。

    原因找到了就可以分析怎樣做才能進一步提高票房收入呢?需要投入多少的人力物力來做呢?這些都是可以深入思考的問題。

    03 複雜的分析方法--資料探勘分析

    前面講的方法對付簡單專案沒有問題,但是遇到更復雜的內容、做更深層次的分析,就需要使用程式設計的方法了。

    (1)對於文字資料的分析,需要使用python程式來處理。

    1)首先需要對文字資料進行預處理。一是將原始文字語料中的很多幹擾資訊,包括標點符號、數字、英文字母、轉換符等噪聲進行刪除。二是對重複語句刪除和重複詞壓縮。三是將無用的短句刪除。比如:“很不錯”“很好”等。因此,最後還要對字數過少的句子刪除。

    2)其次,進行文字分詞和統計。將短句劃分為詞,即將連續的字序列按照一定的規範重新組合成詞序列的過程。接著,透過高頻率片語進行統計和詞雲展示,就可以提煉出使用者的主要意見,像下圖這樣。

    3)接著,對高頻詞進行主題分析。當收集到使用者意見一大堆,那主要包括哪些主題呢?LDA模型就可以自動幫你進行分類。

    比如,經過LDA主題分析後,文字意見分為了3個主題,每個主題下生成了5個最有可能出現的詞語以及相應的機率,像下圖這樣。

    5)最後當然還是進行1w2h(原因?如何做?做到什麼程度?)深入分析了。

    (2)其它分析思路。

    1)客戶畫像--聚類分析的應用

    假如收集的評論資料的維度比較多,比如在問卷調查中收集到了客戶的年齡、性別、職業、學歷等等要素,就可以對整個人群進行聚類分析。透過聚類分析,可以歸納出不同的客戶群,分析他們的客群特徵,就相當於是進行了客戶的畫像。這樣的好處就是可以針對不同客群的情況進行精準的營銷,來幫助效益最大化。

    2)關聯要素挖掘--關聯分析應用

    同樣是如果收集的資料的維度比較多,想了解是哪些要素與目標結果關聯性最大,可以使用關聯分析演算法。比如,想要分析給出好評的客戶有哪些特點,這時就可以進行關聯挖掘,看哪些年齡、學歷、性別、地域的客戶更容易給出好評。

  • 中秋節和大豐收的關聯?
  • 馬街937遊客多嗎?