首頁>Club>
10
回覆列表
  • 1 # 科技新高峰

    文字資訊處理技術有

    1.自動標引技術。

    2.標引詞加權方法。

    3.自動分類技術。

  • 2 # Fortitude

    研究現狀

    文字是歷史悠久、應用廣泛、使用靈活、認可度最高的資訊載體。文字資訊的處理研究主要包括分詞研究、文字資訊抽取、文字分類、文字資訊檢索、文字自動摘要等方面。所有這些研究的研究物件都是文字字串。

    1. 分詞

    文字的最基本要素是字,但單一的字索然無味。符合語言習慣並能表達一定意義的字與字間的連線構成的詞才是文字的有機要素。將一篇文件切割成不同的詞稱為分詞。

    分詞技術大致可分為基於詞典分詞和無詞典分詞兩種。

    2. 文字資訊抽取

    從指定文字或文字集中,抽取滿足一定形式或合乎一定內容要求(包括文字中的實體、關係和事件)的資訊的過程稱為文字資訊抽取。文字資訊抽取有指定的抽取物件、明確的抽取內容。

    3. 文字分類

    分類就是在定形或不定形的類別體系框架下,處理客觀物件、抽象概念、假設等模式的樣例資料,選出與其接近的模型類別歸類。文字分類就是將文字物件分成不同的類別。

    4. 文字資訊檢索

    廣義的文字資訊檢索是指資訊按一定的方式組織起來,並根據資訊使用者的需要找出有關的資訊的過程和技術。狹義的資訊檢索是指從資訊集合中找出所需要的資訊的過程,相當於人們通常所說的資訊查尋。

    5. 文字的自動摘要

    透過設計一個文字資訊處理系統自動提取文字的主題思想。不僅要把握文字中細節資訊,更要掌握文字資訊的主題思想。文字中的主題思想的理解是人的高階智慧活動。

    文字資訊處理的關鍵技術

    從計算技術角度可以將文字資訊處理的關鍵技術以及挑戰歸納為分本分詞技術、分本儲存技術、語義分析和歸納推理等方面。

    1. 分詞技術

    詞由字構成,詞是文字的有機組成部分,對文字資訊的任何處理都離不開詞。分詞是文字資訊處理的基石,目前的中文分詞技術存在兩大難題:詞典的不完備性和切分歧義性。

    因此,分詞歧義的消除、詞典的完備以及切分方式如何貼近語義,是分詞研究中的三大關鍵技術。

    2. 文字的結構化儲存處理

    計算機對資料處理的強勢表現在結構化資料處理,而文字資訊一直以來都是一種非結構化的儲存資料。隨著網路中的文字資訊的急劇增長,網路文字資訊的有效處理能力日益低下,因此如何有效地講非結構化文字資料轉化為結構化儲存,成為一種新的應用研究領域。

    XML是為將非結構化文件進行結構化處理而開發的一種簡單的資料儲存語言,但它只能對文件做半結構化處理儲存在網路中,還不能將現有的文字文件做結構化轉化處理儲存。

    3. 語義分析

    自然語言理解的高階智慧活動就是語義分析,沒有文字語義的高階智慧分析,不僅制約文字理解的深入和透徹,更是制約諸如Web語義、影象、圖形等資訊的智慧理解。

    4. 歸納推理

    歸納,就是一種由個別到一般的概括,包括句子的歸納、段落大意的歸納和短文主題的歸納等。

    推理,就是在正確理解文字的語義前提下,透過字裡行間推理言外之意及作者的語氣、態度。

    一般認為,文字的語義分析和歸納推理是文字資訊處理的最高目標也是終極目標。

  • 中秋節和大豐收的關聯?
  • 實體店,店裡守了一天也沒進來個人,怎麼辦?