語料庫建設中涉及的主要問題包括:
(1) 設計和規劃:主要考慮語料庫的用途、型別、規模、實現手段、質量保證、可擴充套件性等。
(2) 語料的採集:主要考慮語料獲取、資料格式、字元編碼、語料分類、文字描述,以及各類語料的比例以保持平衡性等。
(3) 語料的加工:包括標註專案(詞語單位、詞性、句法、語義、語體、篇章結構等)標記集、標註規範和加工方式。
(5) 語料庫的應用:針對語言學理論和應用領域中的各種問題,研究和開發處理語料的演算法和軟體工具。
中國語料庫的建設始於80年代,當時的主要目標是漢語詞彙統計研究。進入90年代以後,語料庫方法在自然語言資訊處理領域得到了廣泛的應用,建立了各種型別的語料庫,研究的內容涉及語料庫建設中的各個問題。90年代末到新世紀初這幾年是語料庫開發和應用的進一步發展時期,除了語言資訊處理和言語工程領域以外,語料庫方法在語言教學、詞典編纂、現代漢語和漢語史研究等方面也得到了越來越多的應用。
語料庫與語言資訊處理有著某種天然的聯絡。當人們還不瞭解語料庫方法的時候,在自然語言理解和生成、機器翻譯等研究中,分析語言的主要方法是基於規則的(Rule-based)。對於用規則無法表達或不能涵蓋的語言事實,計算機就很難處理。語料庫出現以後,人們利用它對大規模的自然語言進行調查和統計,建立統計語言模型,研究和應用基於統計的(Statistical-based)語言處理技術,在資訊檢索、文字分類、文字過濾、資訊抽取等應用方向取得了進展。另一方面,語言資訊處理技術的發展也為語料庫的建設提供了支援。從字元編碼、文字輸入和整理,語料的自動分詞和標註,到語料的統計和檢索,自然語言資訊處理的研究都為語料的加工提供了關鍵性的技術。
語料庫建設中涉及的主要問題包括:
(1) 設計和規劃:主要考慮語料庫的用途、型別、規模、實現手段、質量保證、可擴充套件性等。
(2) 語料的採集:主要考慮語料獲取、資料格式、字元編碼、語料分類、文字描述,以及各類語料的比例以保持平衡性等。
(3) 語料的加工:包括標註專案(詞語單位、詞性、句法、語義、語體、篇章結構等)標記集、標註規範和加工方式。
(5) 語料庫的應用:針對語言學理論和應用領域中的各種問題,研究和開發處理語料的演算法和軟體工具。
中國語料庫的建設始於80年代,當時的主要目標是漢語詞彙統計研究。進入90年代以後,語料庫方法在自然語言資訊處理領域得到了廣泛的應用,建立了各種型別的語料庫,研究的內容涉及語料庫建設中的各個問題。90年代末到新世紀初這幾年是語料庫開發和應用的進一步發展時期,除了語言資訊處理和言語工程領域以外,語料庫方法在語言教學、詞典編纂、現代漢語和漢語史研究等方面也得到了越來越多的應用。
語料庫與語言資訊處理有著某種天然的聯絡。當人們還不瞭解語料庫方法的時候,在自然語言理解和生成、機器翻譯等研究中,分析語言的主要方法是基於規則的(Rule-based)。對於用規則無法表達或不能涵蓋的語言事實,計算機就很難處理。語料庫出現以後,人們利用它對大規模的自然語言進行調查和統計,建立統計語言模型,研究和應用基於統計的(Statistical-based)語言處理技術,在資訊檢索、文字分類、文字過濾、資訊抽取等應用方向取得了進展。另一方面,語言資訊處理技術的發展也為語料庫的建設提供了支援。從字元編碼、文字輸入和整理,語料的自動分詞和標註,到語料的統計和檢索,自然語言資訊處理的研究都為語料的加工提供了關鍵性的技術。