回覆列表
  • 1 # 魔數思

    中文和英文相比需要做分詞

    英文天然有空格可以容易把詞彙分開

    I love NLP

    而中文需要根據語義對一句話做切割

    我愛自然語言處理 => 我 愛 自然 語言 處理

    中文拼寫有形近的詞的拼寫錯誤相比英文比較難處理

    英文錯別字像 science可能寫成sience 僅僅是字母漏掉

    中文像“太陽”寫成“大陽” 得根據語義才能找出這樣的錯誤

    中文輸入法主要用拼音 很多時候要根據拼音去猜文字

    英文輸入直接拼寫單詞相對容易

    中文輸入要寫拼音再轉文字 很多時候程式要根據拼音知道使用者想輸入啥 因為有方言導致拼寫不準的情況

  • 2 # AI河馬

    河馬解答:

    中英文在詞性標註句法分析等任務上是有一定差異

    英語有明顯的變化(比如單數,複數,時態等)而漢語缺少這些屈折變化,所以就有人歸納了:"漢語在於義,英語在於形"

    所以在英語裡面,一個詞被標註為動詞、名詞、副詞還是形容詞,並不會存在太大的爭議。

    但是漢語裡面的詞性標註就有一定難度了,因為單獨拿出來很多時候是不知道他作什麼詞性的。

    例如:學習使我快樂,勞動讓人光榮,這裡面的 "學習","勞動"按照英文語法是應該標註成名詞的,但是在這裡作動詞感覺也沒毛病。

    現在大多數漢字都是形聲字,一部分 提供語義,一部分提供發音

    這句話主要是想說提供語義的那些 偏旁和最初甲骨文很多是象形。

    就像英語有一些字首字尾詞根一樣,中文也有這樣類似的語義相關的語素——偏旁部首。偏旁部首是兩個不同的東西,可以單純地認為,部首才是最主要的偏旁。比如三點水的字多數和河流和水有關係。

    所以很自然的一個想法就是像英文那些利用字首字尾詞根的研究工作一樣,把中文的偏旁部首加進來提供額外的資訊。

    如果大家還是沒懂的話..............

    拜了個拜

  • 3 # 程式猿的雕刻時光

    NLP的目的是希望計算機能夠理解人類語言,並提供智慧服務。在中文的語言環境裡,“詞”是構成語法的基本單位,絕大多數的NLP任務都依賴分詞的結果。

    中文和英文有很大的不同,英文是以空格作為分隔符的,而中文是字與字直接連線在一起,這就造成了中文分詞要比英文分詞難度要大的多了。

    中文分詞經歷了20多年的發展,一路上克服了各種困難,我梳理了一下主要4個難題:

    1. 中文語言裡詞界定標註不夠清晰和統一,比如:“改革開放”可以整體切分,也可以切分成“改革”和“開發”。

    2. 人工規則和統計學習孰優孰劣。

    3. 中文歧義問題,比如:“乒乓球拍賣完了”可以切分成“乒乓球/ 拍賣/ 完/ 了”,也可以切分成“乒乓球拍/ 賣完/ 了“。

    4. 中文的新詞發現,比如:各種網路新詞、人名、品牌名等等。

    綜上所述,中文的NLP要比英文類語言難很多,但中文分詞之後其實就與其它語言沒收什麼太大的區別了。

  • 中秋節和大豐收的關聯?
  • 人體容易長胖是溼氣重嗎?有辦法預防和改善嗎?