回覆列表
-
1 # 中研會王開來
-
2 # 明明有趣
漢字的數量並沒有準確數字,大約將近十萬個(北京國安諮訊裝置公司漢字字型檔收入有出處漢字91251個),日常所使用的漢字只有幾千字。
關於漢字的數量,根據古代的字書和詞書的記載,可以看出其發展情況。
秦代的《倉頡》、《博學》、《爰歷》三篇共有3300字;
漢代揚雄作《訓纂篇》有5340字,到許慎作《說文解字》 就有9353字了;據唐代封演《聞見記·文字篇》所記,晉呂忱作《字林》有12824字,後魏楊承慶作《字統》有13734字,南朝時顧野王所撰的《玉篇》據記載共收16917字,在此基礎上修訂的《大廣益會玉篇》則據說有22726字;
唐代孫強增字本《玉篇》有22561字。宋代司馬光修《類篇》多至31319字,宋朝官修的《集韻》中收字53525個,曾經是收字最多的一部書;清代《康熙字典》有47000多字了;
漢字的數量是個很有趣的問題,有人曾經做過一個統計,我也曾發過專文講說,轉引如下,總的結論是,雖然現存漢字字形上十萬餘,但從歷史典籍的情況來分析,同時代,同一個人所做文章、專著,用字數量一般在三千左右
原發表地址
https://www.toutiao.com/i6616572255042273805/
《文字源流》專題之六:文字之孳乳
文:默公
漢字的發展,是一個相形相生、孳乳分化的過程,是一個由少而多的過程。
我們已知:距今9000-5000年間是漢字的孕育期,出現了數百個原始字元。從5000-3500年(史傳倉頡造字至殷墟甲文)是漢字的系統造作和成熟期,已發現的甲文單字數量在四千左右(包括異體字)。從3500-2200年(西周至秦統一)是漢字應用於大規模著述期,根據傳世先秦典籍統計,不重複單字約八千餘(包括異體字)。此時期的字書《史籀篇》、《倉頡篇》、《博學篇》、《爰歷篇》,各本收字數量都是三千字左右。從公元前三世紀到公元后三世紀是漢字的孳乳分化期,許多原來屬於多義共享的文字,透過會意、形聲或會意兼形聲的方法,分化成數個有共同字源的專用字。這種情況雖然在漢代前後均有發生,但漢代更為集中。漢代以及稍後的字書收字情況:揚雄《訓纂編》(已佚)5340字;許慎《說文解字》10,516字(字頭+重文);晉呂忱《字林》(公元514年,已佚)12,824字;南朝顧野王《玉篇》(公元534年,殘)16,917字。
經過漢代前後的孳乳分化期,漢字基本處於穩定狀態,通用正字基本在六千左右。這裡包括了孳乳字,但不包括異體字。前說所謂孳乳字,雖從共同字源出發,但其某些義項是有分別的。如夌字為重要字源,淩、凌、陵從其分化。三字大多數用義,同為逾越、凌駕、侵犯。如言凌辱,亦可用淩辱、陵辱;欺凌亦可用欺淩、欺陵。但淩作水名、地名,凌作冰凌字,陵作丘阜義,如言陵谷、陵寢等,則不可互替。所以這類孳乳字應按正字計入。還有些孳乳字,義項全部相通,則可以歸入異體字。如
四字音義同,皆為卓之孳乳字。卓本高人義,如言卓越。後累增足作踔、累增走作趠、累增辵作逴,會意仍為高也、越也,如言踔蹈、逴邁、趠越。凡能高者必由腳腿蹬踏,故從彳、從走、從辵、從足無別。
所謂異體是指:與正字音義相同而字形稍異之字,古稱別字、別寫、重文。在先秦文字著述期產生了大量的異體字,主要原因有三:一是出版業尚未發達,文字流傳常是輾轉抄錄、甚至口口相傳,衍生出種種異寫、異體;二是敎學課本尚未普及,師生授受多為口授筆錄,衍生出種種異寫、異體;三是地域不同,受地方用字習慣的影響。所以字書裡通常儲存眾多的異體字。如《說文》叫、噭、嘂、訆、譥、㰾六字,分在口、言、㗊、攴、欠五個部首下,實際同為一字。但其中四字並見於先秦經傳,收於字書尚有實際意義。
後世字書收字越來越多,例如:
這些所謂字典,已經不是傳統的字書,而相當於字形庫。傳統的字書是文字書,而文字一是必須有獨立的音形義,以區別它字,否則為別字;二是必須合乎造字之理、合於六書,否則為俗字;三是必須見諸於典籍,有普遍的跨時代的通用性,否則為生造字。如果不考慮文字的這些標準,只要見過不同的字形便加以收錄,那就成了字形庫。設想如果收錄小學生語文作業本上的字形,可能超過千百萬,但這已脫離了文字的範疇。
漢以下至今,確實有一些新增字。按類別說,一是名物字,如葡萄、苜蓿、箜篌、琉璃、咖啡、佛陀之陀、菩薩之薩等,這些是外來物品輸入中國時新增的名物字;二是元素字,如錳、鉻、鈉、氟、氮、氧、砷、砈、碲等,系清末以來從西方輸入的化學元素字。這兩類新造文字數量約數百,一般遵循了漢字的造字之理(多為形聲),對應著新的客觀事物,承載了新的資訊,基本可以視為正字。而新增的方言類俗字,如粵語的冇、京話的甭、北音的孬等,這些不能視為正字。至於漢以下中國所經歷的分裂期,如魏晉南北朝、五代十國、宋遼金夏等,社會的動盪和割據導致大量別字、俗字、異體字產生,這些不應計入正字範圍。
所以,按上述標準計入新增字,漢字正字的總數量應不超過八千。而歷代典籍用字的常規數量,則遠遠少於這個數目。先秦典籍總字數約在一百五十萬,單字總量為八千餘。其中僅有一次用例的約有兩千個,兩次至四次的近兩千個,這其中大部分是俗體、或體即異體字。以後歷代各類著作所用不重複字數,也很少超過四千。思想深邃、道通天地的老子,其書所用單字只八百餘;辯才無礙且擅美文的孟子,其書用字只一千八百餘;才情恣肆、辭出滂沱的杜甫,其詩文集用字方才三千五百餘;權高如秦相呂不韋,集當朝群賢作大型文集《呂氏春秋》,用字才三千出頭;位高如淮南王劉安,傾一國美士所成文集《淮南子》,用字亦不過四千餘。
由此可知,即便通讀古籍,識習正字數量不至超過六千,其中常用字不到三千(佔用字量99%)。寫作需用正字,即便是專業作家,單品通常在一兩千字,畢生之作難逾三千。正確計算漢字的數量及個人用量,對於學生習字數量的劃定,是有意義的。《說文敎本》正課版敎授正字六千,課外版則為三千。實際學好三千正字,對99%的人已經夠用,額外三千,是修養、見識。愚意一般文科可學三千,而理工科應學六千。因為額外三千很多是名物字、是博物學,通曉天地萬物、器用造作,瞭解人類原始概念創制,對將來科研事業有用。