1汉字
不等同于象形文字
常有人说汉字是一种“象形文字”。其实,这种说法是错的,汉字是一种“语素——音节文字”。象形只是汉字众多造字方法中的一种。
李大遂在统计了《汉字等级大纲》中列举2906个现代常用汉字后,指出其中的象形字只有不到7%。在非常用汉字中,象形字所占比例更远远小于这个数值。即使上推到最古老的甲骨文里面中,象形字所占比例也连一半到不了。
经李大遂统计,HSK(中国汉语等级考试)《汉字等级大纲》所收常用汉字中,象形字占比不足7%。图片来自李大遂《简明实用汉字学(第3版)》
经刘志基统计,甲骨文中象形字所占比例约为43.53%,到了西周金文里,这个比例更是迅速下降到了不到10%,而形声字则迅速成为了汉字的主流。
2 汉字一共有多少个?
收字最多的辞书里
是85568个
汉字的数量是随着历史发展而增加的。
早稻田大学图书馆藏扬州使院刻本《集韵》书影。你在上面找到了多少不认识的字?
从历代辞书中,我们可以大致看出汉字数量逐渐增长的趋势。李宗焜所编《甲骨文字编》中收录的已发现的甲骨文单字字头共有4378个。到了东汉,许慎所编《说文解字》的自叙称该书收了9353个不同的字。再到北宋的《广韵》,收字的数量已经爆炸到了26194个。而清人编著的《康熙字典》,收字量更是达到了47035个。目前收字最多的辞书是现代学者编写的《中华字海》,其中收录的汉字字头数(包括日韩汉字)是85568个。这应当已经接近甚至超越了历史中存在过的汉字数量的上限。
3 所有的汉字
电脑都认识?
并不是
这么多汉字,并非每一个都可以在你的电脑上显示出来。比如一般中文字体使用的GB2312标准简体中文字符集就只包括6763个字。这相对汉字的实际数量而言太少了,于是后来又出台了许多扩展包。目前国际通用的“中日韩越统一表意文字编码系统”,共收录汉字、日韩越汉字、民族文字共计80388个。当前大部分的电脑、网页都能兼容这些文字。虽然从方便学术研究的角度看,这个字库还有着进一步完善的空间,但是对一般人来说,这个库已经大得惊人了。
中日韩统一表意文字字库的一部分。图片截取自unicode-table.com 。
4 最常见的汉字有5200个
然而你也不一定都认识
虽然汉字一共有八万多个,但是大部分都是没什么人用的死字。裘锡圭认为,每个时期常用的汉字虽然不尽相同,但是总数都是四五千个。经陈明远统计,现代最常见的5200个汉字可以涵盖一般书刊内容的99.99%。别忙着高兴,即使把范围缩小到5200个字,也已经超过中国人的平均识字量了。
5 谁是最爱造字的皇帝?
大名鼎鼎武媚娘
汉字变得越来越多,那一定是因为有人造字。皇帝就是一类特别爱好造字的人。皇帝爱造字,最常见的一个理由是方便避讳。比如三国时期东吴的第三个皇帝孙休就曾经为他的四个儿子造了八个他自以为前无古人,所以不会让民间觉得避讳麻烦的字。
《三国志》上记载孙休造字部分的书影。明汲古阁《十七史》本。
孙休所造的八个字。图片截取自郑张尚芳《有历史记录的造字者的身份和动机》一文。
其实,最会造字的皇帝是的大名鼎鼎的武媚娘。她执政时不仅为9个常见字制造了全新的字形,还强制要求推广另外的8个常用字的罕见的古老异体。经她这么一折腾“天”、“地”、“日”、“月”、“星”等一些常见字都变得面目全非了。
媚娘造的字:
使用武则天新字书写的武则天《升仙太子碑》拓片。本段碑文内容为:“大周天册金轮圣神皇帝御制御书:朕闻天地权舆,混元黄于元气;阴阳草……”其中“天”、“圣”、“地”等字和通行字体差别很大,比如“地”就写作“埊”形。图片来自中国国家博物馆网站(http://www.chnmuseum.cn/)。
6“回”字有4种写法?
实际上超过30种
一个汉字有时会有不同写法,其中一种规范写法叫“规范汉字”,多出来的写法都叫错别字异体字。汉字系统中异体字的数量相当庞大。台湾省“教育部”所编《异体字字典》收录了正字29892个,收录的异体字却达76338个,平均其中的每一个汉字都有大约2.6个异体字,还总有学者批评它不全。越是常用字,人们脑洞开得越大,异体字也就越多。“回”这样常用的字,实际存在的异体写法超过三十种,孔乙己是说少了。
“回”字的部分异体写法。图片截自台湾《异体字字典》查询系统(dict2.variants.moe.edu.tw )。
7 化学用字中出的叛徒
——甾
让我们回忆一下化学课的知识,回想一下化学专有名词有什么特点。氢、氦、锂、铍、硼;炔、烯、烷、醇、醛……发现了吗,它们几乎全是形声字。但是,标准化学用字中却有一个象形字:甾。
元素周期表上全都是形声字。图片来自news.6park.com ,特此感谢。
这个字读[zāi],在古代常作“灾”的异体字,现代化学借它表示包括了类固醇类有机物。这个字象类固醇分子式之形,其中“田”代表了甾环的四个环,上面的三折则指代了甾环外的侧链。许多常见激素都属于甾体类物质。
下一次青春的荷尔蒙让你躁动不安时,请一定要回忆一下今天看到的这个字。
地塞米松的分子式。与许多常见的性激素和胆固醇一样,地塞米松也是一种甾体类有机物。图片来自维基百科。
8 虽然你还单身
但是汉字却会玩合体
每年过年的时候,你或许会看到有人张贴类似于这样的“招财进宝”、“黄金万两”。
“招财进宝”的合文。图片来自维基百科。
这些把很多个汉字中存在的构件强行拼合在一起,组成一个类似于方块字的集合的玩法,在文字学上叫作“合文”,也叫“合书”或“重构字”。我们说过,汉字是语素音节文字。这种合文不指向单一语素,读出来包括一排音节,所以它们不是一般意义上的汉字,而是以汉字字形为基础进行的一种文字游戏。
用合文写的对联,你能认的出多少?图片来自《中国楹联报》2015年3月15日第三版
也不是没有人想过要把它变成汉字。在敦煌俗文字里面,就经常有(懒)人从组成一个词的几个字中分别拿出一部分拼出一个新字,借此代表整个词。十九世纪以后,曾有人制造了类似于“瓩”、“兛”、“粴”一类的表示千瓦、千克、千米等常用单位的计量用汉字,并将其像正常汉字一样使用。民国时,北平研究所的字体研究会甚至想把“石油”、“方案”等词全部做成合文,把汉字从语素音节文字变成词文字。然而这些尝试缺乏社会基础,均已遭到淘汰。