|
|

楼主 |
发表于 2025-12-15 20:00
|
显示全部楼层
汉字在计算机中以“编码”形式存储,分为不同的字符集。早期,普遍使用GB2312编码,这是1981年5月1日实施的简体中文汉字编码国家标准,收录7445个图形字符,纯汉字6763个;1995年年底开始推出新的 GBK 标准,收录13053个中文字,后续BGK版本增加到13060个汉字;2000年3月中旬后国家发布新的GB18030编码,在GBK基础上做了扩充,最后版本将汉字数量扩充到九万七千余字。
而国际Unicode编码的任务是为世界上所有的语言文字的每一个字符进行编码,目前收录的文字超过100万个字符,其中已经包含的汉字数量超过27000个。我手头有一个Unicode+拼音的文本,实际上已经有4万多个汉字,但里面有很多不是纯汉字(例如日语汉字、朝鲜语汉字、越南语汉字等等),纯汉字有三万多接近四万,将不能在Windows 10、11下正常显示的删掉,仍然有三万多,已经算是可观了。
至于输入法能不能打出某个字,实际上与输入法集成的码表有关,它不收录该字,就无从打出;另外也跟操作系统有关,操作系统字库或字体若不支持Unicode编码,打出来也是乱码。
还有,输入法为了提升运行速度,通过不会默认使用大字符集,可以取看看设置有没有相关设置选项。 |
|