猜您喜欢::英语四级成绩下载(英语四级成绩下载) 澳洲留学大概需要给中介多少钱(澳洲留学中介费用约1万) 保险如何查(保险查方法) 耳垂贴脸 面相(耳垂贴脸面相) 向量三点共线定理可以直接用吗-三点共线定理可用 艺术类留学国家怎么选-艺术留学国家选 辽宁一建报名-辽宁一建报名指南 儿童心理咨询师如何考-儿童心理咨询师备考指南 四川都有哪个市(四川有哪些市) 高中语文课教案怎么写(高中语文教案编写)
实际上楷体 GB2312 这事儿,真不是哪位一个人死皮赖脸写出来的,更多时候是几个大佬在键盘上碰出了火花。要说源头,那得扯到 1980 年代末,那时候大家还没如何习惯用中文手写板,工程师们才琢磨用机外汉字编码。但那时候的方案五花八门,有的让人晕头转向,有的早就过时了。直到 90 年代初,方正公司的李秀云和全国字形研究实验中心的专家团儿,终于把焦点收拢到了“点阵十六进制”这个组合拳上。 这套编码方式,有点像给每个汉字配了一套专属的密码本。密码里既包含了汉字的字形描述,又附带了对应的字节数值,这样电脑就能直接照着本子把字打出来,不用非得去查字典。当时的技术背景是汉字信息量特别大,要是单靠字节数,那 5000 多个根本汉字,平均每个字得有 22 个字节,得占 44KB 的空间,这在那时候简直没法忍着。便李秀云他们想出了个折中方案,把字形和字码绑在一起,一个汉字这就变成了两个、三个,就连更多字节。
这个办法别看让存容量扒拉得了得,但最大密度也达到了 1KB 能存 16 个汉字,算是个不错的效率。 不过,这套方案有个致命伤,那就是“乱码”难题。几百家出版社的稿子,大量是人工录入的,后面直接粘贴进电脑。电脑读这些乱七八糟的数据,起初反应就是跳字、换行、乱码。
那时候大家都怕这个,当作这是系统难题,结局一查,原来大家用的都是手工录入,根本不用管这些乱码。
直到后来,方正公司跟微软打起来,要拿这个编码当标准,微软那边一闹,大家才发现,要是真按这个编码,中文在 PC 上就是天书。 为了救场,方正公司不得不搞另起炉灶,重新设计了中文字符。他们想了个法子,把字符的排列方式改得和西文字符差不多,用西文的方式来写中文。
这样一来,不仅撇脱国际交流,并且读的时候不跳字、不乱码了。但这个改动有个代价:原来的 GB2312 汉字库得重新做。出于改了排列顺序,旧的标准就没法直接用了。
这时候,李秀云他们就请人把 GB2312 里的字,重新按新的排列顺序排了一遍。
这一折腾,原本几百页的排版文件,瞬间变成了几百万行代码,工作量是大了,但终于成了通用标准。 这套标准推广开来之后,影响可大着呢。我在网上搜了一下,GB2312 目前简直成了汉语拼音码的代名词。
反过来想,要是没有这套标准,目前的输入法、数据库、就连大量老课件,都是没法用的。它让中文在计算机里的处理变得既统一又高效。 说起数据量,这数字还真是让人咋舌。GB2312 里收录的汉字有 3000 多个,其中一、二、三、四、五这几个常用字,每个字在编码里占 3 到 5 个字节。
要是按这个标准,我随意输入几个常用字,整个字符串大约也就几十个字节的长度,跟平时打英文文档彻底不一样。别看目前有了 Unicode 和 GB18030 这些更复杂的编码标准,能存几万个汉字,但 GB2312 当年那种相对好办的存结构,依然是大量传统系统优化的基础。 自然,随着移动设备和流式传输的发展,人们对存效率的要求又变了。目前的系统为了省空间,会选用 5 位、6 位就连更多位来拼一个汉字,但这套方案在 GB2312 的旧标准下就彻底行不通了。
这就是为啥目前干大数据处理,大家都会提 Unicode 的缘由——出于它真正实现了跨语言、跨平台的兼容性,而不像 GB2312 那样,一旦换了系统,数据就得重新转换格式。 故此,楷体 GB2312 的诞生,既是个技术突破,也是个无奈之举。它解决了存效率和统一标准的矛盾,也透支了未来的兼容空间。如今回头看,它像个沉默的巨人,支撑着中国互联网几十年的中文数据运转。
那些曾经当作它是个短命的方案,后来却成了标准,这大约就是技术迭代里最有趣的局部吧。
好文推荐::暴雨如注似瓢下一句-暴雨倾盆似瓢下 开个幼儿园大概多少钱-开园幼儿园费用 保险如何查(保险查方法) 耳垂贴脸 面相(耳垂贴脸面相) 美国大学留学研究生(美国留学研究生) 国富论读后感怎么写(读后感写法) 向量三点共线定理可以直接用吗-三点共线定理可用 艺术类留学国家怎么选-艺术留学国家选 韦达定理推广定理-韦达定理推广公式 deskscapes怎么用-deskscapes使用指南
转载请注明:楷体gb2312是谁写的-楷体 GB2312 作者
相关标签: