当前博客:火山常见Unicode,ASCII,MBCS字节集详解

331 次浏览【转载需注明来源】

博客作者:【灰羊羊】

个性签名:增强知识,努力学习

火山常见Unicode,ASCII,MBCS字节集简介

本文作者:灰羊羊

一、前言

   1.火山上需要用到的字节集种类繁多,本文对字节集做一下简单的介绍

二、项目准备

   1.新建火山项目,用来调试即可

三、易语言文本

   1.易语言的文本默认转字节集是ASCII,其实严格来说,易语言文本字节集是ANSI,ANSI是在ASCII的基础上衍扩展生的一种编码,支持中文字符,而多字节字符集(MBCS)完全兼容 ANSI,多数情况下,我们并不严格区分他们,所以您可以理解为MBCS就是ANSI,也不为错。

四、火山文本

 

   1.火山的文本默认转字节集是Unicode,准确来说是UTF-16,在说UTF-16之前,我们先来了解一下unicode编码,上面说的ANSI,虽然能够支持中文,也可以支持其他国家字符,但是并不通用。简单举个例子,比如说您用ANSI编码(易语言)在中文系统上写的一个windows程序,放到日韩文系统的电脑上,就会出现乱码,出现这种现象的原因是每个国家都有一套自己的ANSI编码,设计时候不统一,不同国家之间编码不相同

   2.此时,世界上许多著名的公司一起开发了一套全球通用编码,unicode万国码,几乎支持世界上所有的通行文字,为互联网不同文字交流提供了便利,unicod字符对照表网站,unicode简单可以分为Utf-8,utf-16,utf-32,三种类型,相信utf-8,您并不陌生

   3.utf-8长度可以自由变化,用1到6个字节编码,正是因为utf-8长度可以变化1字节,所以,utf-8支持ascii,当然支持原始的ascii,不支持扩展后的ANSI,utf-8是在字符对照表的基础上,对字符使用编码器进行一步编码,比如说"火",u编码为U+706B,而utf-8编码为E7 81 AB,这是经过编码器编码后的结果

   4.utf-16长度固定为2或者4字节,常见的汉字,英文字母,以及其他文字,使用2字节编码,特殊的生僻字,使用4字节编码(不常见)火山文本转字节集默认为utf-16,utf-16和utf-8的区别在与使用范围,如果您使用英文字符,那么使用utf8要比utf16传输字节短,效率高,反之,使用中文字符,那么utf-16使用效率要高

   5.UTF-32不介绍了,占空间太多,用的很少

 

 


   5.USC2,USC4,它们是utf-16的子集,在utf-16使用两字节编码时候,等价于USC2,在utf-16使用四字节编码时候,等价于USC4

 

四、思维逻辑图

五、火山实践

六、附件下载

没例子,没附件

 

 

 

 

火山常见Unicode,ASCII,MBCS字节集详解