资讯详情

编码释疑

1. ASCII编码

2. ANSI编码

3.ISO/IEC 8859

4. Unicode

5. UTF-8编码

6. UTF-16编码

7. UTF-32编码

8. GB2312编码

9. GBK编码

10. BG18030

11. BIG5编码

12. URL编码

13. escape编码

14. BASE64编码

15. 其他小变种编码

16. 常见的散列、校验和加密算法

附记:

A. 字节顺序标记BOM

B. BIG5码冲码问题

C. 内码和交换码

D. 专门下载链接的编码规则

参考:


1. ASCII编码

【应用场景】

ASCII为"美国信息交换标准代码"缩写九个字,ASCII任何计算机都能识别出文件是一种简单的无格式文本文件,Windows可以阅读和创建记事本和任何文本处理程序ASCII文件。ASCII文件通常有扩展名称.TXT(例如README.TXT)

源/目的字符集

英文字符和英文字符和英文符号。

不能说中文符号和中文符号

编码规则

ASCII代码使用指定的7位或8位二进制数组合来表示128或256个可能的字符。ASCII码也叫基础ASCII代码,使用7位二进制数来表示所有的大写和小写字母,0到9,标点符号,以及在美国英语中使用的特殊控制字符。

后128个称为扩展ASCII码,目前很多基础x86系统支持扩展(或高)ASCII。扩展ASCII 允许每个字符的第8码 用于确定附加位置的128 特殊符号字符、外语字母和图形符号。 在法语、希伯来语、俄语编码中,对后128个扩展码的解释并不统一。

ASCII码表如下:

2进制 10进制 16进制 缩写/字符 解释
0000 0000 0 0 NUL(null) 空字符
0000 0001 1 1 SOH(start of headline) 标题开始
0000 0010 2 2 STX (start of text) 正文开始
0000 0011 3 3 ETX (end of text) 正文结束
0000 0100 4 4 EOT (end of transmission) 传输结束
0000 0101 5 5 ENQ (enquiry) 请求
0000 0110 6 6 ACK (acknowledge) 收到通知
0000 0111 7 7 BEL (bell) 响铃
0000 1000 8 8 BS (backspace) 退格
0000 1001 9 9 HT (horizontal tab) 水平制表符
0000 1010 10 0A LF (NL line feed, new line) 换行键
0000 1011 11 0B VT (vertical tab) 垂直制表符
0000 1100 12 0C FF (NP form feed, new page) 换页键
0000 1101 13 0D CR (carriage return) 回车键
0000 1110 14 0E SO (shift out) 不用切换
0000 1111 15 0F SI (shift in) 启用切换
0001 0000 16 10 DLE (data link escape) 数据链路转义
0001 0001 17 11 DC1 (device control 1) 设备控制1
0001 0010 18 12 DC2 (device control 2) 设备控制2
0001 0011 19 13 DC3 (device control 3) 设备控制3
0001 0100 20 14 DC4 (device control 4) 设备控制4
0001 0101 21 15 NAK (negative acknowledge) 拒绝接收
0001 0110 22 16 SYN (synchronous idle) 同步空闲
0001 0111 23 17 ETB (end of trans. block) 传输块结束
0001 1000 24 18 CAN (cancel) 取消
0001 1001 25 19 EM (end of medium) 介质中断
0001 1010 26 1A SUB (substitute) 替补
0001 1011 27 1B ESC (escape) 换码(溢出)
0001 1100 28 1C FS (file separator) 文件分割符
0001 1101 29 1D GS (group separator) 分组符
0001 1110 30 1E RS (record separator) 记录分离符
0001 1111 31 1F US (unit separator) 单元分隔符
0010 0000 32 20 (space) 空格
0010 0001 33 21 !
0010 0010 34 22 "
0010 0011 35 23 #
0010 0100 36 24 $
0010 0101 37 25 %
0010 0110 38 26 &
0010 0111 39 27 '
0010 1000 40 28 (
0010 1001 41 29 )
0010 1010 42 2A *
0010 1011 43 2B +
0010 1100 44 2C ,
0010 1101 45 2D -
0010 1110 46 2E .
101111 47 2F /
110000 48 30 0
110001 49 31 1
110010 50 32 2
110011 51 33 3
110100 52 34 4
110101 53 35 5
110110 54 36 6
110111 55 37 7
111000 56 38 8
111001 57 39 9
111010 58 3A :
111011 59 3B ;
111100 60 3C <
111101 61 3D =
111110 62 3E >
111111 63 3F ?
1000000 64 40 @
1000001 65 41 A
1000010 66 42 B
1000011 67 43 C
1000100 68 44 D
1000101 69 45 E
1000110 70 46 F
1000111 71 47 G
1001000 72 48 H
1001001 73 49 I
1001010 74 4A J
1001011 75 4B K
1001100 76 4C L
1001101 77 4D M
1001110 78 4E N
1001111 79 4F O
1010000 80 50 P
1010001 81 51 Q
1010010 82 52 R
1010011 83 53 S
1010100 84 54 T
1010101 85 55 U
1010110 86 56 V
1010111 87 57 W
1011000 88 58 X
1011001 89 59 Y
1011010 90 5A Z
1011011 91 5B [
1011100 92 5C \
1011101 93 5D ]
1011110 94 5E ^
1011111 95 5F _
1100000 96 60 `
1100001 97 61 a
1100010 98 62 b
1100011 99 63 c
1100100 100 64 d
1100101 101 65 e
1100110 102 66 f
1100111 103 67 g
1101000 104 68 h
1101001 105 69 i
1101010 106 6A j
1101011 107 6B k
1101100 108 6C l
1101101 109 6D m
1101110 110 6E n
1101111 111 6F o
1110000 112 70 p
1110001 113 71 q
1110010 114 72 r
1110011 115 73 s
1110100 116 74 t
1110101 117 75 u
1110110 118 76 v
1110111 119 77 w
1111000 120 78 x
1111001 121 79 y
1111010 122 7A z
1111011 123 7B {
1111100 124 7C |
1111101 125 7D }
1111110 126 7E ~
1111111 127 7F DEL (delete) 删除  

 

2. ANSI编码

【应用场景】

使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码。 不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中。 当然对于ANSI编码而言,0x00~0x7F之间的字符,依旧是1个字节代表1个字符。Windows下新建的记事本文件,默认就是以这种方式来保存的。

【源/目的字符集】

英文字符和英文符号使用1个字节表示(其最高位为0)

中文和中文符号,日文、韩文等使用2个字节表示(2个字节的最高位都为1)

【编码规则】

参见具体编码,如GB2312

EUC-JP用来储存日本JISX0208(旧称JIS C 6226)及JIS X 0212字集的字符。但是,日语文字较多使用ISO-2022-JP或Shift_JIS的方法来表示。

EUC-KR用来储存韩国KSX1001字集(旧称KSC5601)的字符。此规格由KSX2901(旧称KS C 5861)定义。

 

3. ISO/IEC 8859

【应用场景】

ISO 8859,全称ISO/IEC 8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8位字符集的标准,现时定义了15个字符集。ASCII收录了空格及94个“可印刷字符”,足以给英语使用。但是,其他使用拉丁字母的语言(主要是欧洲国家的语言),都有一定数量的附加符号字母,故可以使用ASCII及控制字符以外的区域来储存及表示。除了使用拉丁字母的语言外,使用西里尔字母的东欧语言、希腊语、泰语、现代阿拉伯语、希伯来语等,都可以使用这个形式来储存及表示。

【源/目的字符集】

英文字符和拉丁字符等使用1个字节表示

【编码规则】

       ISO/IEC 8859-1 (Latin-1) - 西欧语言   ISO/IEC 8859-2 (Latin-2) - 中欧语言   ISO/IEC 8859-3 (Latin-3) - 南欧语言。世界语也可用此字符集显示。   ISO/IEC 8859-4 (Latin-4) - 北欧语言   ISO/IEC 8859-5 (Cyrillic) - 斯拉夫语言   ISO/IEC 8859-6 (Arabic) - 阿拉伯语   ISO/IEC 8859-7 (Greek) - 希腊语   ISO/IEC 8859-8 (Hebrew) - 希伯来语(视觉顺序)   ISO 8859-8-I - 希伯来语(逻辑顺序)   ISO/IEC 8859-9 (Latin-5 或 Turkish) - 它把Latin-1的冰岛语字母换走,加入土耳其语字母。   ISO/IEC 8859-10 (Latin-6 或 Nordic) - 北日耳曼语支,用来代替Latin-4。   ISO/IEC 8859-11 (Thai) - 泰语,从泰国的 TIS620 标准字集演化而来。   ISO/IEC 8859-13 (Latin-7 或 Baltic Rim) - 波罗的语族   ISO/IEC 8859-14 (Latin-8 或 Celtic) - 凯尔特语族   ISO/IEC 8859-15 (Latin-9) - 西欧语言,加入Latin-1欠缺的芬兰语字母和大写法语重音字母,以及欧元(?符号。   ISO/IEC 8859-16 (Latin-10) - 东南欧语言。主要供罗马尼亚语使用,并加入欧元符号。

 

4. Unicode

【应用场景】

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。

【源/目的字符集】

用数字0-0x10FFFF来映射所有国家的字符

Latin-1是Unicode的子集

【编码规则】

 

Unicode用数字0-0x10FFFF来映射所有国家的字符,最多可以容纳1114112个字符,或者说有1114112个码位。

国际标准 ISO 10646 定义了 通用字符集 (Universal Character Set,UCS). UCS 定义了一个 31 位的字符集(4个字节,最高字节的最高位为0),是所有其他字符集标准的一个超集。 UCS 不仅给每个字符分配一个代码,而且赋予了一个正式的名字. 表示一个 UCS 或 Unicode 值的十六进制数,通常在前面加上 "U+",就象 U+0041 代表字符"拉丁大写字母A". UCS 字符 U+0000 到 U+007F 与 US-ASCⅡ(ISO 646) 是一致的。

UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面(plane)。每个平面根据第3个字节分为256行 (row),每行有256个码位(cell)。其中,group 0的平面0被称作基本多文种平面BMP(Basic Multilingual Plane)。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。从另一个角度,BMP,或称第零平面(Plane 0),是Unicode中的一个编码区段。编码从U+0000至U+FFFF。

Unicode的范围全部位于group=0的组,Unicode计划使用了17个平面,一共有17*65536=1114112个码位。在Unicode 5.0.0版本中,已定义的码位只有238605个,分布在平面0、平面1、平面2、平面14、平面15、平面16。平面2的43253个字符都是汉字。平面0上定义了27973个汉字。

Unicode的实现形式可以为UTF-8等,比如:在Unicode中:汉字“字”对应的数字是23383。我们有很多方式将数字23383表示成程序中的数据,包括:UTF-8、UTF-16、UTF-32。这些可以参见具体的编码。

 

5. UTF-8编码

 

【应用场景】

UTF-8是UNICODE的一种变长字符编码又称万国码,现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如日文,韩文)

Unicode是一种编码方式,它规定了每个字符对应的编码数字(4个字节),但是没有规定具体的存储方式。 而UTF-8则是最重要的实现方式之一,它使用了变长的方式来存储,从而相比于每个字符都固定存储4个字节会大大节省存储空间。

【源/目的字符集】

(英文和英文符号)实际表示ASCII字符的UNICODE字符,将会编码成1个字节,并且UTF-8表示与ASCII字符表示是一样的。

(中文)如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。具体如下:

占2个字节的:〇 占3个字节的:基本等同于GBK,含21000多个汉字 占4个字节的:中日韩超大字符集里面的汉字,有5万多个

ASCII码是UTF-8的子集。

【编码规则】

UTF-8 是字节顺序无关的。它的字节顺序在所有系统中都是一样的,因此它实际上并不需要BOM(见附录)。

最高位为0,表示该字节就是1个独立的字符,所以和ASCII码是兼容的。 最为高位为1,表示它是多个字节组成的字符中的一个字节。该字符总共有多少个字节,第1个字节就有多少个1,然后跟个0;第2个和之后的字节均为10开头。参见下面的转换表的举例。

UTF-8转换表如下:

 

bit数 byte数 备注
0000 0000 ~  0000 007F 0~7 XXX XXXX 1
0000 0080 ~  0000 07FF 8~11 X XXXX XX XXXX 2
0000 0800 ~  0000 FFFF 12~16  XXXX XX XXXX XX XXXX 3 基本定义范围:0~FFFF
0001 0000 ~  001F FFFF 17~21 XXX XX XXXX XX XXXX XX XXXX 4 Unicode6.1定义范围:0~10 FFFF
0020 0000 ~  03FF FFFF 22~26 XX XX XXXX XX XXXX XX XXXX XX XXXX 5
0400 0000 ~  7FFF FFFF 27~31 XX XXXX XX XXXX XX XXXX XX XXXX XX XXXX 6

 

6. UTF-16编码

 

 

【应用场景】

UTF-16是Unicode的其中一个使用方式。UTF-16比起UTF-8,好处在于大部分字符都以固定长度的字节 (2字节) 储存,但UTF-16却无法兼容于ASCII编码。

【源/目的字符集】

英文,常用汉字均编码为2个字节;不常用汉字被编码为4个字节

与ASCII码不兼容;UCS-2是UTF-16的子集

【编码规则】

在Unicode的BMP定义的字符(无论是拉丁字母、汉字或其他文字或符号),一律使用2字节储存。而在辅助平面定义的字符,会以代理对(surrogate pair)的形式,以两个2字节的值来储存。所以,UTF-16可看成是UCS-2的父集。

 

 

7. UTF-32编码

 

【应用场景】

UTF-32对每个字符都使用4字节,使得UTF-32通常会是其它编码的二到四倍,它并不如其它Unicode编码使用得广泛。

【源/目的字符集】

所有字符(包括英文,汉字等)均编码为4个字节

与ASCII码不兼容;和UCS-4等同

【编码规则】

      原本ISO 10646标准定义了一个32位元的编码形式,称作UCS-4,使用通用字符集(UCS)的每一个字符,会在0到十六进制的7FFFFFFF这样的字码空间中,被表示成一个的32位元的码值。   UCS-4足以用来表示所有的Unicode的字码空间,其最大的码位为十六进制的10FFFF,所以其空间约有百万个码位。有些人认为保留如此大的字码空间却只为了对应这很小的码集是浪费的。所以一个新的编码UTF-32被提出来了。UTF-32 是一个 UCS-4 的子集,使用32-位元的码值,只在0到10FFFF的字码空间。   UTF-32 原本是 UCS-4 的子集,但JTC1/SC2/WG2声明,所有未来对字符的指定都将会限制在BMP及其14个补充平面,并移除先前在 E0 到 FF 平面的 60 到 7F 群的私用空间。   于是就现状而言,除了 UTF-32 标准包含额外的 Unicode 意涵,UCS-4 和 UTF-32 大体是相同的。

 

8. GB2312编码

 

【应用场景】

GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。EUC-CN是GB2312最常用的表示方法。浏览器编码表上的“GB2312”,通常都是指“EUC-CN”表示法。

【源/目的字符集】

每个英文或英文符号使用1个字节表示(最高位为0)

每个汉字使用2个字节表示(2个字节的最高位都为1)

ASCII码是GB2312码的子集

【编码规则】

GB 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”(也称“区字节)”,第二个字节称为“低位字节”(也称“位字节”)。

 

每个汉字及符号以两个字节来表示,“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上 0xA0)。把换算成十六进制的区位码加上2020H,就得到国标码。国标码加上8080H,就得到常用的计算机机内码。

01-09区为特殊符号。 16-55区为一级汉字,按拼音排序。 56-87区为二级汉字,按部首/笔画排序。

码表参见:http://www.knowsky.com/resource/gb2312tbl.htm

 

 

9. GBK编码

 

【应用场景】

GBK是汉字编码标准之一,全称《汉字内码扩展规范》(GBK即“国标”、“扩展”汉语拼音的第一个字母,英文名称:Chinese Internal Code Specification) ,中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,国家技术监督局标准化司、电子工业部科技与质量监督司1995年12月15日联合以技监标函1995 229号文件的形式,将它确定为技术规范指导性文件。

【源/目的字符集】

 

每个英文或英文符号使用1个字节表示(最高位为0)

每个汉字使用2个字节表示(2个字节的最高位均为1)

GB2312码是GBK码的子集

【编码规则】

GBK 采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。

  全部编码分为三大部分:   1. 汉字区。包括:   a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个,按原顺序排列。   b. GB 13000.1 扩充汉字区。包括:   (1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。   (2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前,按 UCS 代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。   2. 图形符号区。包括:   a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符号外,还有 10 个小写罗马数字和 GB 12345 增补的符号。计符号 717 个。   b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“○”排列在此区。计符号 166 个。   3. 用户自定义区:分为(1)(2)(3)三个小区。   (1) AAA1-AFFE,码位 564 个。   (2) F8A1-FEFE,码位 658 个。   (3) A140-A7A0,码位 672 个。   第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。

注:CJK指中日韩统一表意文字,目的是要把分别来自中文、日文、韩文、越文中,本质、意义相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。CJK 是中文(Chinese)、日文(Japanese)、韩文(Korean)三国文字的缩写。顾名思义,它能够支持这三种文字。实际上,CJK 能够支持在 LaTeX 中使用包括中文、日文、韩文在内的多种亚洲双字节文字。

 

10. BG18030

 

【应用场景】

国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。

【源/目的字符集】

 

每个英文或英文符号使用1个字节表示

每个汉字使用2个字节表示

GBK码是GB18030-2000的子集

GB18030-2000是GB18030-2005的子集

【编码规则】

目前,GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。2000年发布的GB18030-2000,全名是《信息技术 汉字编码字符集 基本集的扩充》。GB18030-2000仅规定了常用非汉字符号和27533个汉字(包括部首、部件等)的编码。GB18030-2000是全文强制性标准,市场上销售的产品必须符合。2005年发布的GB18030-2005在GB18030-2000的基础上增加了42711个汉字和多种我国少数民族文字的编码,增加的这些内容是推荐性的。

BG18030标准采用单字节、双字节和四字节三种方式对字符编码。

如下表所示,GB18030-2000收录了27533个汉字,双字节部分的6763+6080+8160=21003个汉字就是GBK的21003个汉字:

 

类别 码位范围 码位数 字符数 字符类型
双字节部分 第一字节 0xB0-0xF7  6768 6763 汉字
第二字节 0xA1-0xFE
第一字节0x81-0xA0  6080 6080 汉字
第二字节0x40-0xFE
第一字节0xAA-0xFE  8160 8160 汉字
第二字节0x40-0xA0
四字节部分 第一字节0x81-0xFE  6530 6530 CJK统一汉字扩充A
第二字节0x30-0x39 
第三字节0x81-0xFE 
第四字节0x30-0x39

 

如下表所示,GB18030-2005收录了70244个汉字:

 

 

类别 码位范围 码位数 字符数 字符类型
双字节部分 第一字节 0xB0-0xF7  6768 6763 汉字
第二字节 0xA1-0xFE
第一字节0x81-0xA0  6080 6080 汉字
第二字节0x40-0xFE
第一字节0xAA-0xFE  8160 8160 汉字
第二字节0x40-0xA0
四字节部分 第一字节0x81-0x82  6530 6530 CJK统一汉字扩充A
第二字节0x30-0x39 
第三字节0x81-0xFE 
第四字节0x30-0x39
第一字节0x95-0x98  42711 42711 CJK统一汉字扩充B
第二字节0x30-0x39 
第三字节0x81-0xFE 
第四字节0x30-0x39

 

11. BIG5编码

 

【应用场景】

BIG-5码是通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码”,Big5虽普及于中国的台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家标准,而只是业界标准(de facto standard)。2003年,Big5被收录到台湾官方标准的附录当中,取得了较正式的地位。这个最新版本被称为Big5-2003。

由于各厂商及政府推出的Big5延伸,彼此互不兼容,造成乱码问题。鉴于Unicode能正确地处理七万多个汉字,近年的操作系统和应用程式(如苹果电脑 Mac OS X 和以 Cocoa API 撰写之程式、Microsoft Windows 2000及之后版本、Microsoft Office 2000及之后版本、Mozilla浏  BIG-5览器、Internet Explorer浏览器、Java 语言等等),已改用Unicode编码。

【源/目的字符集】

英文和繁体汉字均被表示为2个字节

与ASCII码不兼容,也与GB2312码不兼容

【编码规则】

大五码普遍被认为包含13,053字,但在计算0xA259-0xA261的度量衡单位用字 (兙兛兞兝兡兣嗧瓩糎) ,再减去重收了两次的“兀”(0xC94A)和“嗀”(0xDDFC)后,应为13,060字。

Big5属中文内码(中文码分为中文内码及中文交换码两类)。

Big5码是一套双字节字符集,使用了双八码储存方法,以两个字节来  BIG-5安放一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。“高位字节”使用了0x81-0xFE,“低位字节”使用了0x40-0x7E,及0xA1-0xFE。在Big5的分区中:

  0x8140-0xA0FE 保留给使用者自定义字符(造字区)   0xA140-0xA3BF 标点符号、希腊字母及特殊符号,包括在0xA259-0xA261,安放了双音节度量衡单位用字:兙兛兞兝兡兣嗧瓩糎。   0xA3C0-0xA3FE 保留。此区没有开放作造字区用。   0xA440-0xC67E 常用汉字,先按笔划再按部首排序。   0xC6A1-0xC8FE 保留给使用者自定义字符(造字区)   0xC940-0xF9D5 次常用汉字,亦是先按笔划再按部首排序。   0xF9D6-0xFEFE 保留给使用者自定义字符(造字区)

 

12. URL编码

【应用场景】

url编码是一种浏览器用来打包表单输入的格式,一般常见于浏览器地址栏目中。

【源/目的字符集】

源字符集可以为任何可见或者不可见(控制字符,如回车,退格)的中英文字符和符号,主要应用于以

标签: m048dc2继电器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台