1.3 Base64编码_深入理解序列化与反序列化-QQ阅读中文短篇网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.3　Base64编码

在数据传输的场景中，如果都是英文字符，传输能正常进行；但如果出现非英文字符，如中文字符、日文字符、不可打印字符、多媒体文件等，则可能出现乱码。为了解决上述问题，Base64编码方案被提出。Base64编码基于8 bit分割，以可打印字符为最终体现形式完成对数据的编码。

1.3.1　编码规则

1）对原始数据按6 bit进行分割；如果当前所有bit长度不是6的整数倍，则有剩余bit。

2）对6 bit进行高位补齐2个0，凑成8 bit；在剩余bit前面补齐若干个0，凑成8 bit。

3）补齐后的每个字节称为索引，最大值为00111111（63），最小值为000000（0）。

4）根据索引表，将索引替换成目标字符。

1.3.2　解码规则

1）根据索引表，将字符替换成索引，每个索引为1个字节，对应8 bit。

2）将每个索引的前2个bit（值为00）去掉，剩余所有bit长度为N。

3）在小于等于N的范围内找到第一个最接近N且能被8整除的数M。

4）如果N和M相等，则说明编码之前的所有bit长度是6和8的公倍数，长度为N的所有bit按照8 bit切分即完成解码。

5）如果M＜N，说明编码之前的所有bit长度不是6的整数倍，需要对长度为N的bit序列的最后一个6 bit块进行如下处理：去掉高位（N-M）个bit，剩余的M个bit按照8 bit切分即完成解码。

1.3.3　索引表

表1-5显示了完整的Base64索引表。

表1-5　Base64索引表

索引表的最后两个索引默认是+和/字符；在URL编码时，需要用-（横杠）和_（下画线）替代。

1.3.4　编码与解码示例

· 编码示例1：bit长度是6的整数倍

表1-6给出了待编码数据的bit长度能被6整除情况下的编码过程。

表1-6　bit长度是6的整数倍

续表

· 编码示例2：bit长度不是6的整数倍

表1-7给出了待编码数据的bit长度不能被6整除情况下的编码过程。

表1-7　bit长度不是6的整数倍

· 解码示例：Base64编码值为abI

表1-8给出了Base64的解码过程。

表1-8　Base64的解码过程

1.3.5　Java应用示例

· Java 1.8 Base64

从Java 1.8开始，JDK包含了java.util.Base64，应用示例如下。

代码注释中的数字表示编码后的字节数，读者可自行验证。

· commons-codec

commons-codec编码后的字节长度是8，这是因为内部实现默认使用了字节对齐的特性。

针对上述两种实现，笔者做了性能对比，Java 1.8的Base64实现更高效，对比数据如表1-9所示。

表1-9　Base64编码性能对比

值得一提的是，JDK很早就提供了sun.misc包下的BASE64Encoder和BASE64Decoder，能满足Base64编码和解码的需求。但因为运行性能差，没有被开发人员广泛使用，这里不展开讨论。

1.3 Base64编码

1.3.1 编码规则

1.3.2 解码规则

1.3.3 索引表