在序列化技术中,除了java提供的序列化,还有很多其他的序列化技术。对于java而已,java序列化是由java语言自带的,使用比较方便简单。但是相对于优势,缺点也是很明显的,首先就是不支持跨语言扩展、性能相对不是很好、序列化以后产生的数据相对会比较大。
然后除了java自带的序列化,还有以下的一些序列化技术。
1.xml序列化框架
xml的好处在于可读性好,方便阅读还有调试。但是序列化以后,字节码文件比较大,而且效率不高,适用对性能要求不高,而且QPS较低的企业级内部之间的数据交换的场景,同时xml又具有语言无关性,所以还可以适用于异构系统之间的数据交换协议。比如webService,就是采用xml格式对数据进行序列化的。
代码实现如下:
导入依赖
<!--xml序列化-->
<dependency>
<groupId>com.thoughtworks.xstream</groupId>
<artifactId>xstream</artifactId>
<version>1.4.10</version>
</dependency>
实现序列化和反序列化的类
public class ZmlSerializer implements ISerializer {
XStream xStream=new XStream(new DomDriver());
@Override
public <T> byte[] serializer(T obj) {
return xStream.toXML(obj).getBytes();
}
@Override
public <T> T deSerializer(byte[] data, Class<T> clazz) {
return (T) xStream.fromXML(new String(data));
}
}
测试类:
public static void main(String[] args) {
User user = new User("s",12);
ISerializer xmlSerializer = (ISerializer) new ZmlSerializer();
byte[] serializer = xmlSerializer.serializer(user);
System.out.println(new String(serializer));
User user1 = xmlSerializer.deSerializer(serializer, User.class);
System.out.println(user1);
}
2.JSON序列化框架
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,相对于XML 来说,JSON 的字节流更小,而且可读性也非常好。现在JSON数据格式在企业运用是最普遍的,就是将数据对象转换成json对象。
JSON 序列化常用的开源工具有很多
- Jackson (https://github.com/FasterXML/jackson)
- 阿里开源的FastJson (https://github.com/alibaba/fastjon)
- Google 的GSON (https://github.com/google/gson)
这几种json 序列化工具中,Jackson 与fastjson 要比GSON 的性能要好,但是Jackson、GSON 的稳定性要比Fastjson 好。而fastjson 的优势在于提供的api 非常容易使用。
3.Hessian 序列化框架
Hessian 是一个支持跨语言传输的二进制序列化协议,相对于Java 默认的序列化机制来说,Hessian 具有更好的性能和易用性,而且支持多种不同的语言实际上Dubbo 采用的就是Hessian 序列化来实现,只不过Dubbo 对Hessian 进行了重构,性能更高。
这是一种支持动态类型、跨语言、基于对象传输的网络协议。JAVA对象序列化的二进制流是可以被其他语言反序列化的。hessian协议具有如下特性:
1.自描述序列化类型,不依赖外部描述符或接口定义,用一个字节表示常用的基础类型,极大缩短二进制流。
2.跟语言无关,支持脚本语言
3.协议比较简单,比java原生的要高效很多。在hessian2.0进行升级后,新增了一个压缩编码,而序列化的二进制流是java序列化的50%,耗时是java序列化的30,而反序列化是其20%。
hessian序列化会把复杂对象所有熟悉存在一个map中,进行序列化。所以在父类、子类存在同名变量的情况下,hessian序列化时,先序列化子类,再序列化父类,因此序列化的结果会导致子类同名变量被父类的覆盖。
4.Protobuf 序列化框架(重点,一般接触比较少)
1.独立语言,独立平台。不同语言有不同的序列化方式。
2.Protobuf是一个基于表示层的协议,可以跟各种协议一起使用。
3.空间开销,性能,解析性能都要好。
缺点:
实现比较麻烦,有独立的编译器,要考虑学习的成本。
https://github.com/google/protobuf/releases 找到 protoc-3.5.1-win32.zip
看看怎么实现以及语法:
syntax="proto2";
package com.zxy.serial;
option java_package = "com.zxy.serial";
option java_outer_classname="UserProtos";
message User {
required string name=1;
required int32 age=2;
}
proto 的语法
- 包名
- option 选项
- 消息模型(消息对象、字段(字段修饰符-required/optional/repeated)
字段类型(基本数据类型、枚举、消息对象)、字段名、标识号)
生成实体类
在protoc.exe 安装目录下执行如下命令
.\protoc.exe --java_out=./ ./user.proto
运行查看结果
将生成以后的UserProto.java 拷贝到项目中
Protobuf 原理分析
核心原理: protobuf 使用varint(zigzag)作为编码方式, 使用T-LV
作为存储方式.
技术层面
- 序列化空间开销,也就是序列化产生的结果大小,这个影响到传输的性能
- 序列化过程中消耗的时长,序列化消耗时间过长影响到业务的响应时间
- 序列化协议是否支持跨平台,跨语言。因为现在的架构更加灵活,如果存在异构系统通信需求,那么这个是必须要考虑的
- 可扩展性/兼容性,在实际业务开发中,系统往往需要随着需求的快速迭代来实现快速更新,这就要求我们采用的序列化协议基于良好.的可扩展性/兼容性,比如在现有的序列化数据结构中新增一个业务字段,不会影响到现有的服务
- 技术的流行程度,越流行的技术意味着使用的公司多,那么很多坑都已经淌过并且得到了解决,技术解决方案也相对成熟
- 学习难度和易用性.
选型建议
- 对性能要求不高的场景,可以采用基于XML 的SOAP 协议
- 对性能和间接性有比较高要求的场景,那么Hessian、Protobuf、Thrift、
Avro 都可以。 - 基于前后端分离,或者独立的对外的api 服务,选用JSON 是比较好的,对于调试、可读性都很不错
- Avro 设计理念偏于动态类型语言,那么这类的场景使用Avro 是可以的.