一、Define
dex是Android平台上(Dalvik虚拟机)的可执行文件,是Dalvik虚拟机编译java文件生成的.class文件整合生成.dex。
.Class文件是以class为区域进行划分的,每个区域包含这个class所有的方法、变量、常量等。而Dex文件以类型进行划分,将同一种类型的元素集中到一起存放,减小了冗余信息,最大程度上利用了空间。
在5.0之前的设备上,第一次打开应用时会执行dexopt,生成.odex
文件,以后每次都直接加载优化过后的.odex
文件;在5.0及以后,ART虚拟机会进行dex2oat进行优化----dex字节码编译成.oat
。
二、Explanation
1.Dex文件结构
我们可以使用 dx –dex –output=xxxx.dex xxxx.class命令将.class文件转换为.dex。
-
example:
public class Dex { public static void main(String[] args) { System.out.println("Hello Dex"); } }
这个java类的dex文件如下:
vim命令模式下输入 :%!xxd 命令可以转化16进制的表示方式
Dex文件的结构如下:
Dex文件主要分为3部分:文件头、索引区、数据区。数据结构如下:
struct DexFile {
DexHeader Header;
DexStringId StringIds[stringIdsSize];
DexTypeId TypeIds[typeIdsSize];
DexProtoId ProtoIds[protoIdsSize];
DexFieldId FieldIds[fieldIdsSize];
DexMethodId MethodIds[methodIdsSize];
DexClassDef ClassDefs[classDefsSize];
DexData Data[];
DexLink LinkData;
};
-
文件头记录了dex文件的一些基本信息, 以及大致的数据分布. dex文件头部总长度是固定的0x70。其中包含了内容校验、签名校验、数据数量及偏移量等内容。
ubyte 8-bit unsinged int uint 32-bit unsigned int, little-endian; alignment: 4 bytes struct header_item { ubyte[8] magic; //魔术,用来识别.dex文件,绝大多数的.dex文件值为dex\n035\0 unit checksum; //除magic和checksum外所有字节的adler32值,用于检测文件的完整性 ubyte[20] siganature; //除magic、checksum、signature外所有字节的SHA-1值,用于唯一的标识文件 uint file_size; //文件大小,即 0x2dc = 732字节,和我们在电脑上看的大小一致 uint header_size; //header_item的大小,固定为0x70也就是112字节 unit endian_tag; //大小端标记,dex固定为 78563412 = 0x12345678,即小端序 uint link_size; //保留字段,链接部分的大小,如果此文件没有静态链接,则为0 uint link_off; //保留字段,并没有用到,值为0 uint map_off; //必定为非0值,map_item 的偏移地址,详细看下面的介绍。 uint string_ids_size; //string的数量,可以为0 uint string_ids_off; //string_ids列表的位置,可以为0 uint type_ids_size; //type的数量,可以为0,最大值为65535 uint type_ids_off; //type_ids列表的位置,可以为0 uint proto_ids_size; //proto_type的数量,最大值为65535 uint proto_ids_off; //proto_ids列表的位置,可以为0 uint method_ids_size; //method的数量,可以为0 uint method_ids_off; //method_ids列表的位置,可以为0 uint class_defs_size; //类定义(class definitions)的数量,可以为0 uint class_defs_off; //类定义列表的位置 uint data_size; //数据区大小 uint data_off; //数据区的位置 }
-
索引区中索引了整个dex中的字符串、类型、方法声明、字段以及方法的信息, 其结构体的开始位置和个数均来自dex文件头中的记录。
-
字符串索引区, 描述dex文件中所有的字符串信息;
struct DexStringId { uint string_data_off; //对应string_data_item的偏移 }
struct string_data_item { uleb128 utf16_size; //字符串长度 ubyte data; //字符串的内容,MUTF-8格式 }
在字符串列表string_data_item中,代码中定义的类的类名, 成员函数名, 函数的参数类型, 字符串, 以及调用的系统函数的名和源码的文件名在字符串列表中都有对应,它们由MUTF-8编码表示。
-
类型索引区, 描述dex文件中所有的类型, 如类类型、基本类型、返回值类型等;
//描述类型索引的结构体为DexTypeId, 里面只有一个成员,指向字符串索引区的下标 struct DexTypeId { uint descriptor_idx; //string_ids 里的 index 序号 };
-
方法声明索引区,描述dex文件中所有的方法声明
struct proto_id_item{ uint shorty_idx; //描述method 原型 uint return_type_idx; //method 原型的返回值类型 uint parameters_off; /指向一个type_list结构体, 存放方法的参数列表,若没有参数则为0 }
struct type_list { uint size; //参数的个数 ushort type_idx[size]; //对应参数的类型 }
-
字段索引区, 描述dex文件中所有的字段声明, 这个结构中的数据全部都是索引值, 指明了字段所在的类、字段的类型以及字段名称
struct filed_id_item{ ushort class_idx; //field 所属class类型 ushort type_idx; //field 类型, uint name_idx; //field 名称, }
-
方法索引区, 描述Dex文件中所有的方法, 指明了方法所在的类、方法的声明以及方法名字
struct method_id_item{ ushort class_idx; //method 所属的 class 类型 ushort proto_idx; //method 声明类型 uint name_idx; //method 名称 }
-
-
数据区存放对类的定义和具字段名称。
class_defs 区域里存放着
class definitions
,class 的定义struct class_def_item { uint class_idx; //类的类型 uint access_flags; //访问标志 uint superclass_idx; //父类类型 uint interfaces_off; //接口偏移 uint source_file_idx; //源文件名 uint annotations_off; //注解偏移 uint class_data_off; //类数据偏移 uint static_value_off; //类静态数据偏移 }
各参数含义如下:
-
class_idx描述具体的class类型,值是
type_ids
的一个index。值必须是一个class类型,不能是数组类型或者基本类型。 - access_flags描述class的访问类型,诸如public,final,static等。在官方文档dex-format里“access_flags Definitions”有具体的描述。
- superclass_idx,描述supperclass的类型,值的形式跟class_idx一样。
-
interfaces_off,值为偏移地址,指向class的interfaces,被指向的数据结构为type_list。class若没有
interfaces,值为0。 -
source_file_idx,表示源代码文件的信息,值是
string_ids
的一个index。若此项信息缺失,此项值赋值为NO_INDEX=0xffff ffff。 -
annotions_off,值是一个偏移地址,指向的内容是该class的注释,位置在data区,格式为
annotations_direcotry_item
。若没有此项内容,值为0。 -
class_data_off,值是一个偏移地址,指向的内容是该class的使用到的数据,位置在data区,格式为
class_data_item
。若没有此项内容,值为0。该结构里有很多内容,详细描述该class的field,method,method里的执行代码等信息,后面有一个比较大的篇幅来讲述class_data_item
。 -
static_value_off,值是一个偏移地址,指向data区里的一个列表(list),格式为
encoded_array_item
。若没有此项内容,值为0。
-
class_idx描述具体的class类型,值是
class_data_off
指向 data 区里的 class_data_item
结构,class_data_item
里存放着本 class 使用到的各种数据,下面是 class_data_item
的逻辑结构 :
struct class_data_item{
uleb128 static_fields_size; //静态字段
uleb128 instance_fields_size; //实例字段
uleb128 direct_methods_size; //直接方法(private或者构造方法)
uleb128 virtual_methods_size; //虚方法(非private、static、final,非构造方法)
encoded_field static_fields[static_fields_size]; //静态字段
encoded_field instance_fields[instance_fields_size]; //实例字段
encoded_method direct_methods[direct_method_size]; //直接方法
encoded_method virtual_methods[virtual_methods_size]; //虚方法
}
struct encoded_field{
uleb128 filed_idx_diff; //filed_idx相对差值
uleb128 access_flags; //访问权限
}
struct encoded_method{
uleb128 method_idx_diff; //method_idx相对差值
uleb128 access_flags; //访问权限
uleb128 code_off; //指向data区的偏移地址
}
code_off指向code_item结构
struct code_item {
ushort registers_size;//本段代码使用到的寄存器数目
ushort ins_size; //传入当前method的参数数量,后面的结果中默认的构造方法中这个值是1,原因是有个this,静态方法没this
ushort outs_size; //本段代码调用其它method时需要的参数个数
ushort tries_size; //代码块中异常处理的数量,结构为try_item
uint debug_info_off; //偏移地址,指向本段代码的debug信息存放位置,是一个debug_info_item结构
uint insns_size; //指令列表的大小,以16-bit为单位。insns是instructions的缩写
ushort insns[insns_size]; //指令列表
ushort paddding; // optional,值为0,用于对齐字节
try_item tries[tyies_size]; // optional,用于处理java中的exception,常见的语法有try catch
encoded_catch_handler_list handlers; // optional,用于处理java中的exception,常见的语法有try catch
}
- class_defs索引了.dex里面用到的class,以及对这个class的描述。
Dex.dex
里只有一个class,就是LDex;
。 -
class_defs
区,这里面其实是class_def_item
结构。这个结构里描述了LHello;
的各种信息,诸如名称,superclass,accessflag,interface等。class_def_item
里有一个元素class_data_off
,指向data区里的一个class_data_item
结构,用来描述class使用到的各种数据。自此以后的结构都归于data区了。 -
class_data_item
结构,里描述值着class里使用到static_field
,instance_field
,direct_method
,virtual_method
的数目和描述。例如Hello.dex
里,只有2个direct_method
,其余的field和method的数目都为0。描述direct_method
的结构叫做encoded_method
,是用来详细描述某个method的。 -
encoded_method
结构,描述某个method的method类型,包含access_flags
和code_off
偏移地址,code_off
指向的数据类型为code_item
。 -
code_item,code_item
结构里描述着某个method的具体实现。