第六章 类文件结构
6.2 无关性的基石
各种不同平台的虚拟机与所有的平台都统一使用的程序存储格式--字节码(ByteCode)是构成平台无关性的基石。java虚拟机不和包括java在内的任何语言绑定,它只与“Class”文件这种特定的二进制文件格式所关联,Class文件包含了java虚拟机指令集和符号表以及若干其他辅助信息。虚拟机并不关心Class的来源是何种语言。
6.3 Class类文件的结构
Class文件是一组以8字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑地排列在Class文件之中,中间没有添加的任何分割符。 Class文件格式采用类似于C语言结构体的伪结构体来存储数据,这种伪结构中只有两种数据类型:无符号数和表。
无符号数属于基本的数据类型,以u1、u2、u3、u4、u8分别代表1个字节、2个字节、3个字节、4个字节和8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值、或者按照UTF-8编码构成字符串值。
表是由多个无符号数或者其他表作为数据项构成的复合数据类型,所有表习惯以“_info”结尾。
无论是无符号数还是表,当需要描述同一个类型但数量不定的多个数据时,经常会使用一个前置的容量计数器加若干个连续的数据项的形式。
6.3.1魔数与Class文件的版本
每个Class文件的头4个字节称为魔数(magic number),它的唯一作用是确认这个文件是否为一个能够被虚拟机接受的Class文件,Class文件的魔数值为:0XCAFEBABY。紧接着魔数的4个字节存储的是Class文件的版本号:第5和第6个字节时次版本号(Minor Version),第7和第8个字节是主版本号(Major Version)。高版本的JDK能向下兼容以前版本的Class文件,但不能运行以后版本的Class文件,即时文件格式并未发生任何变化,虚拟机也必须拒绝执行超过其版本号的Class文件。
6.3.2常量池
紧接着主次版本号之后的时常量池入口,常量池可以理解为Class文件之中的资源仓库。常量池中常量数目不固定,所以入口处放置一个u2类型的数据代表常量池容量计数值(此值从1开始)。常量池中主要用于存放两大类常量:字面量(Literal)和符号引用(Sysmbolic References)。字面量比较接近java语言层面的常量概念,如文本字符串、声明为final的常量的值等。而符号引用则属于编译原理方面的概念,包含以下三类常量:
- 类和接口的全限定名
- 字段的名称和描述符
- 方法的名称和描述符
java代码在进行javac编译的时候,在虚拟机加载Class文件的时候进行动态连接。当虚拟机运行时,需要从常量池中获得对应的符号引用,再在类创建时或运行时解析、翻译到具体的内存地址中。
6.3.3 访问标志
常量池结束后,紧接着两个字节代表访问标志,用于标识一些类或者接口层次的访问信息,包括Class是类还是接口;是否为public类型;是否定位为abstract类型等。
6.3.4 类索引、父类索引、接口索引集合
前两者是一个u2类型的数据,最后一个是u2类型的数据的集合。Class文件中由这三项数据来确定这个类的继承关系。索引指向的值可以在常量池中找到。
6.3.5字段表集合
字段表用于描述接口或者类中声明的变量。字段包括类级变量以及实例级变量,但不包括在方法内部声明的局部变量。字段表不会列出从超类或者父接口中继承而来的字段,但有可能列出原本java代码中不存在的字段,比如内部类中为了保持对外部类的访问性,会自动添加指向外部类实例的变量。
6.3.6方法表集合
和字段表集合结构类似。但是方法中的java代码。经过编译期编译成字节码指令后,存放在方法属性表结合中一个名为“Code”的属性里面。如果父类方法在子类中没有被重写,方法表集合中不会出现来自父类的方法信息。
6.3.7 属性表集合
在Class文件、字段表、方法表都可以携带自己的属性表集合,用于描述某些场景专有的信息。
6.4 字节码指令简介
java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字(称为操作码,Opcode)以及跟随其后的零至多个代表此操作所需要的参数(称为操作数,Operands)而构成,由于java虚拟机采用面向操作数栈而不是寄存器的架构,所以大多数指令都不包含操作数,只有一个操作码。
6.4.10 同步指令
java虚拟机可以支持方法级的同步和方法内部一段指令序列的同步,这两种同步结构都是使用管程(Monitor)来支持的。
方法级的同步时隐式的,无需通过字节码指令来控制,通过竞争获取管程实现。同步一段指令集序列通常由java synchronized语句块来表示的,java虚拟机指令集中有monitorenter和monitorexit两条指令来支持synchonized关键字的语义。