XML声明
XML文档声明是XML文档的第一句,格式如下:
<?xml version="1.0" encoding="UTF-8" standalone="yes/no" ?>
- XML声明由“<?”开始,以“?>”结束。“<?”表示该行是一个命令;
- 在“<?”后面跟“xml”。表示这是一个XML文件("xml"必须小写),这是处理指令的名称,用于声明XML的版本和采用的字符集;
- 在“<”和”?“之间、“?”和“>”之间以及第一个“?”和xml之间不能有空格。
- version属性表示XML的版本。version必须小写,版本号用引号引起。必须指定version的属性值。
- standalone属性(可以是yes或no)定义了是否可以在不读取其他任何文件的情况下处理该文档。standalone默认属性为no。
- encoding属性表示该文档所使用的字符集。如果XML没有设置encoding,则以Unicode编码看待。常见的编码有以下几种:简体中文码(GB2312);
繁体中文码(BIG5);西欧字符(UTF-8)。
注意:如果同时设置了encoding和standalone属性,则standalone属性药位于encoding属性之后。
XML文档内容
XML文档除了XML声明外,还包括XML文档内容,它表示XML文档中包含的信息,是XML文档的主要组成部分。
XML元素
元素是XMl文档的基本组成部分。可以包含其他元素、字符数据、字符引用、实体引用、PI、注释以及CDATA部分,这些合起来被称为元素的内容。所有的XML数据(除了注释、PI和空白)都必须包含在元素中。
- XML元素的命名规范
- 元素的名字可以包含字母、数字和其他字符。
- 元素的名字不能以数字或者标点符号开头。
- 元素的名字不能以XML、xml、Xml、xMl···开头。
- 元素的名字不能包含空格。
- 尽量避免使用“-”、“.”,因为这些符号有可能引起混乱。
- 元素的命名一个遵循简单易读的原则。
- XML 文档往往都对应着数据表,应该尽量让数据库中字段的命名和相应的 XML 文档中的元素的命名保持一致,这样可以方便数据更换。
- 非英文/字符/字符串也可以作为XML元素的名字。
- 在 XML 元素的命名中不要使用”:“,因为 XML 的命名空间需要用到这个特殊字符。
- 起始标识
一个表示元素开始的分隔符被称为起始标记。起始标记是一个包含在尖括号的元素类型名。
- 结束标记
代表元素结束的分割符被称为结束标记。结束标记由一个反斜杠和元素类型名组成并被围在一对尖括号中。每一个结束标记都必须与其对应的起始标记相匹配。带有完整的起始、结束标记的元素应该有如下形式:
<元素>内容</元素>
- XML元素的类型
XML文档中一共有四类元素:空元素、仅含文本的元素、仅含子元素的元素、含子元素及文本或混合的元素。
- 空元素
元素不包括任何文本,就是空元素。
<book></book>
<book/> - 仅含文本的元素
元素仅含文本。
<book>西游记</book> - 含其他元素的元素
一个元素可以包含其他的元素。容器元素称为父元素,被包含的元素称为子元素。
<book ID="001">
<name>西游记</name>
<author>吴承恩</author>
</book> - 混合元素
混合元素既含有文本也含有子元素。
<book ID="001">四大名著
<name>西游记</name>
<author>吴承恩</author>
</book>
在XML文档中使用元素时应该注意以下几点
- 元素必须含有开始标签和结束标签。
- 在没有内容的情况下,才可以使用省略写法。
- 标签名必须符合XML命名规则。
- 元素必须正确嵌套。
元素的属性
基本格式如下:
<元素名 属性名=”属性值“>
注意:特点的属性名称在同一个元素标记只能出现一次;属性值不能包括<、>、&符号。
我们可以将属性改写为嵌套的子元素:
eg:
<book ID="001">
<name>西游记</name>
<author>吴承恩</author>
</book>
我们可以改写为:
<book>
<ID>001</ID>
<name>西游记</name>
<author>吴承恩</author>
</book>
在 XML 中,我们应该尽量避免使用属性。因为使用属性会引发以下一些问题。
- 属性不能包含多个值(子元素可以)。
- 属性不容易扩展。
- 属性不能描述结构(子元素可以)。
- 属性很难被程序代码处理。
- 属性值很难通过DTD进行测试。
属性规则:
- 属性由名称和数值。
- 属性值必须封装在单引号或双引号中。
- 属性中不能含有XML标签。
- 属性名称必须遵循XML命名规则。
注释
语法:
<!--注释信息-->
注释遵循规则:
- 注释内容不能包含”-->“。
- 注释不能包含于标签内部。
- 元素的开始标签或结束标签不能被注释掉。
字符引用和实体引用
-
字符引用
以&#开始并以分号结束的引用都是字符引用。中间的数字是所需字符的Unicode编码。若编码写成十六进制,那么数字前面有一个x(必须小写)作为前缀。
eg:<n>©</n>
实体引用
实体引用允许在元素内容或属性值中插入任何字符串,这就为字符引用提供一种助记得替代方式。
实体引用方式是在一个合法的 XML 名字前面加上一个符号”&“,后面加上一个分号”;“。
有五个实体被定义为 XML 的固有部分,他们通常用作 XML 标记分隔符号的转义序列。如下表 1所示。
除了上述五个实体,其他所有的实体都必须在文档使用前,在DTD文档中定义。