一. XML的概念
XML:eXtensible Markup Language,可扩展标记语言。
可扩展的含义,就是可以自己定义标签。
XML指可扩展标记语言,是独立于软件和硬件的信息传输工具;它是一种标记语言,很类似 HTML;XML的设计宗旨是传输数据,而非显示数据;XML标签没有被预定义,需要自行定义标签;XML被设计为具有自我描述性;XML是 W3C 的推荐标准。
二.XML的作用
XML专用于保存或者传输(交换)数据。
保存数据可以体现在两个方面:① 配置文件,比如各种软件的配置文件;② 小型的数据库。
传输(交换)数据体现在两个方面:① Ajax,“Asynchronous Javascript And XML”(异步 JavaScript 和 XML),现在json用的比较多;② Web service:web 服务 (xml最擅长的地方)。
XML的新的应用
svg(可缩放矢量图形):可缩放矢量图形是基于可扩展标记语言,用于描述二维矢量图形的一种图形格式。SVG 使用 XML 格式定义图形。
三.XML的结构
每个xml稳定,都有一个声明。
整个XMl,是树形结构,有且仅有一个根节点。
在这个树形结构,有三个节点,元素节点 + 属性节点 + 文本节点。
四.XML的语法
(一)语法总则
1,必须以XML声明开头;
version:版本号,目前推荐是1.0;encoding:编码,字符集,建议使用utf-8。
需要注意的是字符集,如果有乱码,肯定字符集设置不对的。保证你声明的字符集和文件本身保存的字符集的一致。
2,必须拥有唯一的根元素;
3,开始标签必须与结束标签相匹配;
4,元素对大小写敏感,严格区分大小写;
5,所有的元素都必须关闭,注意单标签;
6,所有的元素都必须正确地嵌套
7,必须对特殊字符使用实体
(二)命名规则
由于我们的xml中,所有的标签都需要自己定义:
1,名称可以含字母、数字以及其他的字符
2,名称不能以数字或者标点符号开始
3,名称不能以字符“xml”(或者 XML、Xml)开始
4,名称不能包含空格
5,可使用任何名称,没有保留的字词。
建议,使用php的命名方式,尽量使用数字、字母、下划线的组合。Xml支持中文。(但一般不用)
注意:① 避免"-"字符。如:"first-name",一些软件会认为你需要提取第一个单词。
② 避免"."字符。如:"first.name",一些软件会认为 "name" 是对象 "first" 的属性。
③ 避免":"字符。冒号会被转换为命名空间来使用。
(三)元素节点 + 属性节点 + 文本节点
1,定义元素节点
类似html: <元素名>内容</元素名>
2,定义属性
类似html: <元素名 属性名=‘属性值’>内容</元素名>
注意:①属性值必须被引号包围,不过单引号和双引号均可使用;
② 一个元素可以有多个属性;
③ 元素中的属性是不允许重复的;
④ 标签属性所代表的信息也可以被改成用子元素的形式来描述,但是属性一般描述与数据无关的信息,比如 id,与数据相关的信息一般用子元素来描述。
(四)实体引用
相当于转义:有5个预定义的实体
批量转义
(五)注释
与html相同:<!-- 注释内容-->
注意,文档声明一定要放在最开头。之前不要有任何东西。
五.DTD验证
(一)概念
XML的主要作用是 保存 和 传输数据,在传输的过程中,传输方和接受方 需要遵循一个规则,XML是需要通过这个规则的验证的。
XML验证是指使用XML验证技术来检测我们的XML文档是否合理(合法)。
XML通过验证的方式有两种:
① DTD:Document Type Definition,文档类型定义,目前使用最多的一种
② Schema:XSD,Xml Schema Definition,文档结构定义,是DTD的替代者。
DTD用来验证我们的xml是否符合它的定义,要满足以下要求:
① 格式良好的文档:语法正确文档;
② 合法的文档:在语法正确的基础之上,符合某个规范的xml文档。
(二)DTD表现形式
DTD一般书写于声明下面。
DTD有两种引用方式:①在xml文档中直接定义;②外部定义,然后引用。
验证方式:在线验证(http://validator.w3.org/);
归纳DTD的作用:
① 通过DTD,可一致地使用某个标准的 DTD 来交换数据;
② 可使用某个标准的DTD来验证从外部接收到的数据;
③ 可以使用DTD来验证自身的数据。
注意事项:
① DTD描述了XML文档有哪些节点、节点之间的关系以及节点的值等。(学习重点)
② DTD验证的不是语法,而是验证XML文档中应该有哪些节点,节点之间的关系是什么,元素的值、属性的值应该由什么内容组成。
③ XML没有DTD,可以正常工作,但不能很好的工作。
④ 合法的XML文档是“形式良好”的 XML 文档,且遵守文档类型定义 (DTD) 的语法规则。
(三)DTD定义
DTD的构成:元素声明 + 属性声明 + 实体声明;
① 元素定义
元素声明由三部分构成:ELEMENT声明 + 元素名 + 元素内容模型 ---定义了可允许的元素内容
形式:<!ELEMENT 元素名 (元素内容描述)>
注意:中间有空格。
元素的表现形式有一下几种:
{1} 仅包含元素的元素
通常有两种结构:① 顺序结构,直接用逗号分隔开;② 选择结构,用 | 分隔,表示二者只能选择其一。
表示:每个元素都要出现,并且只能出现一次,还要按照顺序依次出现。
表示:二者只能出现其中的一个,且必须出现一个。
如果元素多次出现,使用数量词:* 任意个,包括0;+ 至少一个,至多不限;? 0或1个
{2}仅包含文本的元素
{3}包含文本和元素的元素
[注意]:在DTD文件内部定义混合内容模型,必须要使用选择组合,#PCDATA关键字必须出现在子元素列表的第一个位置,且必须要使用*。
{4}空元素
直接使用empty
{5}任意元素(不推荐)
<!ELEMENT 元素名 ANY>
② 属性定义
定义的属性格式:<!ATTLIST 元素名 属性名称 属性的类型 取值方式>
常用属性类型:CDATA,值为字符数据(character data);(en1 | en2 |....),此值是枚举列表中的一个值;ID,值为唯一的id............
常用取值方式:#REQUIRED,属性值是必须的;#IMPLIED,属性值不是必须的;#FIXED value,属性值时固定的。
固定的值不能更改。
一次性定义多个属性的简写
关于取值类型,必须要设置
如果没有固定值、又没有默认值,而且也不是必须的,那么此时一定要声明为#IMPLIED。
③ 实体定义
文本节点,本身是无需定义的。
书写字符串的时候,有时候会重复使用某个的内容,此时为了方便,可以将其定义为实体。类似在编程中的变量的含义。
DTD中,通常有两种实体:
{1} 一般实体,在DTD中来定义的,然后在xml文档中来引用的
定义格式:<!ENTITY 实体名称 值>
引用:&实体名称;
{2} 参数实体,只能是在外部DTD中来定义的,并且参数实体只能在DTD中引用的。
在XML中引入DTD的语法格式:<!DOCTYPE 根元素名称 SYSTEM 'dtd路径'>
定义格式:<!ENTITY % 实体名称 值>
引用格式:%实体名称
在浏览器中无法查看效果,应为浏览器不会加载外部DTD。
六.DOM方式操作XML
PHP操作XML常用方法
① DOM方式:所有语言都支持的方式,API相同
② SimpleXML方式:php提供一种简单的方式
{1} DOM的概念
DOM:Document Object Model,文档对象模型。
D:document,是指的文档本身,xml文档,HTML文档;
O:Object,对象,是将元素、属性和文本等转成节点对象,对象有属性和方法,可以调用这些属性和方法完成相关的操作;
M:Model,树模型,将Document转成一个树模型,节点,节点之间有关联。将这些节点转成对象。转换过程是在内存中进行的。
{2} DOM操作XML步骤
{3}DOM操作XML的CRUD
1,查询
如上图,方法 getElementsByTagName
2,增加
方法 createElement($name[,$value])
方法 appendChild 增加子节点,与JS相同的
有2个参数,仅创建元素,则仅需要第一个参数,为元素名称;创建包含文本的元素,就需要第二个参数,元素内的文本.
3,更新
直接操作文本节点
4,删除
方法 removeChild(要删除的节点),需要父元素调用该方法。
属性 parentNode 获得该元素的父节点
在删除节点的同时,不要对他进行foreach操作,比如上面的错误做法
只需要将二者分开即可。先遍历,找到所有的节点,用到保存起来,然后再对他进行删除。
注意使用PHP手册。
七.XPATH(查看手册)
使用xpath,可以快速的定位到某个节点。使用xpath,可以快速的定位到某个节点。
XPATH的主要作用就是增加查询的速度,就好像数据库中表的索引一样。
① 选取节点
方式1. / 从根节点选取 例如,/根节点
方式2. // 从匹配的当前节点选择文档中的节点,不论层次关系 例如,//文档中的节点
方式3. . 选取当前节点
方式4. . . 选取当前节点的父节点
方式5. @ 选取属性
② 谓语
谓语用来查找某个特定的节点或者包含某个指定的值的节点,谓语被嵌在方括号中。
比如: /根节点/子节点[ 谓语 ]
谓语有:last(),position(),@属性名,@属性名=XX, 元素名>元素内文本节点的值,等等。
在使用数量词,或者last、position函数的时候,一定要注意,是针对同一个节点下面的元素。它们应该有共同的父节点。
③ 其他用法
或 | 比如 //person/age | //person/name 选取person元素的age和name 元素
通配符 * 比如 //person/* 匹配person下的任何节点
八.SimpleXML (查看手册)
它是PHP专门提供的一种操作xml的简单方式,只能在php中使用。
基本上,就只有一个对象:SimpleXMLElement
得到SimpleXMLElement的两种方式:
① 直接使用构造方法,传递的xml的内容,不是文件名
② 使用普通函数,传递的文件名,simplexml_load_file
对象均是 SimpleXML 对象,可以直接操作。
使用方法:1.载入xml文档;
2.进行具体的处理;
3.保存结果。
SimpleXML 操作XML的CRUD
① 增加 使用方法 addChild
② 查询
根据显示结果,遍历即可
③修改
④ 删除
unset 函数
九.XML应用之Web Service
web Service 的概念
Web service是一个平台独立的,低耦合的,自包含的、基于可编程的web的应用程序,可使用开放的XML(标准通用标记语言下的一个子集)标准来描述、发布、发现、协调和配置这些应用程序,用于开发分布式的互操作的应用程序。
本质就是通过网络调用其他网站的资源。
web service三要素: SOAP ,WSDL,UDDI
① SOAP
SOAP:Simple Object Access Protocol,简单对象访问协议。
SOAP = XML + HTTP;
PHP提供了操作SOAP的扩展,需要开启。
在php.ini中,extension = php_soap.dll;
② WSDL
WSDL:Web Service Description Language , web服务描述语言,就是XML文档。
XML应用示例:使用 web service 查询航班
主要难点在与XML文档结构的分析
API接口
http://www.webxml.com.cn/zh_cn/web_services.aspx
点击第一个 Endpoint,进入下面页面
soapclient类
构造方法 ,需要传递一个wsdl 文件
public __construct( mixed $wsdl [, array $options ] )
有了 soapClient 对象,就可以调用 Endpoint 中 提供的 2个方法。
使用simpleXML 进行操作