第四部分 XML

Xml（extensible markup language）可扩展的标记语言

XML 被设计用来传输和存储少量数据。

html是用来显示信息

html标签是定义好的，xml的标签是自己定义的

xml具有很强的自我描述能力

XML 文档形成一种树结构

XML 文档必须包含根元素。该元素是所有其他元素的父元素。

XML 文档中的元素形成了一棵文档树。这棵树从根部开始，并扩展到树的最底端。

XML语法

1.文档声明

2.标记元素

必须有根元素

所有 XML 元素都须有关闭标签

XML 标签对大小写敏感

XML里空格会得到保留

3.属性，与html一样，XML 的属性值须加引号

尽量少使用属性，用子元素替代属性（属性不灵活，属性难以阅读和维护）

比如字体可以把字体大小设置为子元素或者属性，设置属性后，如果你想把一个子元素添加到字体大小里，是不可能的

4.实体在 XML 中，一些字符拥有特殊的意义。

5.XML 命名规则

XML 元素必须遵循以下命名规则：

名称可以含字母、数字以及其他的字符

名称不能以数字或者标点符号开始

名称不能以字符 “xml”（或者 XML、Xml）开始

名称不能包含空格

XML是可扩展的可以通过JS往里面写内容

XML约束(用来约束XML树的编写结构)

拥有正确语法的XML称为形式良好的XML(最根本)

通过约束的成为合法XML

dtd约束(了解)

为什么使用 DTD？

通过 DTD，您的每一个 XML 文件均可携带一个有关其自身格式的描述。

通过 DTD，独立的团体可一致地使用某个标准的 DTD 来交换数据。

DTD规定了XML文档的结构(有哪些元素，哪些属性等)

注：如果dtd规范的是一个集合的话，可以在根元素声明时使用

<!ELEMENT notes(note+)> 说明这个notes集合里装了多个note对象

内部的 DOCTYPE 声明

外部的DOCTYPE 声明（常用，使XML文档变得简洁）

注：

1.ELEMENT规则用于指定某个元素可以拥有什么样的子元素

2..PCDATA 是会被解析器解析的文本。这些文本将被解析器检查实体以及标记（表示没有子元素）

3..CDATA 是不会被解析器解析的文本

在XML文档中的所有文本都会被解析器解析，只有在CDATA部件之内的文本会被解析器忽略。

操作XML文件时，如果允许用户输入内容，例如∶"< "、">"、"/"、""等，当生成XML时，会破坏了XML结构，使数据中断。而如果定义成了CDATA就不会中断（让解析器忽略其中内容）

为什么xml解析器要解析所有文本，因为一个元素内可能还有别的元素，xml解析器为了获得所有的元素

4.元素声明

<!ELEMENT 元素名称 (元素内容/类别)> empty表示空的类别

只有 PCDATA 的元素(只有文本)

<!ELEMENT 元素名称 (#PCDATA)>

带有任何内容的元素

<!ELEMENT 元素名称 ANY>

带有子元素（序列）的元素

<!ELEMENT 元素名称 (子元素名称 1..)> 子元素声明顺序必须固定

声明只出现一次的子元素

<!ELEMENT 元素名称 (子元素名称)>

声明最少出现一次的子元素

<!ELEMENT 元素名称 (子元素名称+)>

？零次或一次 *零次或多次

声明或元素

<!ELEMENT note ((message|body))>

例题：

<!ELEMENT CHAPTER(intro,(heading,(para|image|table|note|)+)+)>

表示每章以简介开头，其后是一个或多个小节，每个小节由一个标题和1个或多个段落，图片，表格或说明组成

注意：如果出现了#PCDATA，就不可以只用这种灵活的多层嵌套了

5.属性声明

<!ATTLIST 元素名称属性名称属性类型默认值>(属性名称里可以使用或操作)

6.实体（了解）

<!ENTITY 实体名称 "实体的值">

例：<!ENTITY writer "Bill Gates">表示&writer可以引用"Bill Gates"

<author>&writer;</author>

注释:一个实体由三部分构成: 一个和号 (&), 一个实体名称, 以及一个分号 (;)。

Schema(了解)

定义可出现在文档中的元素

定义可出现在文档中的属性

定义哪个元素是子元素

定义子元素的次序

定义子元素的数目

定义元素是否为空，或者是否可包含文本

定义元素和属性的数据类型

XML Schema 是 DTD 的继任者

<schema>元素是每一个XML Schema 的根元素

1.简易元素

简易元素指那些仅包含文本的元素。它不会包含任何其他的元素或属性。

默认值 default 属性(不设置元素值时的值)

固定值 fixed 属性(固定为这个值，不可再设置值)

2.属性

默认情况下属性是可选的也就是可有可无，如果要更改为必须有，则使用use="required"

3.限定

还有一些其它一些限定，具体使用具体查

4.复合元素

可以定义复合元素内：1.空2.仅包含元素3.仅包含文本4.混合内容

例子：

约束

XML

Xml解析

Dom4j

解析步骤

思维方式，先得到文档，然后解析元素（先得到根元素再得到子元素）

1导入jar文件

2创建解析器(以流的方式读取XML文件)

3获取解析的文档(这时你已经得到了这个XML的这个文档)

4获取解析的根元素

5解析子元素

1.下载dom4j-1.6.1.jar导入

2.SAXReader reader =new SAXReader();

3.Document document = reader.read(new File("XXXX.xml")); //不要使用相对路径

4.Element ele = document.getRootElement();

5.List <Element> eles=ele.elements();

for(Element e:eles){

e.attribute("属性名").getValue() ； //获取属性

e.elementText("子元素名")； //获取子元素

//之后就可以通过构造函数，将值存到类中了

}

注：1.可以通过e.getName()得到根元素和子元素的名字

2.e.attribute().getName()获取属性名

如果层次特别深可以使用递归的方式遍历

生成xml文件

1创建Document对象

2准备数据

3创建根节点

4添加子节点及其属性

5生成对应的xml文件

6把数据写入到xml文件中

1.Document doc = DocumentHelper.createDocument();

2.List<Emp> emps=new ArrayList<>();

3.Element ele = doc.addElement("emps");

4.for(Emp emp:emps){

Element el=ele.addElement("emp");//在主元素中添加元素

el.addAttribute("属性名"，"属性值")；

el.addElement("元素名"，"元素值")

}

5.FileOutputStream fos=new FileOutputStream("文件名");

6.XMLWriter xmlWriter =new XMLWriter();

xmlWriter.setOutputStream(fos);

xmlWriter.write(doc);