Java更新XML的四种常用要领简介
副标题#e#
本文扼要的接头了Java语言编程中更新XML文档的四种常用要领,而且阐明这四种要领的黑白。其次,本文还对如何节制Java措施输出的XML文档的名目做了展开阐述。
JAXP是Java API for XML Processing的英文字头缩写,中文寄义是:用于XML文档处理惩罚的利用Java语言编写的编程接口。JAXP支持DOM、SAX、XSLT等尺度。为了加强JAXP利用上的机动性,开拓者出格为JAXP设计了一个Pluggability Layer,在Pluggability Layer的支持之下,JAXP既可以和详细实现DOM API、SAX API 的各类XML理会器(XML Parser,譬喻Apache Xerces)连系事情,又可以和详细执行XSLT尺度的XSLT处理惩罚器(XSLT Processor,譬喻Apache Xalan)连系事情。应用Pluggability Layer的长处在于:我们只需要熟悉JAXP各个编程接口的界说即可,而不需要对所回收的详细的XML理会器、XSLT处理惩罚器有很深入的相识。好比在某个Java措施中,通过JAXP挪用XML理会器Apache Crimson对XML文档举办处理惩罚,假如我们但愿利用此外XML理会器(好比Apache Xerces),以便提高该措施的机能,那么原措施代码大概不需要任何改变,直接就可以利用(你所需要做的工作只是将包括Apache Xerces代码的jar文件插手到情况变量CLASSPATH中,而将包括Apache Crimson代码的jar文件在情况变量CLASSPATH中删除)。
今朝JAXP已经应用的十分普遍了,可以说是Java语言中处理惩罚XML文档的尺度API。有些初学者在进修利用JAXP的进程中,常常会提出这样的问题:我编写的措施对DOM Tree做了更新,可是当措施退出今后,原始的XML文档并没有改变,照旧老样子,如何实现对原始XML文档和DOM Tree的同步更新呢?咋一看来,在JAXP中好像没有提供相应的接口/要领/类,这是许多初学者都感想狐疑的问题。本文的主旨就在于办理这个问题,简朴的先容几种常用的同步更新原始XML文档和DOM Tree的要领。为了缩小接头的范畴,本文所涉及的XML理会器仅包罗Apache Crimson和Apache Xerces,而XSLT处理惩罚器仅仅利用Apache Xalan。
要领一:直接读写XML文档
这也许是最笨最原始的步伐了。当措施获取DOM Tree之后,应用DOM模子的Node接口的各个要领对DOM Tree举办更新,下一步应该对原始的XML文档举办更新了。我们可以运用递归的步伐可能是应用TreeWalker类,遍历整个DOM Tree,与此同时,将DOM Tree的每一个节点/元素依次写入到预先打开的原始XML文档中,当DOM Tree被遍历完全之后,DOM Tree和原始的XML文档就实现了同步更新。实际中,这个要领少少利用,不外假如你要编程实现本身的XML理会器,这种要领照旧有大概用得上的。
要领二:利用XmlDocument类
利用XmlDocument类?JAXP中理解没有这个类呀!是不是作者搞错了?没有错!就是利用XmlDocument类,确切的说,是利用XmlDocument类的write()要领。
在上文已经提到过,JAXP可以和各类百般的XML理会器连系利用,这次我们选用的XML理会器是Apache Crimson。XmlDocument(org.apache.crimson.tree.XmlDocument)是Apache Crimson的一个类,并不包括于尺度的JAXP中,难怪在JAXP的文档中找不到XmlDocument类的芳踪呢。此刻问题出来了,如何应用XmlDocument类来实现更新XML文档的成果?在XmlDocument类中提供了下面三个write()要领(按照Crimson最新的版本——Apache Crimson 1.1.3):
public void write (OutputStream out) throws IOException
public void write (Writer out) throws IOException
public void write (Writer out, String encoding) throws IOException
上述三个write()要领的主要浸染就是输出DOM Tree中的内容到特定的输出介质中,好比文件输出流、应用措施节制台等等。那么又如何利用上述三个write()要领呢?请看下面的Java措施代码片段:
String name="fancy";
DocumentBuilder parser;
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
try
{
parser = factory.newDocumentBuilder();
Document doc = parser.parse("user.xml");
Element newlink=doc.createElement(name);
doc.getDocumentElement().appendChild(newlink);
((XmlDocument)doc).write(new FileOutputStream(new File("xuser1.xml")));
}
catch (Exception e)
{
//to log it
}
在上面的代码中,首先建设了一个Document工具doc,获取完整的DOM Tree,然后应用Node接口的appendChild()要领,在DOM Tree的最后追加了一个新节点(fancy),最后挪用XmlDocument类的write(OutputStream out)要领,把DOM Tree中的内容输出到xuser.xml中(其实也可以输出到user.xml,更新原始的XML文档,在这里为了便于做比拟,故而输出到xuser.xml文件中)。需要留意的是不能直接对Document工具doc直接挪用write()要领,因为JAXP的Document接口并没有界说任何write()要领,所以必需将doc由Document工具强制转换为XmlDocument工具,然后才气挪用write()要领,在上面的代码中利用的是write(OutputStream out)要领,这个要领利用缺省的UTF-8编码输出DOM Tree中的内容到特定的输出介质中,假如DOM Tree中包括中文字符,那么输出的功效有大概是乱码,亦即存在所谓的"汉字问题",办理的步伐是利用write (Writer out, String encoding)要领,显式指定输出时的编码,譬喻将第二个参数设为"GB2312",这时即不存在"汉字问题",输出功效可以或许正常显示中文字符。
#p#分页标题#e#
完整的例子请参考下列文件: AddRecord.java(见附件)、user.xml(见附件)。该例子的运行情况为:Windows XP Professional、JDK 1.3.1。为了可以或许正常编译运行AddRecord.java这个措施,你需要到网址http://xml.apache.org/dist/crimson/去下载Apache Crimson,并将所获取的crimson.jar文件插手到情况变量CLASSPATH中。
留意:
Apache Crimson的前身是Sun Project X Parser,厥后不知何以,由X Parser演变为Apache Crimson,至今Apache Crimson的许多代码都是从X Parser中直接移植过来的。好比上文用到的XmlDocument类,它在X Parser中是com.sun.xml.XmlDocument,到了Apache Crimson中摇身一变,就酿成了org.apache.crimson.tree.XmlDocument类,其实它们的绝大部门代码是一样的,大概就package语句和import语句以及文件开头的一段lience有所差异罢了。早期的JAXP是和X Parser绑缚在一起的,因此一些老的措施利用了com.sun.xml包,假如你此刻从头编译它们,有大概不能通过,必定就是因为这个原因。厥后的JAXP和Apache Crimson绑缚在一起,好比JAXP 1.1,假如你利用JAXP 1.1,那么不需要特别下载Apache Crimson,也可以或许正常编译运行上面的例子(AddRecord.java)。最新的JAXP 1.2 EA(Early Access)改弦更张,回收机能更好的Apache Xalan和Apache Xerces别离作为XSLT处理惩罚器和XML理会器,不能直接支持Apache Crimson了,所以假如你的开拓情况回收了JAXP 1.2 EA可能是Java XML Pack(内含JAXP 1.2 EA),那么将无法直接编译运行上面的例子(AddRecord.java),你需要特别下载并安装Apache Crimson。
#p#副标题#e#
要领三:利用TransformerFactory和Transformer类
在JAXP中所提供的尺度的更新原始XML文档的要领就是挪用XSLT引擎,亦纵然用TransformerFactory和Transformer类。请看下面的Java代码片段:
//首先建设一个DOMSource工具,该结构函数的参数可以是一个Document工具
//doc代表变动后的DOM Tree。
DOMSource doms = new DOMSource (doc);
//建设一个File工具,代表DOM Tree所包括的数据的输出介质,这是一个XML文件。
File f = new File ("XMLOutput.xml");
//建设一个StreamResult工具,该结构函数的参数可以取为File工具。
StreamResult sr = new StreamResult (f);
//下面挪用JAXP中的XSLT引擎来实现输出DOM Tree中的数据到XML文件中的成果。
//XSLT引擎的输入为DOMSource工具,输出为StreamResut工具。
try
{
//首先建设一个TransformerFactory工具,再由此建设Transformer工具。Transformer
//类相当于一个XSLT引擎。凡是我们利用它来处理惩罚XSL文件,可是在这里我们使
//用它来输出XML文档。
TransformerFactory tf=TransformerFactory.newInstance();
Transformer t=tf.newTransformer ();
//要害的一步, 挪用Transformer工具 (XSLT引擎)的transform()要领,该要领的第一
//个参数是DOMSource工具,第二个参数是StreamResult工具。
t.transform(doms,sr);
}
catch (TransformerConfigurationException tce)
{
System.out.println("Transformer Configuration Exception\n-----");
tce.printStackTrace();
}
catch (TransformerException te)
{
System.out.println ("Transformer Exception\n---------");
te.printStackTrace ();
}
在实际的应用中,我们可以应用传统的DOM API从XML文档中获取DOM Tree,然后按照实际的需求对DOM Tree执行各类操纵,获得最终的Document工具,接下来可以由此Document工具建设DOMSource工具,剩下的工作就是照搬上面的代码了,措施运行完毕后, XMLOutput.xml就是你所需要的功效(虽然了,你可以随意变动StreamResult类结构函数的参数,指定差异的输出介质,而不必是千篇一律的XML文档)。
这个要领最大的长处在于可以随心所欲的节制DOM Tree中的内容输出到输出介质中的名目,可是光靠TransformerFactory类和Transformer类并不能实现这个成果,还需要依赖OutputKeys类的辅佐。 完整的例子请参考下列文件: AddRecord2.java(见附件)、user.xml(见附件)。该例子的运行情况为:Windows XP Professional、JDK 1.3.1。为了可以或许正常编译运行AddRecord2.java这个措施,你需要到网址http://java.sun.com去下载安装JAXP 1.1可能Java XML Pack(Java XML Pack已经内含JAXP了)。
OutputKeys类
javax.xml.transform.OutputKeys类和java.util.Properties类共同利用,可以节制JAXP的XSLT引擎(Transformer类)输出XML文档的名目。请看下面的代码片段:
#p#分页标题#e#
//首先建设一个TransformerFactory工具,再由此建设Transformer工具。
TransformerFactory tf=TransformerFactory.newInstance();
Transformer t=tf.newTransformer ();
//获取Transformser工具的输出属性,亦即XSLT引擎的缺省输出属性,这是一个
//java.util.Properties工具。
Properties properties = t.getOutputProperties();
//配置新的输出属性:输出字符编码为GB2312,这样可以支持中文字符,XSLT引擎所输出
//的XML文档假如包括了中文字符,可以正常显示,不会呈现所谓的"汉字问题"。
//请寄望OutputKeys类的字符串常数OutputKeys.ENCODING。
properties.setProperty(OutputKeys.ENCODING,"GB2312");
/更新XSLT引擎的输出属性。
t.setOutputProperties(properties);
//挪用XSLT引擎,凭据输出属性中的配置,输出DOM Tree中的内容到输出介质中。
t.transform(DOMSource_Object,StreamResult_Object);
从上面的措施代码,我们不丢脸出,通过配置XSLT引擎(Transformer类)的输出属性,可以节制DOM Tree中的内容的输格外式,这对付我们定制输出内容是很有辅佐的。那么JAXP的XSLT引擎(Transformer类)有那些输出属性可以配置呢? javax.xml.transform.OutputKeys类界说了许多字符串常数,它们都是可以自由配置的输出属性,常用的输出属性如下所示:
public static final java.lang.String METHOD
可以设为"xml"、"html"、"text"等值。
public static final java.lang.String VERSION
所遵循类型的版本号,假如METHOD设为"xml",那么它的值应该设为"1.0",假如METHOD设为"html",那么它的值应该设为"4.0",假如METHOD设为"text",那么这个输出属性会被忽略。
public static final java.lang.String ENCODING
配置输出时所回收的编码方法,好比"GB2312"、"UTF-8"等等,假如将其配置为"GB2312",可以办理所谓的"汉字问题"。
public static final java.lang.String OMIT_XML_DECLARATION
配置输出到XML文档中时是否忽略XML声明,亦即雷同于:
<?xml version="1.0" standalone="yes" encoding="utf-8" ?>
这样的代码。它可选的值有"yes"、"no"。
public static final java.lang.String INDENT
IDENT设定XSLT引擎在输出XML文档时,是否自动添加特另外空格,它可选的值为"yes"、"no"。
public static final java.lang.String MEDIA_TYPE
MEDIA_TYPE设定输出文档的MIME范例。
假如设定XSLT引擎的输出属性呢?下面我们来总结一下:
首先是获取XSLT引擎(Transformer类)的缺省输出属性的荟萃,这需要利用Transformer类的getOutputProperties()要领,返回值是一个java.util.Properties工具。
Properties properties = transformer.getOutputProperties();
然后是设定新的输出属性,好比:
properties.setProperty(OutputKeys.ENCODING,"GB2312");
properties.setProperty(OutputKeys.METHOD,"html");
properties.setProperty(OutputKeys.VERSION,"4.0");
………………………………………………………
最后是更新XSLT引擎(Transformer类)的缺省输出属性的荟萃,这需要利用Transformer类的setOutputProperties()要领,参数是一个java.util.Properties工具。
我们编写了一个新的措施,个中应用了OutputKeys类,用以节制XSLT引擎的输出属性,该措施的架构和前一个措施(AddRecord3.java)大抵沟通,不外输出功效略有差异。完整的代码请参考下列文件: AddRecord3.java(见附件)、user.xml(见附件)。该例子的运行情况为:Windows XP Professional、JDK 1.3.1。为了可以或许正常编译运行AddRecord3.java这个措施,你需要到网址http://java.sun.com去下载安装JAXP 1.1可能Java XML Pack(Java XML Pack内含JAXP了)。
要领四:利用Xalan XML Serializer
要领四其实是要领三的一个变种,它需要Apache Xalan和Apache Xerces的支持才气够运行。例子代码如下所示:
//首先建设一个DOMSource工具,该结构函数的参数可以是一个Document工具
//doc代表变动后的DOM Tree。
DOMSource domSource = new DOMSource (doc);
//建设一个DOMResult工具,姑且生存XSLT引擎的输出功效。
DOMResult domResult = new DOMResult();
//下面挪用JAXP中的XSLT引擎来实现输出DOM Tree中的数据到XML文件中的成果。
//XSLT引擎的输入为DOMSource工具,输出为DOMResut工具。
try
{
//首先建设一个TransformerFactory工具,再由此建设Transformer工具。Transformer
//类相当于一个XSLT引擎。凡是我们利用它来处理惩罚XSL文件,可是在这里我们使
//用它来输出XML文档。
TransformerFactory tf=TransformerFactory.newInstance();
Transformer t=tf.newTransformer ();
//配置XSLT引擎的属性(必不行少,不然会发生"汉字问题")。
Properties properties = t.getOutputProperties();
properties.setProperty(OutputKeys.ENCODING,"GB2312");
t.setOutputProperties(properties);
//要害的一步, 挪用Transformer工具 (XSLT引擎)的transform()要领,该要领的第一
//个参数是DOMSource工具,第二个参数是DOMResult工具。
t.transform(domSource,domResult);
//建设缺省的Xalan XML Serializer,利用它将姑且存放在DOMResult工具
//(domResult)中的内容以输出流的形式输出到输出介质中。
Serializer serializer = SerializerFactory.getSerializer
(OutputProperties.getDefaultMethodProperties("xml"));
//配置Xalan XML Serializer的输出属性,这一步必不行少,不然也大概发生
//所谓的"汉字问题"。
Properties prop=serializer.getOutputFormat();
prop.setProperty("encoding","GB2312");
serializer.setOutputFormat(prop);
//建设一个File工具,代表DOM Tree所包括的数据的输出介质,这是一个XML文件。
File f = new File ("xuser3.xml");
//建设文件输出流工具fos,请寄望结构函数的参数。
FileOutputStream fos=new FileOutputStream(f);
//配置Xalan XML Serializer的输出流。
serializer.setOutputStream(fos);
//串行化输出功效。
serializer.asDOMSerializer().serialize(domResult.getNode());
}
catch (Exception tce)
{
tce.printStackTrace();
}
#p#分页标题#e#
这个要领不太常用,并且好像有点多此一举,所以我们就不展开接头了。完整的例子请参考下列文件: AddRecord4.java(见附件)、user.xml(见附件)。该例子的运行情况为:Windows XP Professional、JDK 1.3.1。为了可以或许正常编译运行AddRecord4.java这个措施,你需要到网址http://xml.apache.org/dist/去下载安装Apache Xalan和Apache Xerces。
可能是到网址http://java.sun.com/xml/download.html去下载安装Java XML Pack。因为最新的Java XML Pack(Winter 01 版)包括了Apache Xalan和Apache Xerces技能在内。
结论:
本文大略的接头了Java语言编程中更新XML文档的四种要领。第一种要领是直接读写XML文件,这种要领十分繁琐,并且较量容易堕落,少少利用,除非你需要开拓本身的XML Parser,不然不会利用这种要领。第二种要领是利用Apache Crimson的XmlDocument类,这种要领极为简朴,利用利便,假如你选用Apache Crimson作为XML理会器,那么不妨利用这种要领,不外这种要领好像效率不高(源于效率低下的Apache Crimson),别的,高版本的JAXP可能是Java XML Pack、JWSDP不直接支持Apache Crimson,亦即这种要领不通用。第三种要领是利用JAXP的XSLT引擎(Transformer类)来输出XML文档,这种要领也许是尺度的要领了,利用起来十分机动,出格是可以自如节制输格外式,我们推荐回收这种要领。第四种要领是第三种要领的变种,回收了Xalan XML Serializer,引入了串行化操纵,对付大量文档的修改/输出有优越性,惋惜的是要反复配置XSLT引擎的属性和XML Serializer的输出属性,较量贫苦,并且依赖于Apache Xalan和Apache Xerces技能,通用性略显不敷。
除了上面接头的四种要领以外,实际上应用此外API(好比JDOM、Castor、XML4J、Oracle XML Parser V2)也有许多步伐可以更新XML文档,限于篇幅,在这里就纷歧一接头了。