Ruby - XML、XSLT 和 XPath 教程
什么是 XML?
可扩展标记语言 (XML) 是一种类似于 HTML 或 SGML 的标记语言。它由万维网联盟推荐,并作为开放标准提供。
XML 是一种便携式开源语言,允许程序员开发可以被其他应用程序读取的应用程序,而不受操作系统和/或开发语言的影响。
XML 非常适合跟踪少量到中等量的信息,而无需 SQL 数据库支持。
XML 解析器架构和 API
XML 解析器有两种不同的类型 −
SAX-like (Stream interfaces) − 在这里,您为感兴趣的事件注册回调,然后让解析器继续处理文档。这在文档很大或内存有限时非常有用,它在从磁盘读取文件时解析文件,整个文件不会存储在内存中。
DOM-like (Object tree interfaces) − 这是万维网联盟的推荐,其中整个文件被读入内存并以层次结构(基于树的形式)存储,以表示 XML 文档的所有特性。
显然,当处理大文件时,SAX 的处理速度不如 DOM 快。另一方面,独占使用 DOM 会严重消耗资源,尤其是用于大量小文件时。
SAX 是只读的,而 DOM 允许对 XML 文件进行更改。由于这两种不同的 API 实际上互为补充,因此没有理由不在大型项目中使用两者。
使用 Ruby 解析和创建 XML
操作 XML 最常见的方式是使用 Sean Russell 的 REXML 库。自 2002 年起,REXML 已成为标准 Ruby 发行版的一部分。
REXML 是一个纯 Ruby XML 处理器,符合 XML 1.0 标准。它是一个 非验证 处理器,通过了所有 OASIS 非验证一致性测试。
与其它可用解析器相比,REXML 解析器具有以下优势 −
- 它 100% 用 Ruby 编写。
- 它可用于 SAX 和 DOM 解析。
- 它轻量级,代码行数不到 2000 行。
- 方法和 class 非常易于理解。
- 基于 SAX2 的 API 和完整的 XPath 支持。
- 随 Ruby 安装一起提供,无需单独安装。
对于我们所有的 XML 代码示例,让我们使用一个简单的 XML 文件作为输入 −
<collection shelf = "New Arrivals">
<movie title = "Enemy Behind">
<type>War, Thriller</type>
<format>DVD</format>
<year>2003</year>
<rating>PG</rating>
<stars>10</stars>
<description>Talk about a US-Japan war</description>
</movie>
<movie title = "Transformers">
<type>Anime, Science Fiction</type>
<format>DVD</format>
<year>1989</year>
<rating>R</rating>
<stars>8</stars>
<description>A schientific fiction</description>
</movie>
<movie title = "Trigun">
<type>Anime, Action</type>
<format>DVD</format>
<episodes>4</episodes>
<rating>PG</rating>
<stars>10</stars>
<description>Vash the Stampede!</description>
</movie>
<movie title = "Ishtar">
<type>Comedy</type>
<format>VHS</format>
<rating>PG</rating>
<stars>2</stars>
<description>Viewable boredom</description>
</movie>
</collection>
类似 DOM 的解析
我们首先以 树状方式 解析 XML 数据。我们首先引入 rexml/document 库;通常我们会执行 include REXML 以方便地将它导入到顶层命名空间中。
#!/usr/bin/ruby -w
require 'rexml/document'
include REXML
xmlfile = File.new("movies.xml")
xmldoc = Document.new(xmlfile)
# 现在获取根元素
root = xmldoc.root
puts "Root element : " + root.attributes["shelf"]
# 这将输出所有电影标题。
xmldoc.elements.each("collection/movie"){
|e| puts "Movie Title : " + e.attributes["title"]
}
# 这将输出所有电影类型。
xmldoc.elements.each("collection/movie/type") {
|e| puts "Movie Type : " + e.text
}
# 这将输出所有电影描述。
xmldoc.elements.each("collection/movie/description") {
|e| puts "Movie Description : " + e.text
}
这将产生以下结果 −
Root element : New Arrivals Movie Title : Enemy Behind Movie Title : Transformers Movie Title : Trigun Movie Title : Ishtar Movie Type : War, Thriller Movie Type : Anime, Science Fiction Movie Type : Anime, Action Movie Type : Comedy Movie Description : Talk about a US-Japan war Movie Description : A schientific fiction Movie Description : Vash the Stampede! Movie Description : Viewable boredom
类似 SAX 的解析
为了以 流式方式 处理相同的数据文件 movies.xml,我们将定义一个 监听器 class,其方法将作为解析器 回调 的目标。
注意 − 不建议对小文件使用类似 SAX 的解析,这只是一个演示示例。
#!/usr/bin/ruby -w
require 'rexml/document'
require 'rexml/streamlistener'
include REXML
class MyListener
include REXML::StreamListener
def tag_start(*args)
puts "tag_start: #{args.map {|x| x.inspect}.join(', ')}"
end
def text(data)
return if data =~ /^\w*$/ # 仅空白字符
abbrev = data[0..40] + (data.length > 40 ? "..." : "")
puts " text : #{abbrev.inspect}"
end
end
list = MyListener.new
xmlfile = File.new("movies.xml")
Document.parse_stream(xmlfile, list)
这将产生以下结果 −
tag_start: "collection", {"shelf"=>"New Arrivals"}
tag_start: "movie", {"title"=>"Enemy Behind"}
tag_start: "type", {}
text : "War, Thriller"
tag_start: "format", {}
tag_start: "year", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
text : "Talk about a US-Japan war"
tag_start: "movie", {"title"=>"Transformers"}
tag_start: "type", {}
text : "Anime, Science Fiction"
tag_start: "format", {}
tag_start: "year", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
text : "A schientific fiction"
tag_start: "movie", {"title"=>"Trigun"}
tag_start: "type", {}
text : "Anime, Action"
tag_start: "format", {}
tag_start: "episodes", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
text : "Vash the Stampede!"
tag_start: "movie", {"title"=>"Ishtar"}
tag_start: "type", {}
tag_start: "format", {}
tag_start: "rating", {}
tag_start: "stars", {}
tag_start: "description", {}
text : "Viewable boredom"
XPath 和 Ruby
查看 XML 的另一种方式是 XPath。这是一种伪语言,用于描述如何在 XML 文档中定位特定元素和属性,将该文档视为一个逻辑有序的树。
REXML 通过 XPath class 支持 XPath。它假设基于树的解析(document object model),如上文所示。
#!/usr/bin/ruby -w
require 'rexml/document'
include REXML
xmlfile = File.new("movies.xml")
xmldoc = Document.new(xmlfile)
# 找到的第一个电影的信息
movie = XPath.first(xmldoc, "//movie")
p movie
# 打印所有电影类型
XPath.each(xmldoc, "//type") { |e| puts e.text }
# 获取所有电影格式的数组。
names = XPath.match(xmldoc, "//format").map {|x| x.text }
p names
这将产生以下结果 −
<movie title = 'Enemy Behind'> ... </> War, Thriller Anime, Science Fiction Anime, Action Comedy ["DVD", "DVD", "DVD", "VHS"]
XSLT 和 Ruby
Ruby 可以使用的有两个 XSLT 解析器。这里简要描述每个解析器。
Ruby-Sablotron
此解析器由 Masayoshi Takahashi 编写和维护。它主要为 Linux OS 编写,需要以下库 −
- Sablot
- Iconv
- Expat
您可以在 Ruby-Sablotron 找到此模块。
XSLT4R
XSLT4R 由 Michael Neumann 编写,可在 RAA 的 Library 部分的 XML 下找到。XSLT4R 使用简单的命令行界面,尽管它也可以在第三方应用程序中使用来转换 XML 文档。
XSLT4R 需要 XMLScan 才能运行,XMLScan 包含在 XSLT4R 存档中,并且也是一个 100% 的 Ruby 模块。这些模块可以使用标准的 Ruby 安装方法(即 ruby install.rb)安装。
XSLT4R 的语法如下 −
ruby xslt.rb stylesheet.xsl document.xml [arguments]
如果您想在应用程序中从内部使用 XSLT4R,您可以包含 XSLT 并输入所需的参数。以下是示例 −
require "xslt"
stylesheet = File.readlines("stylesheet.xsl").to_s
xml_doc = File.readlines("document.xml").to_s
arguments = { 'image_dir' => '/....' }
sheet = XSLT::Stylesheet.new( stylesheet, arguments )
# 输出到 StdOut
sheet.apply( xml_doc )
# 输出到 'str'
str = ""
sheet.output = [ str ]
sheet.apply( xml_doc )
进一步阅读
有关 REXML Parser 的完整细节,请参阅 REXML Parser 的标准文档 REXML Parser Documentation。