在 Linux 上解析 XML 文件的 5 种简单方法

XML(可扩展标记语言)是一种广泛使用的数据格式,用于在不同系统之间交换结构化信息。它具有人类可读性和平台无关性,使其成为各种应用程序的理想选择。在 Linux 上,有多种解析 XML 文件的方法,在本文中,我们将讨论五种简单的技术。我们还将研究为什么解析必不可少、它的优点和常见的故障排除技巧。

为什么要解析 XML 文件?

解析 XML 文件涉及读取其内容并将其转换为结构化数据格式,例如树,可以轻松操作或查询。出于各种原因,解析是必不可少的:

  • 从 XML 文件中提取特定信息。
  • 将数据转换为不同的格式,例如 HTML 或 JSON。
  • 根据模式或 DTD(文档类型定义)验证 XML 文件。
  • 搜索文件中的特定元素或属性。

XML 文件的优点

可移植性:XML 文件可以被各种编程语言和工具解析和生成,使其成为一种通用的数据交换格式。
人类可读性:XML 是一种纯文本格式,允许开发人员轻松阅读和理解其结构。
标准化:XML 是一个完善的标准,有助于不同系统和应用程序之间的互操作性。
可扩展性:XML 可以高效地表示大量层次化的数据,使其适用于大规模的应用程序。

在 Linux 上解析 XML 文件的 5 种简单方法

1. XMLStarlet

XMLStarlet 是一个用于处理 XML 文档的命令行实用程序。它功能丰富,提供选择、转换、验证和编辑 XML 文件等功能。安装 XMLStarlet:

sudo apt-get install xmlstarlet

要解析 XML 文件并提取特定元素,请使用“sel”命令:

xmlstarlet sel -t -v "//element_name" input.xml

以下是命令组件的细分:

  • xmlstarlet:这是用于处理 XML 文件的命令行实用程序。
  • sel:此子命令代表“select”,用于从 XML 文件中查询数据。
  • -t:此选项表示模板模式,它​​允许您指定处理 XML 文件的操作顺序。
  • -v:该选项是“value-of”的缩写,用于提取匹配的XML元素的文本内容。
  • “//element_name”:这是一个 XPath 表达式,它选择 XML 文件中“element_name”元素的所有实例,而不管它们在文档层次结构中的位置。双正斜杠 (//) 表示对 element_name 的递归搜索,而“element_name”应替换为您要提取的 XML 元素的实际名称。
  • input.xml:这是您要从中解析和提取数据的输入 XML 文件。将“input.xml”替换为 XML 文件的实际文件名或路径。

实际示例:考虑以下 XML 文件 (sample.xml):

<fruits>
<fruit>
<name>Apple</name>
<color>Red</color>
</fruit>
<fruit>
<name>Banana</name>
<color>Yellow</color>
</fruit>
</fruits>

如果要提取所有水果的名称,可以使用以下命令:

xmlstarlet sel -t -v "//name" sample.xml

此命令将输出:

Apple
Banana

XMLStarlet ‘sel’ 命令是一个强大的工具,用于从 XML 文件中查询和提取数据。您可以进一步细化 XPath 表达式,以根据元素的属性、位置或其他条件来选择元素。

2.xmllint

xmllint 是 libxml2 库提供的命令行实用程序。它可以解析、验证和格式化 XML 文件。要安装 xmllint:

sudo apt-get install libxml2-utils

要解析 XML 文件并检索特定元素,请使用“–xpath”选项:

xmllint --xpath "//element_name" input.xml

–xpath 选项允许您使用 XPath 表达式从 XML 文件中查询和提取数据。下面是命令的分解:

  • xmllint:这是用于处理来自 libxml2 库的 XML 文件的命令行实用程序。
  • –xpath:此选项用于根据输入 XML 文件评估 XPath 表达式并提取匹配的节点。
  • “//element_name”:这是一个 XPath 表达式,它选择 XML 文件中“element_name”元素的所有实例,而不管它们在文档层次结构中的位置。双正斜杠 (//) 表示对 element_name 的递归搜索,而“element_name”应替换为您要提取的 XML 元素的实际名称。
  • input.xml:这是您要从中解析和提取数据的输入 XML 文件。将“input.xml”替换为 XML 文件的实际文件名或路径。

实际示例:考虑以下 XML 文件 (sample.xml):

<fruits>
<fruit>
<name>Apple</name>
<color>Red</color>
</fruit>
<fruit>
<name>Banana</name>
<color>Yellow</color>
</fruit>
</fruits>

如果要提取所有水果的名称,可以使用以下命令:

xmllint --xpath "//name" sample.xml

此命令将输出:

<name>Apple</name><name>Banana</name>

请注意,与 XMLStarlet 不同,xmllint 的输出包括匹配元素的封闭 XML 标记。您可以进一步细化 XPath 表达式,以根据元素的属性、位置或其他条件来选择元素。xmllint 实用程序提供了用于验证、格式化和处理 XML 文件的附加选项,使其成为处理 XML 数据的强大工具。

3.Python的xml.etree.ElementTree模块

Python 的 xml.etree.ElementTree 模块为解析和操作 XML 文件提供了一个轻量级且高效的 API。使用 ElementTree 解析 XML 文件:

import xml.etree.ElementTree as ET

tree = ET.parse('input.xml')
root = tree.getroot()

for element in root.findall('element_name'):
print(element.text)

给定的 Python 代码片段使用 xml.etree.ElementTree 模块来解析 XML 文件并使用其标签名称提取特定元素的文本内容。这是代码的细分:

  • import xml.etree.ElementTree as ET:此行导入 xml.etree.ElementTree 模块并为其提供一个较短的别名 ET,以便于参考。
  • tree = ET.parse(‘input.xml’):ET.parse() 函数读取输入 XML 文件并返回一个 ElementTree 对象。将“input.xml”替换为 XML 文件的实际文件名或路径。
  • root = tree.getroot():getroot() 方法将已解析的 XML 文档的根元素作为 Element 对象返回。
  • for element in root.findall(‘element_name’): : findall() 方法在以当前元素 (root) 为根的子树中搜索具有指定标记名称 (‘element_name’) 的所有元素。将“element_name”替换为您要提取的 XML 元素的实际名称。该行还启动了一个 for 循环,该循环遍历匹配元素的列表。
  • print(element.text):这一行打印匹配元素的文本内容。Element 对象的文本属性表示 XML 元素的开始和结束标记之间的文本内容。

实际示例:考虑以下 XML 文件 (sample.xml):

<fruits>
<fruit>
<name>Apple</name>
<color>Red</color>
</fruit>
<fruit>
<name>Banana</name>
<color>Yellow</color>
</fruit>
</fruits>

如果您想使用提供的 Python 代码片段提取所有水果的名称,您可以将“element_name”替换为“name”:

import xml.etree.ElementTree as ET

tree = ET.parse('sample.xml')
root = tree.getroot()

for element in root.findall('name'):
print(element.text)

该脚本将输出:

Apple
Banana

xml.etree.ElementTree 模块提供了一个轻量级高效的 API,用于在 Python 中解析、查询和操作 XML 文件。您可以使用更复杂的 XPath 表达式或通过以编程方式导航 XML 树结构来进一步优化查询。

4. Perl 的 XML::LibXML 模块

Perl 的 XML::LibXML 模块为解析、验证和操作 XML 文件提供了强大而灵活的 API。安装模块:

sudo cpan install XML::LibXML

要使用 XML::LibXML 解析 XML 文件:

use XML::LibXML;

my $
parser = XML::LibXML->new();
my $doc = $parser->parse_file('input.xml');
my $root = $doc->documentElement();

foreach my $element ($root->findnodes('//element_name')) {
print $element->textContent(), "\n";
}

给定的 Perl 代码片段使用 XML::LibXML 模块来解析 XML 文件并使用其标签名称提取特定元素的文本内容。这是代码的细分:

  • 使用 XML::LibXML;: 这一行导入了 XML::LibXML 模块,它提供了一个强大而灵活的 API,用于在 Perl 中解析、验证和操作 XML 文件。
  • 我的 $parser = XML::LibXML->new(); :这一行创建了一个新的 XML::LibXML 解析器对象。
  • 我的 $doc = $parser->parse_file(‘input.xml’); : parse_file() 方法读取输入的 XML 文件并返回一个 XML::LibXML::Document 对象。将“input.xml”替换为 XML 文件的实际文件名或路径。
  • 我的 $root = $doc->documentElement(); : documentElement() 方法将已解析的 XML 文档的根元素作为 XML::LibXML::Element 对象返回。
  • foreach my $element ($root->findnodes(‘//element_name’)): : findnodes() 方法针对当前元素 ($root) 计算 XPath 表达式并返回匹配元素的列表。XPath 表达式“//element_name”选择 XML 文件中“element_name”元素的所有实例,而不管它们在文档层次结构中的位置。将“element_name”替换为您要提取的 XML 元素的实际名称。该行还启动了一个 foreach 循环,该循环遍历匹配元素的列表。
  • 打印 $element->textContent(), “\n”; : 该行打印匹配元素的文本内容,后跟一个换行符。XML::LibXML::Element 对象的 textContent() 方法返回 XML 元素的开始和结束标记之间的文本内容。

例如,考虑以下 XML 文件 (sample.xml):

<fruits>
<fruit>
<name>Apple</name>
<color>Red</color>
</fruit>
<fruit>
<name>Banana</name>
<color>Yellow</color>
</fruit>
</fruits>

如果您想使用提供的 Perl 代码片段提取所有水果的名称,您可以将“element_name”替换为“name”:

use XML::LibXML;

my $parser = XML::LibXML->new();
my $doc = $parser->parse_file('sample.xml');
my $root = $doc->documentElement();

foreach my $element ($root->findnodes('//name')) {
print $element->textContent(), "\n";
}

该脚本将输出:

Apple
Banana

XML::LibXML 模块提供了一个全面的 API,用于在 Perl 中解析、查询和操作 XML 文件。您可以使用更复杂的 XPath 表达式或通过以编程方式导航 XML 树结构来进一步优化查询。

5.Saxon-HE

Saxon-HE 是一个开源的 XSLT 和 XQuery 处理器。它可用于使用 XPath 或 XQuery 表达式解析 XML 文件。要安装 Saxon-HE,请从官方网站下载 JAR 文件:

wget https://repo1.maven.org/maven2/net/sf/saxon/Saxon-HE/10.6/Saxon-HE-10.6.jar

要使用 Saxon-HE 解析 XML 文件:

java -cp Saxon-HE-10.6.jar net.sf.saxon.Query -s:input.xml -qs:"//element_name"
  • java:这是运行 Java 应用程序的命令行实用程序。
  • -cp Saxon-HE-10.6.jar:此选项设置 Java 应用程序的类路径以包含 Saxon-HE JAR 文件(在本例中为 10.6 版)。将 Saxon-HE-10.6.jar 替换为您下载的 Saxon-HE JAR 文件的实际文件名或路径。
  • net.sf.saxon.Query:这是 Saxon-HE 库的主要类,它提供了一个用于计算 XPath 和 XQuery 表达式的命令行界面。
  • -s:input.xml:此选项指定要从中解析和提取数据的输入 XML 文件。将 input.xml 替换为 XML 文件的实际文件名或路径。
  • -qs:”//element_name ”:此选项根据输入的 XML 文件评估给定的 XPath 表达式。XPath
  • 表达式“//element_name”选择 XML 文件中“element_name”元素的所有实例,无论它们在文档层次结构中的位置如何。将 element_name 替换为您要提取的 XML 元素的实际名称。

实际示例:考虑以下 XML 文件 (sample.xml):

<fruits>
<fruit>
<name>Apple</name>
<color>Red</color>
</fruit>
<fruit>
<name>Banana</name>
<color>Yellow</color>
</fruit>
</fruits>

如果您想使用提供的命令行提取所有水果的名称,您可以将 element_name 替换为名称:

java -cp Saxon-HE-10.6.jar net.sf.saxon.Query -s:sample.xml -qs:"//name"

此命令将输出:

Apple
Banana

Saxon-HE 是一个强大而灵活的工具,用于使用 XPath、XSLT 和 XQuery 解析、查询和转换 XML 文件。您可以使用更复杂的 XPath 表达式或通过应用 XSLT 样式表或 XQuery 脚本来转换 XML 数据来进一步优化您的查询。

常见故障排除提示

解析 XML 文件时,您可能会遇到一些常见问题。以下是一些故障排除提示:

  • 检查格式是否正确:通过验证 XML 文件是否具有正确的结构(包括单个根元素、正确嵌套的元素和正确的属性使用)来确保 XML 文件格式正确。
  • 针对模式/DTD 进行验证:如果 XML 文件不符合模式或 DTD,则可能会发生解析错误。使用 xmllint 或 XMLStarlet 等验证工具来检查模式/DTD 一致性。
  • 处理命名空间:如果您的 XML 文件使用命名空间,您需要在解析器中注册它们以正确查询元素和属性。
  • 处理编码问题:确保 XML 文件具有在 XML 声明中指定的正确编码(例如,UTF-8)并且您的解析器支持该编码。
  • 更新库和工具:确保您拥有用于解析的最新版本的库和工具,以避免出现兼容性问题或错误。

结论

在 Linux 上解析 XML 文件是开发人员和系统管理员的一项常见任务。本文介绍了在 Linux 上解析 XML 文件的五种简单方法,包括 XMLStarlet、xmllint、Python 的 xml.etree.ElementTree 模块、Perl 的 XML::LibXML 模块和 Saxon-HE。了解解析 XML 文件的优势以及一些常见的故障排除技巧,将有助于您在项目中高效且有效地处理 XML 数据。

类似文章

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注