在 Linux 上解析 XML 文件的 5 种简单方法

XML（可扩展标记语言）是一种广泛使用的数据格式，用于在不同系统之间交换结构化信息。它具有人类可读性和平台无关性，使其成为各种应用程序的理想选择。在 Linux 上，有多种解析 XML 文件的方法，在本文中，我们将讨论五种简单的技术。我们还将研究为什么解析必不可少、它的优点和常见的故障排除技巧。

为什么要解析 XML 文件？

解析 XML 文件涉及读取其内容并将其转换为结构化数据格式，例如树，可以轻松操作或查询。出于各种原因，解析是必不可少的：

从 XML 文件中提取特定信息。
将数据转换为不同的格式，例如 HTML 或 JSON。
根据模式或 DTD（文档类型定义）验证 XML 文件。
搜索文件中的特定元素或属性。

XML 文件的优点

可移植性：XML 文件可以被各种编程语言和工具解析和生成，使其成为一种通用的数据交换格式。
人类可读性：XML 是一种纯文本格式，允许开发人员轻松阅读和理解其结构。
标准化：XML 是一个完善的标准，有助于不同系统和应用程序之间的互操作性。
可扩展性：XML 可以高效地表示大量层次化的数据，使其适用于大规模的应用程序。

也可以看看:

在 Linux 上解析 XML 文件的 5 种简单方法

1. XMLStarlet

XMLStarlet 是一个用于处理 XML 文档的命令行实用程序。它功能丰富，提供选择、转换、验证和编辑 XML 文件等功能。安装 XMLStarlet：

sudo apt-get install xmlstarlet

要解析 XML 文件并提取特定元素，请使用“sel”命令：

xmlstarlet sel -t -v "//element_name" input.xml

以下是命令组件的细分：

xmlstarlet：这是用于处理 XML 文件的命令行实用程序。
sel：此子命令代表“select”，用于从 XML 文件中查询数据。
-t：此选项表示模板模式，它允许您指定处理 XML 文件的操作顺序。
-v：该选项是“value-of”的缩写，用于提取匹配的XML元素的文本内容。
“//element_name”：这是一个 XPath 表达式，它选择 XML 文件中“element_name”元素的所有实例，而不管它们在文档层次结构中的位置。双正斜杠 (//) 表示对 element_name 的递归搜索，而“element_name”应替换为您要提取的 XML 元素的实际名称。
input.xml：这是您要从中解析和提取数据的输入 XML 文件。将“input.xml”替换为 XML 文件的实际文件名或路径。

实际示例：考虑以下 XML 文件 (sample.xml)：

<fruits>
<fruit>
<name>Apple</name>
<color>Red</color>
</fruit>
<fruit>
<name>Banana</name>
<color>Yellow</color>
</fruit>
</fruits>

如果要提取所有水果的名称，可以使用以下命令：

xmlstarlet sel -t -v "//name" sample.xml

此命令将输出：

Apple
Banana

XMLStarlet ‘sel’ 命令是一个强大的工具，用于从 XML 文件中查询和提取数据。您可以进一步细化 XPath 表达式，以根据元素的属性、位置或其他条件来选择元素。

2.xmllint

xmllint 是 libxml2 库提供的命令行实用程序。它可以解析、验证和格式化 XML 文件。要安装 xmllint：

sudo apt-get install libxml2-utils

要解析 XML 文件并检索特定元素，请使用“–xpath”选项：

xmllint --xpath "//element_name" input.xml

–xpath 选项允许您使用 XPath 表达式从 XML 文件中查询和提取数据。下面是命令的分解：

xmllint：这是用于处理来自 libxml2 库的 XML 文件的命令行实用程序。
–xpath：此选项用于根据输入 XML 文件评估 XPath 表达式并提取匹配的节点。
“//element_name”：这是一个 XPath 表达式，它选择 XML 文件中“element_name”元素的所有实例，而不管它们在文档层次结构中的位置。双正斜杠 (//) 表示对 element_name 的递归搜索，而“element_name”应替换为您要提取的 XML 元素的实际名称。
input.xml：这是您要从中解析和提取数据的输入 XML 文件。将“input.xml”替换为 XML 文件的实际文件名或路径。

实际示例：考虑以下 XML 文件 (sample.xml)：

<fruits>
<fruit>
<name>Apple</name>
<color>Red</color>
</fruit>
<fruit>
<name>Banana</name>
<color>Yellow</color>
</fruit>
</fruits>

如果要提取所有水果的名称，可以使用以下命令：

xmllint --xpath "//name" sample.xml

此命令将输出：

<name>Apple</name><name>Banana</name>

请注意，与 XMLStarlet 不同，xmllint 的输出包括匹配元素的封闭 XML 标记。您可以进一步细化 XPath 表达式，以根据元素的属性、位置或其他条件来选择元素。xmllint 实用程序提供了用于验证、格式化和处理 XML 文件的附加选项，使其成为处理 XML 数据的强大工具。

3.Python的xml.etree.ElementTree模块

Python 的 xml.etree.ElementTree 模块为解析和操作 XML 文件提供了一个轻量级且高效的 API。使用 ElementTree 解析 XML 文件：

import xml.etree.ElementTree as ET

tree = ET.parse('input.xml')
root = tree.getroot()

for element in root.findall('element_name'):
print(element.text)

给定的 Python 代码片段使用 xml.etree.ElementTree 模块来解析 XML 文件并使用其标签名称提取特定元素的文本内容。这是代码的细分：

import xml.etree.ElementTree as ET：此行导入 xml.etree.ElementTree 模块并为其提供一个较短的别名 ET，以便于参考。
tree = ET.parse(‘input.xml’)：ET.parse() 函数读取输入 XML 文件并返回一个 ElementTree 对象。将“input.xml”替换为 XML 文件的实际文件名或路径。
root = tree.getroot()：getroot() 方法将已解析的 XML 文档的根元素作为 Element 对象返回。
for element in root.findall(‘element_name’): : findall() 方法在以当前元素 (root) 为根的子树中搜索具有指定标记名称 (‘element_name’) 的所有元素。将“element_name”替换为您要提取的 XML 元素的实际名称。该行还启动了一个 for 循环，该循环遍历匹配元素的列表。
print(element.text)：这一行打印匹配元素的文本内容。Element 对象的文本属性表示 XML 元素的开始和结束标记之间的文本内容。

实际示例：考虑以下 XML 文件 (sample.xml)：

<fruits>
<fruit>
<name>Apple</name>
<color>Red</color>
</fruit>
<fruit>
<name>Banana</name>
<color>Yellow</color>
</fruit>
</fruits>

如果您想使用提供的 Python 代码片段提取所有水果的名称，您可以将“element_name”替换为“name”：

import xml.etree.ElementTree as ET

tree = ET.parse('sample.xml')
root = tree.getroot()

for element in root.findall('name'):
print(element.text)

该脚本将输出：

Apple
Banana

xml.etree.ElementTree 模块提供了一个轻量级高效的 API，用于在 Python 中解析、查询和操作 XML 文件。您可以使用更复杂的 XPath 表达式或通过以编程方式导航 XML 树结构来进一步优化查询。

4. Perl 的 XML::LibXML 模块

Perl 的 XML::LibXML 模块为解析、验证和操作 XML 文件提供了强大而灵活的 API。安装模块：

sudo cpan install XML::LibXML

要使用 XML::LibXML 解析 XML 文件：

use XML::LibXML;

my $
parser = XML::LibXML->new();
my $doc = $parser->parse_file('input.xml');
my $root = $doc->documentElement();

foreach my $element ($root->findnodes('//element_name')) {
print $element->textContent(), "\n";
}

给定的 Perl 代码片段使用 XML::LibXML 模块来解析 XML 文件并使用其标签名称提取特定元素的文本内容。这是代码的细分：

使用 XML::LibXML；: 这一行导入了 XML::LibXML 模块，它提供了一个强大而灵活的 API，用于在 Perl 中解析、验证和操作 XML 文件。
我的 $parser = XML::LibXML->new(); ：这一行创建了一个新的 XML::LibXML 解析器对象。
我的 $doc = $parser->parse_file(‘input.xml’); : parse_file() 方法读取输入的 XML 文件并返回一个 XML::LibXML::Document 对象。将“input.xml”替换为 XML 文件的实际文件名或路径。
我的 $root = $doc->documentElement(); : documentElement() 方法将已解析的 XML 文档的根元素作为 XML::LibXML::Element 对象返回。
foreach my $element ($root->findnodes(‘//element_name’)): : findnodes() 方法针对当前元素 ($root) 计算 XPath 表达式并返回匹配元素的列表。XPath 表达式“//element_name”选择 XML 文件中“element_name”元素的所有实例，而不管它们在文档层次结构中的位置。将“element_name”替换为您要提取的 XML 元素的实际名称。该行还启动了一个 foreach 循环，该循环遍历匹配元素的列表。
打印 $element->textContent(), “\n”; : 该行打印匹配元素的文本内容，后跟一个换行符。XML::LibXML::Element 对象的 textContent() 方法返回 XML 元素的开始和结束标记之间的文本内容。

例如，考虑以下 XML 文件 (sample.xml)：

<fruits>
<fruit>
<name>Apple</name>
<color>Red</color>
</fruit>
<fruit>
<name>Banana</name>
<color>Yellow</color>
</fruit>
</fruits>

如果您想使用提供的 Perl 代码片段提取所有水果的名称，您可以将“element_name”替换为“name”：

use XML::LibXML;

my $parser = XML::LibXML->new();
my $doc = $parser->parse_file('sample.xml');
my $root = $doc->documentElement();

foreach my $element ($root->findnodes('//name')) {
print $element->textContent(), "\n";
}

该脚本将输出：

Apple
Banana

XML::LibXML 模块提供了一个全面的 API，用于在 Perl 中解析、查询和操作 XML 文件。您可以使用更复杂的 XPath 表达式或通过以编程方式导航 XML 树结构来进一步优化查询。

5.Saxon-HE

Saxon-HE 是一个开源的 XSLT 和 XQuery 处理器。它可用于使用 XPath 或 XQuery 表达式解析 XML 文件。要安装 Saxon-HE，请从官方网站下载 JAR 文件：

wget https://repo1.maven.org/maven2/net/sf/saxon/Saxon-HE/10.6/Saxon-HE-10.6.jar

要使用 Saxon-HE 解析 XML 文件：

java -cp Saxon-HE-10.6.jar net.sf.saxon.Query -s:input.xml -qs:"//element_name"

java：这是运行 Java 应用程序的命令行实用程序。
-cp Saxon-HE-10.6.jar：此选项设置 Java 应用程序的类路径以包含 Saxon-HE JAR 文件（在本例中为 10.6 版）。将 Saxon-HE-10.6.jar 替换为您下载的 Saxon-HE JAR 文件的实际文件名或路径。
net.sf.saxon.Query：这是 Saxon-HE 库的主要类，它提供了一个用于计算 XPath 和 XQuery 表达式的命令行界面。
-s:input.xml：此选项指定要从中解析和提取数据的输入 XML 文件。将 input.xml 替换为 XML 文件的实际文件名或路径。
-qs:”//element_name ”：此选项根据输入的 XML 文件评估给定的 XPath 表达式。XPath
表达式“//element_name”选择 XML 文件中“element_name”元素的所有实例，无论它们在文档层次结构中的位置如何。将 element_name 替换为您要提取的 XML 元素的实际名称。

实际示例：考虑以下 XML 文件 (sample.xml)：

<fruits>
<fruit>
<name>Apple</name>
<color>Red</color>
</fruit>
<fruit>
<name>Banana</name>
<color>Yellow</color>
</fruit>
</fruits>

如果您想使用提供的命令行提取所有水果的名称，您可以将 element_name 替换为名称：

java -cp Saxon-HE-10.6.jar net.sf.saxon.Query -s:sample.xml -qs:"//name"

此命令将输出：

Apple
Banana

Saxon-HE 是一个强大而灵活的工具，用于使用 XPath、XSLT 和 XQuery 解析、查询和转换 XML 文件。您可以使用更复杂的 XPath 表达式或通过应用 XSLT 样式表或 XQuery 脚本来转换 XML 数据来进一步优化您的查询。

常见故障排除提示

解析 XML 文件时，您可能会遇到一些常见问题。以下是一些故障排除提示：

检查格式是否正确：通过验证 XML 文件是否具有正确的结构（包括单个根元素、正确嵌套的元素和正确的属性使用）来确保 XML 文件格式正确。
针对模式/DTD 进行验证：如果 XML 文件不符合模式或 DTD，则可能会发生解析错误。使用 xmllint 或 XMLStarlet 等验证工具来检查模式/DTD 一致性。
处理命名空间：如果您的 XML 文件使用命名空间，您需要在解析器中注册它们以正确查询元素和属性。
处理编码问题：确保 XML 文件具有在 XML 声明中指定的正确编码（例如，UTF-8）并且您的解析器支持该编码。
更新库和工具：确保您拥有用于解析的最新版本的库和工具，以避免出现兼容性问题或错误。

结论

在 Linux 上解析 XML 文件是开发人员和系统管理员的一项常见任务。本文介绍了在 Linux 上解析 XML 文件的五种简单方法，包括 XMLStarlet、xmllint、Python 的 xml.etree.ElementTree 模块、Perl 的 XML::LibXML 模块和 Saxon-HE。了解解析 XML 文件的优势以及一些常见的故障排除技巧，将有助于您在项目中高效且有效地处理 XML 数据。

在 Linux 上解析 XML 文件的 5 种简单方法

为什么要解析 XML 文件？

XML 文件的优点

也可以看看:

1. XMLStarlet

2.xmllint

3.Python的xml.etree.ElementTree模块

4. Perl 的 XML::LibXML 模块

5.Saxon-HE

常见故障排除提示

结论

如何在 Linux Mint 21/20 上安装 KiCad

如何在Windows 10上快速创建MacOS可引导USB

您现在可以从 Ubuntu 23.04 升级到 Ubuntu 23.10，具体方法如下

如何从22.10升级到Ubuntu 23.04(动态升级到月球)

如何在 AlmaLinux 9 上安装带有 Nginx 的 Varnish

在 Linux 中使用 apt-get 命令的终极指南

为什么要解析 XML 文件？

XML 文件的优点

也可以看看:

1. XMLStarlet

2.xmllint

3.Python的xml.etree.ElementTree模块

4. Perl 的 XML::LibXML 模块

5.Saxon-HE

常见故障排除提示

结论

类似文章