C#利用HtmlAgilityPack与XPath解析网页

HtmlAgilityPack(简称HAP)是C#编写的HTML解析库,支持DOM读写、 支持XPATH和XSLT。HAP为开源项目,小巧且高效。官网地址https://html-agility-pack.net/

1.下载安装HAP
HAP通过NuGet进行安装,联网状态下使用Install-Package HtmlAgilityPack -Version 1.8.11命令即可。1.8.11为当前最新版本,如需要最新版本可参见https://www.nuget.org/packages/HtmlAgilityPack/

2.使用HAP
引入HtmlAgilityPack命名空间后即可开始使用。详细文档参见https://html-agility-pack.net/documentation

下面演示如何读取一个HTML文件,并利用XPATH查找特定节点并删除。

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.OptionAutoCloseOnEnd = true;
//博主抓取的部分HTML文件内容不完整,关闭标记检查以正常加载
doc.OptionCheckSyntax = false;

doc.Load("moetech.html");
var node = doc.DocumentNode.SelectSingleNode(@"//moetech[@title='墨意杂记']");
node?.Remove();

原创文章,转载请注明: 转载自墨意杂记

本文链接地址: C#利用HtmlAgilityPack与XPath解析网页