[Jsoup] HTML解析器,轻松获取网页内容

boyanx9个月前技术教程30

Jsoup简介

jsoup 是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。





官网地址:
http://jsoup.org/


在官网中下载 jsou-1.8.3.jar 文件,添加到自己项目的lib库中,便可使用Jsoup提供的api,官网中也提供了一套使用指南(Cookbook),便于开发者借鉴。
Jsoup解析HTML得到一个Document对象,通过操作Document的属性来获取HTML页面内容,所以,在开始之前,先介绍一下XML中Node、Element、Document等这些相关概念的区别,防止因概念混淆而导致乱用错用。

相关概念

  • Jsoup中的继承关系

    public abstract class Node implements Cloneable
    public class Element extends Node
    public class Document extends Element

    从Jsoup源码对三者的定义可以看出如下一个树形继承关系:

  1. Node(节点)
    从上述继承关系上可以明确一点,文档中的所有内容都可以看做是一个节点。节点有很多种类型:属性节点(Attribute)、注释节点(Note)、文本节点(Text)、元素节点(Element)等,通常所说的节点是这些多种节点的统称。

  2. Element(元素)
    相比节点而言,元素则是一个更小范围的定义。元素继承于节点,是节点的子集,所以一个元素也是一个节点,节点拥有的公有属性和方法在元素中也能使用。

  3. Document(文档)
    文档继承于元素,指整个HTML文档的源码内容,通过 System.out.println(document.toString()); 即可在控制台打印出网页源码内容。

  4. 相互转换
    基于Node、Element和Document之间的“缠绵”关系,可以利用各个类中提供的方法适当转换获取所需对象,以供使用。

    使用案例

    Jsoup解析Html获取Document对象的方式分为三类:在线Url、Html文本字符串、文件,对应API如下

标签: jquery手册

相关文章

学前端所用手册及书籍(学前端必备手册全都有)

学前端所用手册及书籍(学前端必备手册全都有) 比较常见的电子书,喜欢的同学可以下载看下哈~ html手册 https://pan.baidu.com/s/1idtCfccls7G74it4hzBLCg...

基于SpringBoot 的CMS系统,拿去开发企业官网真香(附源码)

前言推荐这个项目是因为使用手册部署手册非常完善,项目也有开发教程视频对小白非常贴心,接私活可以直接拿去二开非常舒服开源说明系统100%开源模块化开发模式,铭飞所开发的模块都发布到了maven中央库。可...

招聘前端工程师、JavaWeb工程师、数据库工程师

上海同儒信息技术有限公司由国内资深的IT界人士创立,是一家专业从事软件开发、软件定制、软件实施的企业。同儒信息专注于农商银行管理咨询与信息化服务,具有雄厚的技术开发实力,能够全方面的满足银行和企业信息...

你说的H5跟我说的H5不是一回事

先科普一下,HTML5并不是一项技术,而是一个标准。标准的意思就是:学生准则手册。你可以按照准则做,甚至可以超出准则更加严格的要求自己,也可以不按照准则来,但是会被老师训斥,被小伙伴讨厌,别人都不找你...

SpringBoot 使用Swagger2打造在线接口文档(附汉化教程)

作者:yizhiwazi链接:https://www.jianshu.com/p/7e543f0f0bd8序言:编写和维护接口文档是每个程序员的职责,根据Swagger2可以快速帮助我们编写最新的AP...

摸鱼时间前端工程师经常去逛的技术网站有那些?

W3schoolW3school 是一个非常好Web开发以及学习的网站,其上内容几乎涵盖了Web端开发所需要的所有技术,例如HTML, CSS, JavaScript, PHP, SQL等等。其上资源...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。