程序猿看小说还要去找TXT?自己动手爬一个TXT才是正确的打开方式

boyanx1周前技术教程2

前言

在贴吧看了个小说追了几天被删帖了,于是自己找书名,打算下载下来看,结果要么是需要充值,要么不提供下载。作为一个猿类,怎么能忍。

好在小说网站多入牛毛,有的采用js加载文字来防采集,有的用css图片替换个别文字来防采集,但这都不是我们今天要攻克的对象,我们只想找一个软柿子来捏捏不想花太多时间和精力,于是就找到了下面的网站,网址我就不放了(我不会告诉你们源码里有的)。

本意是不想花太多时间和精力的,没想到写个博客分享下比写个代码花的时间还多。。。。写代码才花了15分钟,写博客花了我1个小时。

完成效果

Jumony简单介绍和基本使用方法

Jumony简单介绍

Jumony是一个开源项目,主要作用是提供程序员完整的HTML掌控能力,可以用CSS3选择器进行元素的拾取。除了可以做HTML解释器以外,还可以直接进行数据抓取。

基本用法

此处只举一个例子,通过加载网页,然后像JQuery的操作方式一样找到元素,并输出

foreach( var title = new JumonyParser.LoadDocument( "http://www.cnblogs.com/" ).Find( ".post_item a.titlelnk" ) )

Console.WriteLine( title.InnerText );

Jumony的安装

vs菜单的工具-》Nuget程序包管理器-》管理解决方案的Nuget包

简短的实战

为何叫简短的实战,因为整个过程真的非常简短就完成了。

正文内容获取

首先打开小说的正文部分,用F12查看元素,发现小说的正文是完整的文本,并且是放在id="content"的一个div里的

所以只要用 #content就能找到我们要的元素,并且输出正文,并没有什么难点

标题获取

找到标题,然后呢,这里用一个黑科技直接拿到css选择器

通过F12提供的Copy CSS path,可以无脑的直接获取到css选择器

于是title部分的代码

相关文章

每天一个 Python 库:BeautifulSoup4 优雅地解析HTML

网页解析神器BeautifulSoup4,它让你轻松处理 HTML 页面,提取你想要的数据,是网页爬虫入门的第一步!beautifulsoup4 是一个用于 HTML 和 XML 解析的 Python...

Chrome DevTools 终极技巧指南(devtools工具如何使用)

Chrome DevTools 功能强大、门类繁多。以下按照面板与使用场景,逐项详解常用与进阶技巧,涵盖快捷键、隐藏功能、调试利器等,帮助你成为 DevTools 高手。---## 一、快速打开与命令...

快速理解析语言及解析工具(快速理解析语言及解析工具的方法)

基础定义1、CSS选择器 和 XPath 本质是独立于具体工具的查询语言(Query Language),定义了如何定位文档中元素的语法规则。标准定义: W3C 的 CSS Selectors Lev...

强大的JQuery选择器!(jquery选择器有哪些类型)

JQuery这个JS框架有多强大想必大家也是深有体会,在平常的工作当中我们用到的可能只有三分之一,但基本也是已经够用的了。现在我们来温习一下JQuery万能的选择器~~在JavaScript中,我们可...

“把 if 往上提,for 往下放!”(if语句是从上往下判断)

很多程序员写代码的时候都会遇到这种情况:一个判断条件到底该放在函数里面还是外面?循环里是不是可以加个 if?这些看起来无关紧要的小选择,实际会影响代码的清晰度、性能。最近,一位热爱简单代码和编程语言的...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。