java写爬虫的okhttp 和 jsoup爬虫的jar不会下载呀,求助大佬发一下

解析html页面的方法

 

该方法用于解析html頁面取到所有链接,存入文件

两个操作文件的方法(读/取)

 

简单的文件操作方法用于储存每次解析出来的链接

获取文件中的指定行内嫆

 

这个方法很重要,用于获取文件中的第几条链接

下面是这个类的完整代码

* 定义四个文件类(链接存储图片储存,文件存储错误链接存储) //如果文件中没有这个链接,而且链接中不包含javascript:则继续(因为有的是用js语法跳转) //路径必须包含网页主链接--->防止爬入别的网站 //判断该a标签嘚内容是文件还是子链接 //写入文件中文件名+文件链接 //同时抓取该页面图片链接 //将图片链接写进文件中 * 获取文件指定行数的数据,用于爬蟲获取当前要爬的链接 * 获取文件总行数(有多少链接) //用数组存储四个文件对象方便进行相同操作 + "——————————————————爬取结束——————————————————"
 //将下载的数据进行分析

本文是对站长之家少量的数据的爬取,测试时最好添加线程睡眠,以免服务器压力过大.

我要回帖

更多关于 jsoup爬虫 的文章

 

随机推荐