Skip to content

KinderRiven/web_crawler

Repository files navigation

基于jsoup的java爬虫:
	1.实现的功能
		UI界面
		抓取贴吧帖子图片,对某一帖子抓取后下次可以接着抓取,支持图片的重复判断
		抓取lingyu动漫图网的图片,根据tag标签进行搜索
	2.数据库结构webspider
	tieba表
		id int(11)		//KEY
		url char(100)		//url
		name char(50)		//标签
		last_end_page int(11)	//上次爬取到第几页
		update_date DATE	//更新日期
	tieba_image
		id char(50)		//id
		name char(50)		//名称
		belong char(150)	//图片连接id

	3.没有实现的功能:
		对某一网站实现了代码+模拟登陆+cookie池,但是存未知原因无法进行持续爬取得
	
	
		

Releases

No releases published

Packages

No packages published

Languages