GitHub - KinderRiven/web

Branches Tags

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commits
bin		bin
lib		lib
show		show
src		src
jgoodies-forms-1.8.0-sources.jar		jgoodies-forms-1.8.0-sources.jar
jgoodies-forms-1.8.0.jar		jgoodies-forms-1.8.0.jar
log.txt		log.txt
mysql.txt		mysql.txt
readme.txt		readme.txt

Repository files navigation

基于jsoup的java爬虫：
	1.实现的功能
		UI界面
		抓取贴吧帖子图片，对某一帖子抓取后下次可以接着抓取，支持图片的重复判断
		抓取lingyu动漫图网的图片，根据tag标签进行搜索
	2.数据库结构webspider
	tieba表
		id int(11)		//KEY
		url char(100)		//url
		name char(50)		//标签
		last_end_page int(11)	//上次爬取到第几页
		update_date DATE	//更新日期
	tieba_image
		id char(50)		//id
		name char(50)		//名称
		belong char(150)	//图片连接id

	3.没有实现的功能：
		对某一网站实现了代码+模拟登陆+cookie池，但是存未知原因无法进行持续爬取得