KinderRiven/web_crawler
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
基于jsoup的java爬虫: 1.实现的功能 UI界面 抓取贴吧帖子图片,对某一帖子抓取后下次可以接着抓取,支持图片的重复判断 抓取lingyu动漫图网的图片,根据tag标签进行搜索 2.数据库结构webspider tieba表 id int(11) //KEY url char(100) //url name char(50) //标签 last_end_page int(11) //上次爬取到第几页 update_date DATE //更新日期 tieba_image id char(50) //id name char(50) //名称 belong char(150) //图片连接id 3.没有实现的功能: 对某一网站实现了代码+模拟登陆+cookie池,但是存未知原因无法进行持续爬取得
About
爬虫
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published