Skip to content

xiangyuwei/easy-spider-master

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

#part 1 easy-httpclient 这是我封装的httpclient,基于httpclient4.3.3.
默认使用jdk1.7
1.处理网页编码:
  先判断相应头,如果相应头中content-type有网页编码,那么编码使用网页编码,
  如果没有,那么会在网页中通过jsoup获得网页头里的charset,如果在没有找到,使用默认编码utf-8。
2.post请求:
  针对一般的post请求,直接设置header,postdata即可。
  针对不是表单提交的post请求
  * 如果想提交一段字符串
  * 那么需要将header中的content-type设置成非application/x-www-form-urlencoded;如application/json
  * 将字符串放到postdata中参数名postdata
3.验证码:RuoKuai.java
  在登陆的时候需要处理验证码,我使用若快打码
  若快打码,需要填充用户名,密码
  会将上传的内容保存到本地
3.js加密:JsUtil.java
  在登陆的时候有的网站的密码需要加密,而加密使用Java实现非常麻烦,所以直接调用网站本身的js.
4.文件上传下载已完成
下载方法已测试,上传方法也测试了,但是可能不能通用,具体使用可能需要改代码,mark
5.爬虫定时任务模块开发完成
6.排重器部分初步完成

下一步开发计划

爬虫框架搭建

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • JavaScript 65.9%
  • Java 32.9%
  • CSS 1.2%