#part 1 easy-httpclient
这是我封装的httpclient,基于httpclient4.3.3.
默认使用jdk1.7
1.处理网页编码:
先判断相应头,如果相应头中content-type有网页编码,那么编码使用网页编码,
如果没有,那么会在网页中通过jsoup获得网页头里的charset,如果在没有找到,使用默认编码utf-8。
2.post请求:
针对一般的post请求,直接设置header,postdata即可。
针对不是表单提交的post请求
* 如果想提交一段字符串
* 那么需要将header中的content-type设置成非application/x-www-form-urlencoded;如application/json
* 将字符串放到postdata中参数名postdata
3.验证码:RuoKuai.java
在登陆的时候需要处理验证码,我使用若快打码
若快打码,需要填充用户名,密码
会将上传的内容保存到本地
3.js加密:JsUtil.java
在登陆的时候有的网站的密码需要加密,而加密使用Java实现非常麻烦,所以直接调用网站本身的js.
4.文件上传下载已完成
下载方法已测试,上传方法也测试了,但是可能不能通用,具体使用可能需要改代码,mark
5.爬虫定时任务模块开发完成
6.排重器部分初步完成
爬虫框架搭建