public static void main(String[] args) { Spider.create(new ZhihuPageProcessor()) .addUrl("http://www.zhihu.com/search?type=question&q=java") .addPipeline(new FilePipeline("D:\\webmagic\\")) .thread(5) .run(); }
/** * @author Administrator @Description: 行政处罚 * @param @param djh 登记号 * @param @param qylx 企业类型 * @return void * @throws * @date 2016年1月29日 下午5:36:42 */ private static void spider_xzcf(String djh, String qylx, Long qyId) { GSspider_bj_xzcf xzcf = new GSspider_bj_xzcf(); xzcf.setQyId(qyId); Spider.create(xzcf) // http://qyxy.baic.gov.cn/gsgs/gsxzcfAction!list.dhtml?entId=20e38b8b4d194cc8014d1e12e97f6374&clear=true .addUrl("http://qyxy.baic.gov.cn/gsgs/gsxzcfAction!list.dhtml?entId=" + djh + "&clear=true") .run(); }
public static void main(String[] args) { // single download Spider spider = Spider.create(new BaiduBaikePageProcessor()).thread(2); String urlTemplate = "http://baike.baidu.com/search/word?word=%s&pic=1&sug=1&enc=utf8"; ResultItems resultItems = spider.<ResultItems>get(String.format(urlTemplate, "水力发电")); System.out.println(resultItems); // multidownload List<String> list = new ArrayList<String>(); list.add(String.format(urlTemplate, "风力发电")); list.add(String.format(urlTemplate, "太阳能")); list.add(String.format(urlTemplate, "地热发电")); list.add(String.format(urlTemplate, "地热发电")); List<ResultItems> resultItemses = spider.<ResultItems>getAll(list); for (ResultItems resultItemse : resultItemses) { System.out.println(resultItemse.getAll()); } spider.close(); }
/** * @author Administrator @Description: 抽查抽检 * @param @param djh 登记号 * @param @param qylx 企业类型 * @return void * @throws * @date 2016年1月29日 下午5:36:42 */ private static void spider_cccj(String djh, String qylx, Long qyId) { GSspider_bj_cccj cccj = new GSspider_bj_cccj(); cccj.setQyId(qyId); Spider.create(cccj) // http://qyxy.baic.gov.cn/gsgs/gsxzcfAction!list_ccjcxx.dhtml?ent_id=20e38b8b4d194cc8014d1e12e97f6374&clear=true .addUrl( "http://qyxy.baic.gov.cn/gsgs/gsxzcfAction!list_ccjcxx.dhtml?ent_id=" + djh + "&clear=true") .run(); }
/** * @author ldm @Description: 企业基本信息(工商类抓取) * @param @param djh 企业登记号 * @param @param qylx 企业类型 * @return void * @throws * @date 2016年1月28日 下午5:06:50 */ private static Long spider_jbxx(String entId, String credit_ticket) { GSspider_bj_jcxx jcxx = new GSspider_bj_jcxx(); Spider.create(jcxx) // http://qyxy.baic.gov.cn/gjjbj/gjjQueryCreditAction!openEntInfo.dhtml?entId=20e38b8b4d194cc8014d1e12e97f6374&credit_ticket=8173D03BDAA53D4E34282E704327D289 .addUrl( "http://qyxy.baic.gov.cn/gjjbj/gjjQueryCreditAction!openEntInfo.dhtml?entId=" + entId + "&credit_ticket=" + credit_ticket) .run(); return jcxx.getQyId(); }
@Scheduled(fixedDelay = 5000) public void run() { logger.info("start MovieInitTask ..."); for (int i = 160; i > 1; i--) { Spider.create(new MovieSpider()) .addUrl("http://www.6vhao.com/dy/index_" + i + ".html") .addPipeline(new MoviePipeline(movieService)) .thread(1) .run(); try { Thread.sleep(60000); } catch (InterruptedException e) { logger.error(e.getMessage(), e); } } }
// 1926267847 public static void main(String[] args) { Spider.create(new BlogPageProcessor()) .addUrl("http://blog.sina.com.cn/s/articlelist_1197161814_0_1.html") .run(); }