コード例 #1
0
 public static void main(String[] args) {
   Spider.create(new ZhihuPageProcessor())
       .addUrl("http://www.zhihu.com/search?type=question&q=java")
       .addPipeline(new FilePipeline("D:\\webmagic\\"))
       .thread(5)
       .run();
 }
コード例 #2
0
 /**
  * @author Administrator @Description: 行政处罚
  * @param @param djh 登记号
  * @param @param qylx 企业类型
  * @return void
  * @throws
  * @date 2016年1月29日 下午5:36:42
  */
 private static void spider_xzcf(String djh, String qylx, Long qyId) {
   GSspider_bj_xzcf xzcf = new GSspider_bj_xzcf();
   xzcf.setQyId(qyId);
   Spider.create(xzcf)
       // http://qyxy.baic.gov.cn/gsgs/gsxzcfAction!list.dhtml?entId=20e38b8b4d194cc8014d1e12e97f6374&clear=true
       .addUrl("http://qyxy.baic.gov.cn/gsgs/gsxzcfAction!list.dhtml?entId=" + djh + "&clear=true")
       .run();
 }
コード例 #3
0
  public static void main(String[] args) {
    // single download
    Spider spider = Spider.create(new BaiduBaikePageProcessor()).thread(2);
    String urlTemplate = "http://baike.baidu.com/search/word?word=%s&pic=1&sug=1&enc=utf8";
    ResultItems resultItems = spider.<ResultItems>get(String.format(urlTemplate, "水力发电"));
    System.out.println(resultItems);

    // multidownload
    List<String> list = new ArrayList<String>();
    list.add(String.format(urlTemplate, "风力发电"));
    list.add(String.format(urlTemplate, "太阳能"));
    list.add(String.format(urlTemplate, "地热发电"));
    list.add(String.format(urlTemplate, "地热发电"));
    List<ResultItems> resultItemses = spider.<ResultItems>getAll(list);
    for (ResultItems resultItemse : resultItemses) {
      System.out.println(resultItemse.getAll());
    }
    spider.close();
  }
コード例 #4
0
 /**
  * @author Administrator @Description: 抽查抽检
  * @param @param djh 登记号
  * @param @param qylx 企业类型
  * @return void
  * @throws
  * @date 2016年1月29日 下午5:36:42
  */
 private static void spider_cccj(String djh, String qylx, Long qyId) {
   GSspider_bj_cccj cccj = new GSspider_bj_cccj();
   cccj.setQyId(qyId);
   Spider.create(cccj)
       // http://qyxy.baic.gov.cn/gsgs/gsxzcfAction!list_ccjcxx.dhtml?ent_id=20e38b8b4d194cc8014d1e12e97f6374&clear=true
       .addUrl(
           "http://qyxy.baic.gov.cn/gsgs/gsxzcfAction!list_ccjcxx.dhtml?ent_id="
               + djh
               + "&clear=true")
       .run();
 }
コード例 #5
0
 /**
  * @author ldm @Description: 企业基本信息(工商类抓取)
  * @param @param djh 企业登记号
  * @param @param qylx 企业类型
  * @return void
  * @throws
  * @date 2016年1月28日 下午5:06:50
  */
 private static Long spider_jbxx(String entId, String credit_ticket) {
   GSspider_bj_jcxx jcxx = new GSspider_bj_jcxx();
   Spider.create(jcxx)
       // http://qyxy.baic.gov.cn/gjjbj/gjjQueryCreditAction!openEntInfo.dhtml?entId=20e38b8b4d194cc8014d1e12e97f6374&credit_ticket=8173D03BDAA53D4E34282E704327D289
       .addUrl(
           "http://qyxy.baic.gov.cn/gjjbj/gjjQueryCreditAction!openEntInfo.dhtml?entId="
               + entId
               + "&credit_ticket="
               + credit_ticket)
       .run();
   return jcxx.getQyId();
 }
コード例 #6
0
  @Scheduled(fixedDelay = 5000)
  public void run() {
    logger.info("start MovieInitTask ...");

    for (int i = 160; i > 1; i--) {
      Spider.create(new MovieSpider())
          .addUrl("http://www.6vhao.com/dy/index_" + i + ".html")
          .addPipeline(new MoviePipeline(movieService))
          .thread(1)
          .run();
      try {
        Thread.sleep(60000);
      } catch (InterruptedException e) {
        logger.error(e.getMessage(), e);
      }
    }
  }
コード例 #7
0
 // 1926267847
 public static void main(String[] args) {
   Spider.create(new BlogPageProcessor())
       .addUrl("http://blog.sina.com.cn/s/articlelist_1197161814_0_1.html")
       .run();
 }