Ejemplo n.º 1
0
  /**
   * 传入url遍历
   *
   * @param seed
   */
  public void search(String seed, String kw) {
    /*
     * 构造函数中的string,是爬虫的crawlPath,爬虫的爬取信息都存在crawlPath文件夹中,
     * 不同的爬虫请使用不同的crawlPath
     */
    TutorialCrawler crawler = new TutorialCrawler("crawlerdb");
    crawler.setKeyword(kw);
    crawler.setThreads(5);
    crawler.addSeed(seed);
    crawler.setResumable(false);

    /* 2.x版本直接支持多代理随机切换 */
    Proxys proxys = new Proxys();
    crawler.setProxys(proxys);

    /* 设置是否断点爬取 */
    crawler.setResumable(false);

    try {
      crawler.start(2);
    } catch (Exception e) {
      System.out.println("爬虫启动失败");
      e.printStackTrace();
    }
  }
Ejemplo n.º 2
0
 public static void main(String[] args) throws Exception {
   TutorialCrawler t = new TutorialCrawler("");
   t.start("是");
 }