コード例 #1
0
  public static void initParseRule() {

    parseRule =
        new ParseRule(crawler.getId(), "p_name", "51cto\\.com", ParseRule.JQUERY_PARSE_TYPE);

    ParseRuleValueItem parseRuleValueItem =
        new ParseRuleValueItem("p", ParseRuleValueItem.NOTHING_VALUE_TYPE);
    parseRule.getParseRuleValueItemList().add(parseRuleValueItem);

    ParseRule subParseRule = new ParseRule("a_attribute");
    ParseRuleValueItem subParseRuleValueItem =
        new ParseRuleValueItem("a", ParseRuleValueItem.ATTRIBUTE_VALUE_TYPE, "href");
    subParseRule.getParseRuleValueItemList().add(subParseRuleValueItem);

    parseRule.getSubParseRuleList().add(subParseRule);

    subParseRule = new ParseRule("a_text");
    subParseRuleValueItem = new ParseRuleValueItem("a", ParseRuleValueItem.TEXT_VALUE_TYPE);
    subParseRule.getParseRuleValueItemList().add(subParseRuleValueItem);

    parseRule.getSubParseRuleList().add(subParseRule);
  }
コード例 #2
0
 public static void initUrlFilter() {
   urlFilter = new UrlFilter(crawler.getId(), UrlFilter.ACCEPT_IF_MATCH_FILTER_TYPE);
   urlFilter.getMatchUrlRegexList().add("51cto\\.com");
 }