public static void initParseRule() { parseRule = new ParseRule(crawler.getId(), "p_name", "51cto\\.com", ParseRule.JQUERY_PARSE_TYPE); ParseRuleValueItem parseRuleValueItem = new ParseRuleValueItem("p", ParseRuleValueItem.NOTHING_VALUE_TYPE); parseRule.getParseRuleValueItemList().add(parseRuleValueItem); ParseRule subParseRule = new ParseRule("a_attribute"); ParseRuleValueItem subParseRuleValueItem = new ParseRuleValueItem("a", ParseRuleValueItem.ATTRIBUTE_VALUE_TYPE, "href"); subParseRule.getParseRuleValueItemList().add(subParseRuleValueItem); parseRule.getSubParseRuleList().add(subParseRule); subParseRule = new ParseRule("a_text"); subParseRuleValueItem = new ParseRuleValueItem("a", ParseRuleValueItem.TEXT_VALUE_TYPE); subParseRule.getParseRuleValueItemList().add(subParseRuleValueItem); parseRule.getSubParseRuleList().add(subParseRule); }
public static void initUrlFilter() { urlFilter = new UrlFilter(crawler.getId(), UrlFilter.ACCEPT_IF_MATCH_FILTER_TYPE); urlFilter.getMatchUrlRegexList().add("51cto\\.com"); }