public static void main(String[] args) throws IOException {
    List<String> all = new ArrayList<String>();
    String example =
        "江苏宏宝五金股份有限公司(以下简称“本公司”)于2012年11月9日接到实际控制人"
            + "江苏宏宝集团有限公司(以下简称“宏宝集团”)通知,"
            + "宏宝集团将其所持本公司无限售条件流通股份500万股(占公司总股本的2.72%)质押给"
            + "华夏银行股份有限公司苏州分行,为"
            + "张家港市宏大钢管有限公司向华夏银行股份有限公司苏州分行"
            + "申请最高融资额提供担保,股权质押登记日为2012年11月8日,质押期限至2013年11月5日止;同日,"
            + "宏宝集团"
            + "将其所持本公司无限售条件流通股份1000万股(占公司总股本的5.43%)质押给"
            + "江苏张家港农村商业银行股份有限公司,为张家港保税区"
            + "康龙国际贸易有限公司向"
            + "江苏张家港农村商业银行股份有限公司申请的流动资金贷款提供担保,股权质押登记日为2012年11月8日,质押期限至2014年11月5日止。上述质押登记手续已在中国证券登记结算有限责任公司深圳分公司办理完毕。";
    all.add(example);
    example =
        " 新浪体育讯 北京时间4月15日03:00(英国当地时间14日20:00),2009/10赛季英格兰足球超级联赛第34轮一场焦点战在白鹿巷球场展开角逐,阿森纳客场1比2不敌托特纳姆热刺,丹尼-罗斯和拜尔先入两球,本特纳扳回一城。阿森纳仍落后切尔西6分(净胜球少15个),夺冠几成泡影。热刺近 7轮联赛取得6胜,继续以1分之差紧逼曼城。";
    all.add(example);
    example =
        "东华能源2012年第四次临时股东大会于2012年11月9日召开,审议通过了《关于同意投资设立“宁波福基石化有限公司”的议案》、《关于“张家港扬子江石化有限公司”新增40万吨/年聚丙烯项目的议案》、《关于对“宁波福基石化有限公司”授权的议案》、《关于对“张家港扬子江石化有限公司”授权的议案》、《关于提请股东大会延长董事会全权办理非公开发行股票事项授权有效期的议案》。";
    all.add(example);
    all.add(
        "事实上,HTC自诞生以来,多数时候都只是在为谷歌等公司代工生产移动终端。但它从2006年开始培育自己的HTC品牌,并在此后的五年时间里迅速成为仅次于诺基亚的全球第二大手机厂商,占有全球18.22%的智能手机份额,在北美智能手机市场的份额也曾一度达到23%,是全美最大的智能手机供应商。");
    all.add(
        "蓝鼎集团资产总额为79.49亿元,净资产9.00亿元。2010年蓝鼎集团总资产64.21亿元,其中所有者权益2.19亿元。这意味着,2010年和2011年蓝鼎集团的资产负债率分别高达96.6%和88.34%。如此高的资产负债率在A股房地产类上市公司中较为少见。有关数据显示,在135家房地产上市公司中,2011年资产负债率高于88%的仅有3家公司,分别是*ST园城[10.61 -0.09% 股吧 研报](107.7%)、高新发展[6.72 -0.59% 股吧 研报](95.5%)以及鲁商置业[4.18 0.48% 股吧 研报](92%)。");
    all.add("能不能试试这个 西伯利亚雅特大教堂位于俄罗斯东西伯利亚地区");
    all.add(
        "【10000亿——阿里巴巴称淘宝和天猫本年度的总零售额突破 10000亿】 阿里巴巴还公布了其它有趣的数据:2012 年第 3 季度中国第三方互联网支付市场交易规模达到 9764 亿元人民币,支付宝占 46.9%,财付通占 20.4%,银联在线占 11.5%");

    LearnTool learn = new LearnTool();
    for (String string : all) {
      List<Term> paser = NlpAnalysis.paser(string, learn);
      System.out.println(paser);
    }
  }
Beispiel #2
0
  public static void main(String[] args) throws IOException {
    // 学习机器是有状态的
    long start = System.currentTimeMillis();
    LearnTool learn = new LearnTool();
    BufferedReader materialsReader = IOUtil.getReader("/Users/ansj/Downloads/红楼梦.txt", "GBK");
    String temp = null;
    while ((temp = materialsReader.readLine()) != null) {
      List<Term> paser = NlpAnalysis.paser(temp, learn);
      //			System.out.println(paser);
    }

    System.out.println("这次训练已经学到了: " + learn.count + " 个词!");
    System.out.println(System.currentTimeMillis() - start);
    System.out.println(learn.getTopTree(100));
  }
Beispiel #3
0
  public static void main(String[] args) throws IOException {

    List<String> value = new ArrayList<String>();
    //
    //	value.add("屌丝男士》是搜狐视频自制节目《大鹏嘚吧嘚》除“大鹏剧场秀“之外的第二个衍生品牌,是独立于《大鹏嘚吧嘚》每周播出的迷你剧集,第一季于2012年10月10日首播,每周三更新.该片由赵本山第53位弟子,网络第一主持人大鹏(董成鹏)导演并主演,是一部向德国电视剧《屌丝女士》致敬的喜剧短片.大鹏在片中饰演现实生活中的各种男性,而大鹏的各位明星好友,也在片中有惊喜表演.第一季客串明星:柳岩,李响,刘心,何云伟,李菁,如花李健仁,李亚红,乔衫,修睿,赵铭,于莎莎,司马南,不加V,沈腾等") ;
    //		value.add("二次元乳量大不一定是王道") ;
    //		value.add("在泰国用微信一搜吓尿了孙健和孙健是好朋友") ;
    //
    //	value.add("搜索日志是理解互联网用户信息的宝贵资源。本文基于搜索日志的特点,提出一种双层识别模型方法识别计算机领域查询串。第一层模型采用贝叶斯模型基于领域词库对查询串进行识别,可以达到较高的准确率,由于日志中查询串长度有限,信息量不足等特点导致一些查询串无法召回;针对如上情况我们提出补充信息维度,即在此基础上对其进行第二层模型训练,主要方法是依据查询串点击的URL信息进行可信度训练,依据查询串召回的URL信息进行行业可信度训练计算,以达到召回了更多计算机领域查询串的目的。实验结果表明,双层模型识别后结果不但在准确率上得到保障,并比第一层模型的召回率提高了20个百分点,达到了78%的召回率和96%的精准率。此方法迅速而准确的识别出计算机类别查询串,对其他领域查询识别及查询意图分类具有借鉴意义。") ;
    //
    //	value.add("贾瑞听了,魂不附体,只说:“好侄儿,只说没有见我,明日我重重的谢你。”贾蔷道:“你若谢我,放你不值什么,只不知你谢我多少?况且口说无凭,写一文契来。”贾瑞道:“这如何落纸呢?\"贾蔷道:“这也不妨,写一个赌钱输了外人帐目,借头家银若干两便罢。”贾瑞道:“这也容易.只是此时无纸笔。”贾蔷道:“这也容易。”说罢翻身出来,纸笔现成,拿来命贾瑞写.他两作好作歹,只写了五十两,然后画了押,贾蔷收起来.然后撕逻贾蓉.贾蓉先咬定牙不依,只说:“明日告诉族中的人评评理。”贾瑞急的至于叩头.贾蔷作好作歹的,也写了一张五十两欠契才罢.贾蔷又道:“如今要放你,我就担着不是.老太太那边的门早已关了,老爷正在厅上看南京的东西,那一条路定难过去,如今只好走后门.若这一走,倘或遇见了人,连我也完了.等我们先去哨探哨探,再来领你.这屋你还藏不得,少时就来堆东西.等我寻个地方。”说毕,拉着贾瑞,仍熄了灯,出至院外,摸着大台矶底下,说道:“这窝儿里好,你只蹲着,别哼一声,等我们来再动。”说毕,二人去了") ;
    //
    //	value.add("接了个小私活,帮一个初中高中连读的中学做一个学生日常考评系统,就是记录迟到、早退、违纪什么的一个系统,由班主任管理记录,还要有什么表扬榜的。对于报价不了解,不知道该报多少,大家说说看,多少合适?") ;
    value.add("若雅虎关闭了,我就不访问网站了!");

    // 学习机器是有状态的
    long start = System.currentTimeMillis();
    // 此对象可以公用一个.随着语料的增多可以学习新的词语
    LearnTool learn = new LearnTool();

    // 关闭人名识别
    learn.isAsianName = false;
    // 关闭机构名识别
    learn.isCompany = false;
    // 关闭外国人名识别
    learn.isForeignName = false;
    // 关闭新词发现
    learn.isNewWord = false;

    for (String string : value) {
      List<Term> parse = NlpAnalysis.parse(string, learn);
      System.out.println(parse);
    }

    System.out.println("这次训练已经学到了: " + learn.count + " 个词!");
    System.out.println(System.currentTimeMillis() - start);
    System.out.println(learn.getTopTree(100));
  }
 public static void main(String[] args) {
   System.out.println(ToAnalysis.parse("一次性交纳五百元送话费,法轮功"));
   System.out.println(NlpAnalysis.parse("一次性交纳五百元送话费,法轮功"));
 }