public static String testICTCLAS_ParagraphProcess2(String sInput) { try { ICTCLAS50 testICTCLAS50 = new ICTCLAS50(); String argu = "."; // 初始化 if (testICTCLAS50.ICTCLAS_Init(argu.getBytes("GB2312")) == false) { System.out.println("Init Fail!"); return null; } // 设置词性标注集(0 计算所二级标注集,1 计算所一级标注集,2 北大二级标注集,3 北大一级标注集) testICTCLAS50.ICTCLAS_SetPOSmap(2); // 导入用户词典前分词 byte nativeBytes[] = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 0); // 分词处理 System.out.println(nativeBytes.length); return new String(nativeBytes, 0, nativeBytes.length, "GB2312"); /* //导入用户字典 int nCount = 0; String usrdir = "userdict.txt"; //用户字典路径 byte[] usrdirb = usrdir.getBytes();//将string转化为byte类型 //导入用户字典,返回导入用户词语个数第一个参数为用户字典路径,第二个参数为用户字典的编码类型 nCount = testICTCLAS50.ICTCLAS_ImportUserDictFile(usrdirb, 0); System.out.println("导入用户词个数" + nCount); nCount = 0; //导入用户字典后再分词 byte nativeBytes1[] = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 2, 0); System.out.println(nativeBytes1.length); String nativeStr1 = new String(nativeBytes1, 0, nativeBytes1.length, "GB2312"); System.out.println("导入用户词典后的分词结果: " + nativeStr1); //保存用户字典 testICTCLAS50.ICTCLAS_SaveTheUsrDic(); //释放分词组件资源 testICTCLAS50.ICTCLAS_Exit(); */ } catch (Exception ex) { } return null; }
public static void testICTCLAS_FileProcess() { try { ICTCLAS50 testICTCLAS50 = new ICTCLAS50(); // 分词所需库的路径 String argu = "."; // 初始化 if (testICTCLAS50.ICTCLAS_Init(argu.getBytes("GB2312")) == false) { System.out.println("Init Fail!"); return; } // 输入文件名 String Inputfilename = "test.txt"; byte[] Inputfilenameb = Inputfilename.getBytes(); // 将文件名string类型转为byte类型 // 分词处理后输出文件名 String Outputfilename = "test_result.txt"; byte[] Outputfilenameb = Outputfilename.getBytes(); // 将文件名string类型转为byte类型 // 文件分词(第一个参数为输入文件的名,第二个参数为文件编码类型,第三个参数为是否标记词性集1 yes,0 no,第四个参数为输出文件名) testICTCLAS50.ICTCLAS_FileProcess(Inputfilenameb, 0, 0, Outputfilenameb); int nCount = 0; String usrdir = "userdict.txt"; // 用户字典路径 byte[] usrdirb = usrdir.getBytes(); // 将string转化为byte类型 // 第一个参数为用户字典路径,第二个参数为用户字典的编码类型(0:type unknown;1:ASCII码;2:GB2312,GBK,GB10380;3:UTF-8;4:BIG5) nCount = testICTCLAS50.ICTCLAS_ImportUserDictFile(usrdirb, 0); // 导入用户字典,返回导入用户词语个数 System.out.println("导入用户词个数" + nCount); nCount = 0; String Outputfilename1 = "testing_result.txt"; byte[] Outputfilenameb1 = Outputfilename1.getBytes(); // 将文件名string类型转为byte类型 // 文件分词(第一个参数为输入文件的名,第二个参数为文件编码类型,第三个参数为是否标记词性集1 yes,0 no,第四个参数为输出文件名) testICTCLAS50.ICTCLAS_FileProcess(Inputfilenameb, 0, 0, Outputfilenameb1); } catch (Exception ex) { } }