Java ISegmenter 예제들

프로그래밍 언어: Java

네임스페이스/패키지 이름: org.wltea.analyzer.seg

클래스/타입: ISegmenter

hotexamples.com에서의 예제들: 2

Java ISegmenter - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Java의 org.wltea.analyzer.seg.ISegmenter에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

reset(2)

nextLexeme(1)

예제 #1

파일 보기

파일: IKSegmentation.java 프로젝트: kerie/marswork

 /**
  * 重置分词器到初始状态
  *
  * @param input
  */
 public synchronized void reset(Reader input) {
   this.input = input;
   context.resetContext();
   for (ISegmenter segmenter : segmenters) {
     segmenter.reset();
   }
 }

예제 #2

파일 보기

파일: IKSegmentation.java 프로젝트: kerie/marswork

  /**
   * 获取下一个语义单元
   *
   * @return 没有更多的词元，则返回null
   * @throws IOException
   */
  public synchronized Lexeme next() throws IOException {
    if (context.getResultSize() == 0) {
      /*
       * 从reader中读取数据，填充buffer
       * 如果reader是分次读入buffer的，那么buffer要进行移位处理
       * 移位处理上次读入的但未处理的数据
       */
      int available = fillBuffer(input);

      if (available <= 0) {
        context.resetContext();
        return null;
      } else {
        // 分词处理
        int analyzedLength = 0;
        for (int buffIndex = 0; buffIndex < available; buffIndex++) {
          // 移动缓冲区指针
          context.setCursor(buffIndex);
          // 进行字符规格化（全角转半角，大写转小写处理）
          segmentBuff[buffIndex] = CharacterHelper.regularize(segmentBuff[buffIndex]);
          // 遍历子分词器
          for (ISegmenter segmenter : segmenters) {
            segmenter.nextLexeme(segmentBuff, context);
          }
          analyzedLength++;
          /*
           * 满足一下条件时，
           * 1.available == BUFF_SIZE 表示buffer满载
           * 2.buffIndex < available - 1 && buffIndex > available - BUFF_EXHAUST_CRITICAL表示当前指针处于临界区内
           * 3.!context.isBufferLocked()表示没有segmenter在占用buffer
           * 要中断当前循环（buffer要进行移位，并再读取数据的操作）
           */
          if (available == BUFF_SIZE
              && buffIndex < available - 1
              && buffIndex > available - BUFF_EXHAUST_CRITICAL
              && !context.isBufferLocked()) {

            break;
          }
        }

        for (ISegmenter segmenter : segmenters) {
          segmenter.reset();
        }
        // System.out.println(available + " : " +  buffIndex);
        // 记录最近一次分析的字符长度
        context.setLastAnalyzed(analyzedLength);
        // 同时累计已分析的字符长度
        context.setBuffOffset(context.getBuffOffset() + analyzedLength);
        // 如果使用最大切分，则过滤交叠的短词元
        if (context.isMaxWordLength()) {
          context.excludeOverlap();
        }
        // 读取词元池中的词元
        return buildLexeme(context.firstLexeme());
      }
    } else {
      // 读取词元池中的已有词元
      return buildLexeme(context.firstLexeme());
    }
  }