Java ISegmenter示例

编程语言: Java

命名空间/包名称: org.wltea.analyzer.seg

类/类型: ISegmenter

hotexamples.com的示例: 2

Java ISegmenter - 已找到2个示例。这些是从开源项目中提取的最受好评的org.wltea.analyzer.seg.ISegmenter现实Java示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

reset(2)

nextLexeme(1)

示例#1

显示文件

文件： IKSegmentation.java 项目： kerie/marswork

 /**
  * 重置分词器到初始状态
  *
  * @param input
  */
 public synchronized void reset(Reader input) {
   this.input = input;
   context.resetContext();
   for (ISegmenter segmenter : segmenters) {
     segmenter.reset();
   }
 }

示例#2

显示文件

文件： IKSegmentation.java 项目： kerie/marswork

  /**
   * 获取下一个语义单元
   *
   * @return 没有更多的词元，则返回null
   * @throws IOException
   */
  public synchronized Lexeme next() throws IOException {
    if (context.getResultSize() == 0) {
      /*
       * 从reader中读取数据，填充buffer
       * 如果reader是分次读入buffer的，那么buffer要进行移位处理
       * 移位处理上次读入的但未处理的数据
       */
      int available = fillBuffer(input);

      if (available <= 0) {
        context.resetContext();
        return null;
      } else {
        // 分词处理
        int analyzedLength = 0;
        for (int buffIndex = 0; buffIndex < available; buffIndex++) {
          // 移动缓冲区指针
          context.setCursor(buffIndex);
          // 进行字符规格化（全角转半角，大写转小写处理）
          segmentBuff[buffIndex] = CharacterHelper.regularize(segmentBuff[buffIndex]);
          // 遍历子分词器
          for (ISegmenter segmenter : segmenters) {
            segmenter.nextLexeme(segmentBuff, context);
          }
          analyzedLength++;
          /*
           * 满足一下条件时，
           * 1.available == BUFF_SIZE 表示buffer满载
           * 2.buffIndex < available - 1 && buffIndex > available - BUFF_EXHAUST_CRITICAL表示当前指针处于临界区内
           * 3.!context.isBufferLocked()表示没有segmenter在占用buffer
           * 要中断当前循环（buffer要进行移位，并再读取数据的操作）
           */
          if (available == BUFF_SIZE
              && buffIndex < available - 1
              && buffIndex > available - BUFF_EXHAUST_CRITICAL
              && !context.isBufferLocked()) {

            break;
          }
        }

        for (ISegmenter segmenter : segmenters) {
          segmenter.reset();
        }
        // System.out.println(available + " : " +  buffIndex);
        // 记录最近一次分析的字符长度
        context.setLastAnalyzed(analyzedLength);
        // 同时累计已分析的字符长度
        context.setBuffOffset(context.getBuffOffset() + analyzedLength);
        // 如果使用最大切分，则过滤交叠的短词元
        if (context.isMaxWordLength()) {
          context.excludeOverlap();
        }
        // 读取词元池中的词元
        return buildLexeme(context.firstLexeme());
      }
    } else {
      // 读取词元池中的已有词元
      return buildLexeme(context.firstLexeme());
    }
  }