Java ISegmenter примеры использования

Язык программирования: Java

Пространство имен/Пакет: org.wltea.analyzer.seg

Класс/Тип: ISegmenter

Примеров на hotexamples.com: 2

Java ISegmenter - 2 примера найдено. Это лучшие примеры Java кода для org.wltea.analyzer.seg.ISegmenter, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

reset(2)

nextLexeme(1)

Пример #1

Показать файл

Файл: IKSegmentation.java Проект: kerie/marswork

 /**
  * 重置分词器到初始状态
  *
  * @param input
  */
 public synchronized void reset(Reader input) {
   this.input = input;
   context.resetContext();
   for (ISegmenter segmenter : segmenters) {
     segmenter.reset();
   }
 }

Пример #2

Показать файл

Файл: IKSegmentation.java Проект: kerie/marswork

  /**
   * 获取下一个语义单元
   *
   * @return 没有更多的词元，则返回null
   * @throws IOException
   */
  public synchronized Lexeme next() throws IOException {
    if (context.getResultSize() == 0) {
      /*
       * 从reader中读取数据，填充buffer
       * 如果reader是分次读入buffer的，那么buffer要进行移位处理
       * 移位处理上次读入的但未处理的数据
       */
      int available = fillBuffer(input);

      if (available <= 0) {
        context.resetContext();
        return null;
      } else {
        // 分词处理
        int analyzedLength = 0;
        for (int buffIndex = 0; buffIndex < available; buffIndex++) {
          // 移动缓冲区指针
          context.setCursor(buffIndex);
          // 进行字符规格化（全角转半角，大写转小写处理）
          segmentBuff[buffIndex] = CharacterHelper.regularize(segmentBuff[buffIndex]);
          // 遍历子分词器
          for (ISegmenter segmenter : segmenters) {
            segmenter.nextLexeme(segmentBuff, context);
          }
          analyzedLength++;
          /*
           * 满足一下条件时，
           * 1.available == BUFF_SIZE 表示buffer满载
           * 2.buffIndex < available - 1 && buffIndex > available - BUFF_EXHAUST_CRITICAL表示当前指针处于临界区内
           * 3.!context.isBufferLocked()表示没有segmenter在占用buffer
           * 要中断当前循环（buffer要进行移位，并再读取数据的操作）
           */
          if (available == BUFF_SIZE
              && buffIndex < available - 1
              && buffIndex > available - BUFF_EXHAUST_CRITICAL
              && !context.isBufferLocked()) {

            break;
          }
        }

        for (ISegmenter segmenter : segmenters) {
          segmenter.reset();
        }
        // System.out.println(available + " : " +  buffIndex);
        // 记录最近一次分析的字符长度
        context.setLastAnalyzed(analyzedLength);
        // 同时累计已分析的字符长度
        context.setBuffOffset(context.getBuffOffset() + analyzedLength);
        // 如果使用最大切分，则过滤交叠的短词元
        if (context.isMaxWordLength()) {
          context.excludeOverlap();
        }
        // 读取词元池中的词元
        return buildLexeme(context.firstLexeme());
      }
    } else {
      // 读取词元池中的已有词元
      return buildLexeme(context.firstLexeme());
    }
  }