Java HtmlParser.parse示例

编程语言: Java

类/类型: HtmlParser

方法/功能: parse

hotexamples.com的示例: 5

Java HtmlParser.parse - 已找到5个示例。这些是从开源项目中提取的最受好评的HtmlParser.parse现实Java示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

parse(5)

doParser(1)

getDocsUrls(1)

getHrefUrls(1)

getHtmlContent(1)

getImagesUrls(1)

getText(1)

getVideosUrls(1)

示例#1

显示文件

文件： AnalyzerTask.java 项目： Shredder13/WebCrawler

  /** * Parse HTML file and extract the relevant content, and send it to be downloaded. */
  @Override
  public void run() {
    Log.d(String.format("AnalyzerTask is running on %s", currUrl));
    HashMap<String, ArrayList<String>> exts = new HashMap<>();

    // Put the extensions from config.ini in a hash-map, for passing it to the HtmlParser.
    exts.put("imageExtensions", WebCrawler.imageExtensions);
    exts.put("videoExtensions", WebCrawler.videoExtensions);
    exts.put("documentExtensions", WebCrawler.documentExtensions);

    // Extracting the relevant URLs from the given HTML.
    HtmlParser parser = new HtmlParser(currUrl, currHtml, exts);
    parser.parse();

    // Filling the URL lists with downloadable data
    ArrayList<String> imgUrls = parser.getImagesUrls();
    ArrayList<String> videoUrls = parser.getVideosUrls();
    ArrayList<String> docUrls = parser.getDocsUrls();
    ArrayList<String> hrefUrls = parser.getHrefUrls();

    Log.d("Sending images to downloads");
    sendToDownload(imgUrls, DownloaderTask.RESOURCE_TYPE_IMG);
    Log.d("Sending videos to downloads");
    sendToDownload(videoUrls, DownloaderTask.RESOURCE_TYPE_VIDEO);
    Log.d("Sending documents to downloads");
    sendToDownload(docUrls, DownloaderTask.RESOURCE_TYPE_DOC);
    Log.d("Sending HREFs to downloads");
    sendToDownload(hrefUrls, DownloaderTask.RESOURCE_TYPE_HREF);

    decreaseNumOfAnalyzersAlive();
  }

示例#2

显示文件

文件： HTML2PlainConverter.java 项目： amicom/Work-In-Progress

 /** @param text */
 public static String convert(final String text) {
   final HtmlParser parser = new HtmlParser();
   try {
     parser.parse(new StringReader(text));
   } catch (final IOException e) {
     // TODO Auto-generated catch block
     e.printStackTrace();
   }
   return parser.getText();
 }

示例#3

显示文件

文件： HTML.java 项目： BhoopathiSuman/TestingArtifacts

  /**
   * Parse using given file
   *
   * @param file
   * @throws Exception
   */
  public HTML(File file) throws Exception {
    // Initialize the variables
    initialize();

    // Set the reader to use a file
    reader = new FileReader(file);

    // Initialize the parser
    parser = new HtmlParser(uacontext, doc);

    // Use the Cobra HTML parser
    parser.parse(reader);
  }

示例#4

显示文件

文件： HTML.java 项目： BhoopathiSuman/TestingArtifacts

  /**
   * Parse the current web page from the WebDriver
   *
   * @param driver
   * @throws Exception
   */
  public HTML(WebDriver driver) throws Exception {
    // Initialize the variables
    initialize();

    // Set the reader to use a string which comes from the current web page
    reader = new StringReader(driver.getPageSource());

    // Initialize the parser
    parser = new HtmlParser(uacontext, doc);

    // Use the Cobra HTML parser
    parser.parse(reader);
  }

示例#5

显示文件

文件： HTML.java 项目： BhoopathiSuman/TestingArtifacts

  /**
   * Parse using given text
   *
   * @param sText
   * @throws Exception
   */
  public HTML(String sText) throws Exception {
    // Initialize the variables
    initialize();

    // Set the reader to use a string
    reader = new StringReader(sText);

    // Initialize the parser
    parser = new HtmlParser(uacontext, doc);

    // Use the Cobra HTML parser
    parser.parse(reader);
  }