Exemplos de Page.getHtml em Java

Linguagem de programação: Java

Espaço para nome / nome do pacote: cn.edu.hfut.dmic.webcollector.model

Classe / Tipo: Page

Método / Função: getHtml

Exemplos em hotexamples.com: 4

Page.getHtml em Java - 4 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de cn.edu.hfut.dmic.webcollector.model.Page.getHtml em Java extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

getDoc(4)

getHtml(4)

getUrl(4)

getContent(2)

getMetaData(1)

select(1)

Métodos Frequentes

getDoc (4)

getHtml (4)

getUrl (4)

getContent (2)

getMetaData (1)

select (1)

Relacionados

ControlViewGroup

BpelDatabase

SipEvent

CustomerInfoAudit

WakfuTranslator

MethodCall

SimpleAddressDetector

Volley

DisplayUtils

Related in langs

ValidatingModel (PHP)

base (PHP)

DirectoryEntryHolder (C#)

MapCell (C#)

g_clear_pointer (C++)

GST_BUFFER_TIMESTAMP (C++)

TCPConn (Go)

NewExitError (Go)

register_models (Python)

run_batches (Python)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: TutorialCrawler.java Projeto: furyleo/WebcollectorDemo

@Override public Links visitAndGetNextLinks(Page page) { Document doc = page.getDoc(); String html = page.getHtml(); String title = doc.title(); System.out.println("URL:" + page.getUrl() + " 关键字：" + getKeyword() + " 标题:" + title); Map<String, String> map = new HashMap<String, String>(); map.put("url", page.getUrl()); if (isExistKeywords(html)) { save(map); } /* 下面是2.0版本新加入的内容 */ /* * 抽取page中的链接返回，这些链接会在下一轮爬取时被爬取。不用担心URL去重，爬虫会自动过滤重复URL。 */ Links nextLinks = new Links(); /* * 我们只希望抽取满足正则约束的URL， Links.addAllFromDocument为我们提供了相应的功能 */ nextLinks.addAllFromDocument(doc, regexRule); /* * Links类继承ArrayList<String>,可以使用add、addAll等方法自己添加URL * 如果当前页面的链接中，没有需要爬取的，可以return null * 例如如果你的爬取任务只是爬取seed列表中的所有链接，这种情况应该return null */ return nextLinks; }

Exemplo n.º 2

0

Exibir arquivo

Arquivo: PicCrawler.java Projeto: dluobo/SpiderWeb

@Override public Links visitAndGetNextLinks(Page page) { System.out.println(page.getHtml()); if (Pattern.matches(".*jpg$", page.getUrl()) || Pattern.matches(".*png$", page.getUrl()) || Pattern.matches(".*gif$", page.getUrl())) { try { FileUtils.writeFileWithParent( "download/" + id.incrementAndGet() + ".jpg", page.getContent()); System.out.println("download:" + page.getUrl()); } catch (IOException e) { e.printStackTrace(); } } MyLinks nextLinks = new MyLinks(); RegexRule rr = new RegexRule(); rr.addRule(".*meishij.*"); nextLinks.addAllFromDocument(page.getDoc(), rr); nextLinks.filterImgUrl(page.getDoc(), rr); System.out.println(nextLinks.size()); try { Thread.sleep(1500); } catch (InterruptedException e) { e.printStackTrace(); } return nextLinks; }

Exemplo n.º 3

0

Exibir arquivo

Arquivo: MoviceJsonCrawler.java Projeto: copy202/seefly_collector

@Override public Links visitAndGetNextLinks(Page page) { String jsonStr = page.getHtml(); System.out.println(jsonStr); JSONObject json = new JSONObject(jsonStr); this.total = json.getInt("total"); String html = json.getString("html"); parseHtml(html); return null; }

Exemplo n.º 4

0

Exibir arquivo

Arquivo: WeiboEntityCrawler.java Projeto: yuriak/DufeDataCrawler

@Override public Links visitAndGetNextLinks(Page page) { weiboEntityBeans.addAll(WeiboEntityParser.parse(page.getHtml())); System.out.println(); return null; }