`
fancyboy2050
  • 浏览: 238547 次
  • 性别: Icon_minigender_1
  • 来自: 皇城根儿下
社区版块
存档分类
最新评论

htmlunit抓取小说网站JS加载内容

阅读更多
http://www.17k.com/chapter/76839/8810097.html

这是17K的一个小说的章节,内容是通过JS加载的,当我们用httpclient去抓取时,因为取得的是原始页面,所以无法获得章节的具体内容。

用HtmlUnit模拟浏览器运行,获得执行后的html页面,然后就可以抓取到想要的具体内容了^_^
public class HtmlUnitTest {
	
	public static void main(String[] args) throws Exception {
		// 新建一个WebClient对象,此对象相当于浏览器   
        final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);
        // 构造一个URL   
        URL url = new URL("http://www.17k.com/chapter/76839/8810097.html");
        // 通过getPage()方法,返回相应的页面   
        HtmlPage page = (HtmlPage) webClient.getPage(url);
        System.out.println(page.getHtmlElementById("chapterContent").asText());
	}

}
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics