HttpClient抓取网页的两种方式

所属分类: 实用技巧 / 应用技巧 阅读数: 496
收藏 0 赞 0 分享
一、利用NodeFilter对网页进行分析

1、生成一个Parser
a.通过url提取网络上的网页
复制代码 代码如下:

Parser parser = new Parser();
parser.setURL("http://www.yahoo.com.cn");

b.提取本地网页文件
通过读文件把网页文件转化成字符串;
复制代码 代码如下:

Parser parser=Parser.createParser(html,charset);

2、利用NodeFilter做一个filter
a.利用Tag Name
NodeFilter filter=new TagNameFilter("IMG");
b.利用Tag Class
NodeFilter filter = new NodeClassFilter(ImageTag.class);

3、通过匹配filter,得到所有符合条件的Tag
NodeList list=parser.extractAllNodesThat(filter);
for(int i=0;i String content=list.elementAt(i).toHtml();//得到符合条件的Tag 内容
如果针对具体情况进行更加详细的处理,则:
复制代码 代码如下:

ImageTag imageTag=(ImageTag)list.elementAt(i);
…………
}

然后根据需要做相应的处理。

二、利用Visitor对网页进行分析
1、生成一个Parser
a.通过url提取网络上的网页
复制代码 代码如下:

Parser parser = new Parser();
parser.setURL("http://www.yahoo.com.cn");

b.提取本地网页文件
通过读文件把网页文件转化成字符串;
复制代码 代码如下:

Parser parser=Parser.createParser(html,charset);

2、用visitor访问页面
复制代码 代码如下:

ex:ObjectFindingVisitor visitor=new ObjectFindingVisitor();
parser.visitAllNodesWith(visitor);

3、通过特定的visitor得到符合条件的Tag
复制代码 代码如下:

Node[] nodes=visitor.getTags();
for(int i=0;i ImageTag imageTag=(ImageTag)nodes[i];
…………
//根据需要做特定处理
}
更多精彩内容其他人还在看

遇到删不掉的文件的处理分析

大家是否有这样的经历:在删除某个文件时,系统会给出各种各样的提示,反正就是死活不让删。
收藏 0 赞 0 分享

比较详细的WinXP故障恢复控制台完全手册第1/2页

Windows 故障恢复控制台的功能是帮助基于 Windows 的计算机在未正确启动或根本无法启动时进行恢复操作。
收藏 0 赞 0 分享

vmt的修改之正则(桂军)

原来的vmt在(ssi)的时候有问题,今天看了一下代码发到群中
收藏 0 赞 0 分享

Windowns Diskpart下合并分区的方法dos下

非常不错的合并分区的方法,经测试,好用,就是对于稳定性就不知道了,理论下应该没什么问题,对于个人电脑合并分区和服务器分区合并来说,无疑是一个非常好的办法
收藏 0 赞 0 分享

合并分区之利用软件篇

一般分区合并工具一般就比较常见的两个Acronis Disk Director Suite和pQmagic但,这两个需要在电脑旁边,而服务器我推荐看上一篇文章
收藏 0 赞 0 分享

IE浏览器打不开PNG格式图片的解决

具体症状是:以IE为核心的浏览器包括ie都打不开png格式的网页图片,如果以纯链接打开网络png图片则提示下载或无法打开。
收藏 0 赞 0 分享

在电脑城混了三年了装机心得

在电脑城混了三年了,写一下对装机的心得。
收藏 0 赞 0 分享

Win2003的服务器修改默认上传200k和下载4M的限制

Win2003的服务器修改默认上传200k和下载4M的限制
收藏 0 赞 0 分享

几步轻松解决打不开IE链接

几步轻松解决打不开IE链接
收藏 0 赞 0 分享

分区软件PartitionMagic的使用方法(images)及注意事项

分区软件PartitionMagic的使用方法(images)及注意事项
收藏 0 赞 0 分享
查看更多