采集操作使用详细说明

所属分类: 实用技巧 / 应用技巧 阅读数: 936
收藏 0 赞 0 分享
一、项目编辑--基本设置

  项目名称:    电脑入门                         (注:随便写)
  网站名称:    it.com.cn                        (注:随便写)
  网站地址:    http://www.it.com.cn             (注:随便写)
  新闻列表网址:http://www.it.com.cn/edu/readme/ (注:采集网站哪个网站的网址。)
  项目备注:    记得经常采集这个栏目。           (注:随便写)


二、项目编辑--采集目标源码

  列表开始代码:(注:要找到唯一的)
  列表结束代码:频道精选 
  列表索引分页:(注:这里有三种,<设置标签>、<批量生成>、<手动添加>)

  1、设置标签:
  下页开始标记:下页结束标记:>下一页     (注:要找到唯一的)
  索引分页重定向:   (注:不知何意,请老大指教!)

   2、批量生成 (注:这里设置生成范围为 1 TO 5 是不行的,没index_1.html这个目标,有些网站是可以。)
  原字符串:http://www.it.com.cn/edu/readme/index_{$ID}.html
  生成范围:2  To  5

  3、手动添加(注:这里不能添加:http://www.it.com.cn/edu/readme/index_1.html,理由同上)
  http://www.it.com.cn/edu/readme/index_2.html
  http://www.it.com.cn/edu/readme/index_3.html
  http://www.it.com.cn/edu/readme/index_4.html
  http://www.it.com.cn/edu/readme/index_5.html

三、项目编辑-- 采集列表

  链接开始代码: 链接结束代码:  target=_blank      (注:要找到唯一的)
  链接特殊处理:  不作处理   重新定位              (注:不知何意,请老大指教!)
  绝对链接字符:                                   (注:不知何意,请老大指教!)

  这是分析后所得到的新闻绝对链接地址:http://www.it.com.cn/f/edu/051/15/68987.htm  请查看是否正确。(注:点击后的地址是:http://127.0.0.1/Admin/target=_blank   BUG???)

四、项目编辑--采集目标内容页源码

  标题开始标记: 或:
  正文开始标记: (注:要找到唯一的)
  正文结束标记: (注:要找到唯一的)

  作者设置:   (注:这里就不说了,设置标签和采集正文的一样)
  关键字词设置: (注:同上)
  正文分页设置: (注:这里演示<设置标签>)

  设置标签
  下页开始标记:下页结束标记:>[下一页]
  分页绝对链接: (注:感觉没什么用处?不知何意,请老大指教!)

五、项目编辑--属性设置

  (注:到这一步显示出正文,说明测试采集目标成功,这里要注意的是:文中的图片显示不出来是正常的,发表后自然会显示出来)

六:项目编辑--文章属性  (注:自己设置啦~~~)

  过滤选项: (注:建议全部打上勾)


satan_zero兄的【经验之谈】几个关键:

  1. 请选择文章中独一无二、每篇必存的代码作为代码。这要看你的心思了,这关都通不过,
  嘿嘿,还是去买本有讲HTML的书或者找个教程看看

  2. 请在不要复制2005版中的代码作为标签。因为在代码视图中有些代码不可见,这应该是中鸟(嘿嘿)采集失败的原因,
  譬如:2个字节的空格的代码  ,代码视图中就看不到。
  解决办法:用记事本或者文本编辑器打开源代码看。

文件比较大,传到自己的空间里,分三部分下载:
  http://www.itcfan.com/cj/1.part1.rar
  http://www.itcfan.com/cj/2.part2.rar
  http://www.itcfan.com/cj/3.part3.rar

更多精彩内容其他人还在看

Win XP系统语言栏丢失解决三例

案例一:   问:一台计算机使用Windows XP操作系统,最近任务栏内无法显示语言栏,我通过“区域和语言选项”里的设置找回了语言栏,重新启动计算机后,问题依旧,请问是什么问题造成的?
收藏 0 赞 0 分享

设计软件中的系统字体应用小技巧

大家都知道,在操作系统的安装目录下有字体库,要使用种字体首先需要安装,但是这会造成字体占用系统盘空间过多。设计使用的字体都不少,怎么说也有几个G,很占资源,下面教大家一个稍微节省资源的方法。
收藏 0 赞 0 分享

Access中字段上自动打开的输入法的解决方法

打开Access数据库时,在里面数据表字段输入数值时,总是会跳出输入法来,很是烦人,在网上找了一下,找到了相应的解决办法:
收藏 0 赞 0 分享

“internet explore 无法打开internet站点 已终止操作”的解决方法

在IE下,当页面还没有加载完全时,如果正在执行的JS代码中含有使用了document.createElement的话,很容易引起页面加载失败.导致提示"internet explore 无法打开internet站点 http://www.xxx.com/xxx/xxx.
收藏 0 赞 0 分享

十个习惯让你精通新的开发技术

这篇文章,是从我的《高效开发人员的五个特征》一文中抽出的一个观点。从我自身的事业和习惯中,我考虑了很多方式怎么样才能有效地学习。
收藏 0 赞 0 分享

小谈RADMIN爆破

最近做渗透测试时常碰到RADMIN一类的东西.. 一碰到此类的程序,一般我都会先看下对方把RADMIN的端口配置成什么..以及相应的PASS(加密过的)
收藏 0 赞 0 分享

动易2006序列号破解算法公布

动易2007就快发布了,把2006的算法公开吧,赚点人气,希望动易不要来找我 。
收藏 0 赞 0 分享

联众密码的逆向算法公布

闲来无事,每天上联众,联众的密码经过加密后保存在本地注册表里,看看是怎么加密的。下了个ollydbg,一路跟踪,发现算法极其简单,给出Delphi版本的解密算法(加密部分有兴趣的一起来讨论)。算法比较粗糟,谁帮优化一下:)
收藏 0 赞 0 分享

关于三种主流WEB架构的思考

做WEB好几年了,各种语言和技术都稍有涉猎。今天心血来潮,突然想总结一下。其实不论什么技术,什么需求,通常WEB开发就是通过WEB前端管理一个或大或小或独立或分布式的关系型数据库,很多东西都是相通的。这里说的WEB架构,是指WEB应用开发中每种技术独有的资源组织形式(包括文件,数
收藏 0 赞 0 分享

一篇关于程序员性格的文章第1/3页

软件开发中人们很少注意个人性格问题。自从 1965年Edsger Dijkstra的有里程碑意义的文章“程序开发是一种人类活动”发表以来,程序员性格被认为是合理的和有成效的研究领域,虽然有些题目如“大桥建筑者的心理”和“对律师行为的研究实验”看起来可能是荒唐的,而在计算机领域,“
收藏 0 赞 0 分享
查看更多