采集操作使用详细说明

所属分类: 实用技巧 / 应用技巧 阅读数: 916
收藏 0 赞 0 分享
一、项目编辑--基本设置

  项目名称:    电脑入门                         (注:随便写)
  网站名称:    it.com.cn                        (注:随便写)
  网站地址:    http://www.it.com.cn             (注:随便写)
  新闻列表网址:http://www.it.com.cn/edu/readme/ (注:采集网站哪个网站的网址。)
  项目备注:    记得经常采集这个栏目。           (注:随便写)


二、项目编辑--采集目标源码

  列表开始代码:(注:要找到唯一的)
  列表结束代码:频道精选 
  列表索引分页:(注:这里有三种,<设置标签>、<批量生成>、<手动添加>)

  1、设置标签:
  下页开始标记:下页结束标记:>下一页     (注:要找到唯一的)
  索引分页重定向:   (注:不知何意,请老大指教!)

   2、批量生成 (注:这里设置生成范围为 1 TO 5 是不行的,没index_1.html这个目标,有些网站是可以。)
  原字符串:http://www.it.com.cn/edu/readme/index_{$ID}.html
  生成范围:2  To  5

  3、手动添加(注:这里不能添加:http://www.it.com.cn/edu/readme/index_1.html,理由同上)
  http://www.it.com.cn/edu/readme/index_2.html
  http://www.it.com.cn/edu/readme/index_3.html
  http://www.it.com.cn/edu/readme/index_4.html
  http://www.it.com.cn/edu/readme/index_5.html

三、项目编辑-- 采集列表

  链接开始代码: 链接结束代码:  target=_blank      (注:要找到唯一的)
  链接特殊处理:  不作处理   重新定位              (注:不知何意,请老大指教!)
  绝对链接字符:                                   (注:不知何意,请老大指教!)

  这是分析后所得到的新闻绝对链接地址:http://www.it.com.cn/f/edu/051/15/68987.htm  请查看是否正确。(注:点击后的地址是:http://127.0.0.1/Admin/target=_blank   BUG???)

四、项目编辑--采集目标内容页源码

  标题开始标记: 或:
  正文开始标记: (注:要找到唯一的)
  正文结束标记: (注:要找到唯一的)

  作者设置:   (注:这里就不说了,设置标签和采集正文的一样)
  关键字词设置: (注:同上)
  正文分页设置: (注:这里演示<设置标签>)

  设置标签
  下页开始标记:下页结束标记:>[下一页]
  分页绝对链接: (注:感觉没什么用处?不知何意,请老大指教!)

五、项目编辑--属性设置

  (注:到这一步显示出正文,说明测试采集目标成功,这里要注意的是:文中的图片显示不出来是正常的,发表后自然会显示出来)

六:项目编辑--文章属性  (注:自己设置啦~~~)

  过滤选项: (注:建议全部打上勾)


satan_zero兄的【经验之谈】几个关键:

  1. 请选择文章中独一无二、每篇必存的代码作为代码。这要看你的心思了,这关都通不过,
  嘿嘿,还是去买本有讲HTML的书或者找个教程看看

  2. 请在不要复制2005版中的代码作为标签。因为在代码视图中有些代码不可见,这应该是中鸟(嘿嘿)采集失败的原因,
  譬如:2个字节的空格的代码  ,代码视图中就看不到。
  解决办法:用记事本或者文本编辑器打开源代码看。

文件比较大,传到自己的空间里,分三部分下载:
  http://www.itcfan.com/cj/1.part1.rar
  http://www.itcfan.com/cj/2.part2.rar
  http://www.itcfan.com/cj/3.part3.rar

更多精彩内容其他人还在看

DEDECMS插入表时的出错

修改服务器mysql的sql-mode配置以解决DEDECMS插入表时的出错的BUG
收藏 0 赞 0 分享

Firefox浏览器狂占CPU解决办法

这两天 Firefox 突然变态,时不时的占用接近 50% CPU 资源,带来的现象是系统应用程序响应极慢。开始还以为是个别页面带来的问题,后来发现原来是普遍现象。这类问题开始不好求助于 Google ,说实话,不知道用啥作关键字搜索。
收藏 0 赞 0 分享

TMP、TEMP和TMP文件区别解析

总是发现很多tmp和temp等缓存文件,不懂为什么要那么多区别,看了下文,感觉不错
收藏 0 赞 0 分享

保存网页图片的八种方法小结

为了增加互动性和美观,现在的网页中都有许多精美的图片,这些都是网页制作者精心制作出来的,如果你想拿来为自己所用就必须把它们保存下来。另外,在一些电子书中也有精美的图片,为了防止有人复制,作者禁用了鼠标右键无法直接下载,针对以上情况,我们可以想办法来突破限制,从易到难可以顺次采用以
收藏 0 赞 0 分享

高手总结的电脑应用技巧第1/3页

声明:以下技巧都是一些电脑常用技巧,但也并不是每个人都很清楚,请只选择你感兴趣的内容选择性的观看。
收藏 0 赞 0 分享

不用任何软件修改mac地址的图文方法

一直都用的软件修改mac地址,没想到可以直接修改,学到一招
收藏 0 赞 0 分享

安装ppstream后出现的ppsap.exe进程解决办法

程文件:ppsap.exe 进程名称:ppsap.exe 描述: ppstream每次启动都会另开一个进程“网络加速器”(ppsap.exe), (1)每次开机都会自动运行, (2)退出ppstream之后会继续存在, (3)可手动在taskmanager
收藏 0 赞 0 分享

SIM卡的基本知识

一直用SIM卡不知道是怎么回事呢
收藏 0 赞 0 分享

删除XP中“自定义通知”的历史项目

XP中自定义通知很反感,告诉大家它的删除方法
收藏 0 赞 0 分享

更改IE浏览器的图标

注册表更改IE图标
收藏 0 赞 0 分享
查看更多