dede3.1分页文字采集过滤规则详说(图文教程)

所属分类: 网络编程 / PHP编程 阅读数: 1563
收藏 0 赞 0 分享

本文旨在以一个有代表性的文字分页的取样规则和过滤规则为蓝本,通过简单的变通和改动,解决一般性文字分页的采集问题

一、范例部分
范例分页区域代码:
范例分页区域代码:

范例分页区域取样代码:
  分页区域取样(匹配):


范例分页内容过滤规则:
分页内容过滤规则:

范例采集内容预览:
范例采集内容预览:


范例全代码(说明:此代码为在原基础上进行更改后的代码,原代码版本不同,直接导入后无效,因此在dede论坛中有许多朋友说过‘直接导入人家的代码都不能用',确实如此):
输出结果:http://wen.soudata.net/html/guizeceshi/caijibiji/20070327/2044_2.html
与原文比较下吧:http://www.xiaocao.com/text/class1/class1/200609/text_28623.html
这是全部的代码,可导入试下:

复制代码 代码如下:

{!-- 节点基本信息 --}

{dede:item name='论坛范例_工作总结_成功(改)'
    imgurl='/upimg' imgdir='../upimg' language='gb2312' typeid='1' macthtype='string'}
{/dede:item}

{!-- 采集列表获取规则 --}

{dede:list source='var' sourcetype='archives' 
          varstart='' varend=''}
  {dede:url value='http://www.xiaocao.com/text/class1/class1/200609/text_28623.html'}{/dede:url}    
  {dede:need}{/dede:need}
  {dede:cannot}{/dede:cannot}
  {dede:linkarea}[var:区域]{/dede:linkarea}
{/dede:list}

{!-- 网页内容获取规则 --}

{dede:art}
{dede:sppage sptype='full'}<p align='center'><b><font color='red'>[1]</font>[var:分页区域]</b>{/dede:sppage}

  {dede:note field='dede_archives.title' value='[var:内容]' comment='文章标题' 
  isunit='' isdown=''}

    {dede:match}<title>[var:内容]</title>{/dede:match}

    {dede:function}{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.sortrank' value='[var:内容]' comment='排序级别' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}@me = time();{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.writer' value='[var:内容]' comment='文章作者' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.litpic' value='[var:内容]' comment='缩略图' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}@me = @litpic;{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.pubdate' value='[var:内容]' comment='发布时间' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}if(@me!="") @me = GetMkTime(@me);
else @me = time();{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.senddate' value='[var:内容]' comment='录入时间' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}@me = time();{/dede:function}

  {/dede:note}

  {dede:note field='dede_addonarticle.body' value='[var:内容]' comment='文章内容' 
  isunit='1' isdown=''}

    {dede:match}<script language="JavaScript" type="text/javascript" src="/AD/artcontent.js"></script>[var:内容]<table width="100%" border="0" cellspacing="0" cellpadding="0">
{/dede:match}
        {dede:trim}<p align='center'><b>(.*)</b></p>{/dede:trim}

    {dede:function}{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.source' value='[var:内容]' comment='文章来源' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}{/dede:function}

  {/dede:note}
{/dede:art}

更多精彩内容其他人还在看

Python中使用django form表单验证的方法

这篇文章主要介绍了Python中使用django form表单验证的方法,需要的朋友可以参考下
收藏 0 赞 0 分享

php文件管理基本功能简单操作

这篇文章主要为大家详细介绍了php文件管理基本功能简单操作的相关资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
收藏 0 赞 0 分享

php常用数组函数实例小结

这篇文章主要介绍了php常用数组函数,结合实例形式总结分析了php常用数组函数array_merge、array_slice及array_map的功能与使用技巧,需要的朋友可以参考下
收藏 0 赞 0 分享

详解ThinkPHP3.2.3验证码显示、刷新、校验

本篇文章主要介绍了ThinkPHP3.2.3验证码显示、刷新、校验 ,具有一定的参考价值,感兴趣的小伙伴们可以参考一下。
收藏 0 赞 0 分享

php常用正则函数实例小结

这篇文章主要介绍了php常用正则函数,结合实例形式总结分析了php正则表达式常用函数,包括preg_replace、preg_match及preg_match_all函数的功能、使用方法与相关注意事项,需要的朋友可以参考下
收藏 0 赞 0 分享

php常用字符函数实例小结

这篇文章主要介绍了php常用字符函数,结合实例形式总结分析了php常用字符函数substr、preg_match、strpos、dirname及str_split功能、用法与相关注意事项,需要的朋友可以参考下
收藏 0 赞 0 分享

PHP实现的XML操作类【XML Library】

这篇文章主要介绍了PHP实现的XML操作类,涉及php针对数组、xml的转换、序列化、反序列化等相关操作技巧,需要的朋友可以参考下
收藏 0 赞 0 分享

详解thinkphp实现excel数据的导入导出(附完整案例)

本篇文章主要介绍了thinkphp实现excel数据的导入导出,具有一定的参考价值,感兴趣的小伙伴们可以参考一下。
收藏 0 赞 0 分享

PHP实现截取中文字符串不出现?号的解决方法

这篇文章主要介绍了PHP实现截取中文字符串不出现?号的解决方法,涉及php字符串遍历及编码转换等相关操作技巧,需要的朋友可以参考下
收藏 0 赞 0 分享

微信公众号模板消息群发php代码示例

这篇文章主要为大家详细介绍了微信公众号模板消息群发php代码示例,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
收藏 0 赞 0 分享
查看更多