百度新闻开放协议XML文档制作方法简述

所属分类: 网页制作 / XML/XSLT 阅读数: 624
收藏 0 赞 0 分享
开放协议概述
使用此开放协议,将会为您的网站带去更多流量!
《互联网新闻开放协议》是百度新闻搜索制定的搜索引擎新闻源收录标准,网站可将发布的新闻内容制作成遵循此开放协议的XML格式的网页(独立于原有的新闻发布形式)供搜索引擎索引,将网站发布的新闻信息主动、及时地告知百度搜索引擎。
采用了《互联网新闻开放协议》,就相当于网站的新闻被搜索引擎订阅,通过百度——全球最大的中文搜索引擎这个平台,网民将有可能在更大范围内更高频率地访问到您网站的新闻,进而为您的网站带来潜在的流量。
开放协议非常简单! 您可以在我们的帮助下轻松使用。 开放协议内容
下图为遵照《互联网新闻开放协议》制作的XML格式的网页,网页上按照标准格式列出了网站发布的新闻的相关信息。
XML网页示例:
百度新闻开放协议XML文档制作方法简述
XML标签说明: 其中带星号标记的为必选项,未带星号标记为可选项。
*<document>——标记整个XML文件内容的开始和结束。
*<webSite>——站点地址。
*<webMaster>——负责人员的Email。当有必要时,我们通过这个地址与您联系。
*<updatePeri>——更新周期,以分钟为单位。搜索引擎将遵照此周期访问该页面,使页面上的新闻更及时地出现在百度新闻中。
*<item>——标记每篇新闻信息的开始和结束。标记内为单篇新闻信息,不包括新闻专题。
*<title>——新闻标题。
*<link>——新闻url地址,与单篇新闻一一对应;若分页的新闻存在多个URL,相当于多篇新闻。
<description>——新闻内容简介。
*<text>——完整的新闻正文(仅包含正文文字,不包含HTML语言等其它字符)。此项的目的是使该篇新闻更多、更准地出现在搜索结果中。
*<image>——新闻正文内相关图片,采用绝对地址。若该篇新闻无相关图片,可以为空;若含有多张图片,请重复使用该标签。此项的目的是使该篇新闻的相关图片展现在搜索结果中。
<headlineImg>——为有可能成为头条的新闻制作的头条图,采用绝对地址。
<keywords>——反映新闻主题内容的一个或多个关键词,关键词之间以空格隔开。此项仅作为参考,检索结果不完全依赖于此标签中的内容。
<category>——新闻分类, 可以遵循网站自身的分类体系,最好采用一级分类。
<author>——新闻作者,可以为机构或个人 。
<source>——新闻来源,即原创媒体或其它机构 。
*<pubDate>——新闻发布时间,与该篇新闻HTML页面上的发布时间保持一致。请精确到分钟;若您网站的发布时间未记录小时分钟,提供年月日即可。
推荐时间格式:年月日小时分钟秒
如:2005-11-09 10:37|2005/11/09 10:37:00|2005.11.09 10:37:00|
2005年11月09日10时37分00秒|Fri, 09 Nov 2005 10:37:00 GMT
开放协议使用
使用之前您需要了解以下几点: 无论您的网站已经成为百度新闻源,还是尚未被百度新闻搜索收录,都可以使用此开放协议。 您使用开放协议提供的内容应全部符合下面《新闻源收录标准》。 《互联网新闻开放协议》只是原始新闻源收录方式的一种协助和有益补充,而不是完全取代。
新闻源收录标准:
百度希望新闻源多样化,鼓励原创新闻内容。如果是具有大量有价值的新闻内容并能及时更新的正规、合法媒体网站,且网站服务器稳定、高速,就符合了百度收录新闻源的基本原则。
百度新闻搜索收录的内容包括时政、娱乐、体育、财经、科教文化、社会生活等各类新闻报道及媒体评论,数码产品、房产、汽车等行情资讯及评测,各行业的动态及行情,组织机构的工作动态等,是由专业人士撰写或编辑的中文信息,不包括发布的个人信息、论坛、博客、广告、幽默笑话、情感故事、情色、写真、剧照、明星档案、食谱、下载、多媒体等其它类型、其它语言互联网信息。
您应对提供的全部内容承担一切法律责任,保证您提供内容的真实性、合法性,并不得侵犯任何第三方的权益。
下面就开始吧!
第一步:创建XML文件
请您在创建XML文件前务必阅读百度新闻搜索的新闻源收录标准,并特别注意
1、百度新闻搜索收录的新闻源网站必须符合及严格遵守国家《互联网新闻信息服务管理规定》,并在新闻发布和转载过程中尊重创作人和源网站的著作权。
2、百度新闻搜索不适合收录的网站类型包括:论坛、博客、公司网站等。
3、百度新闻搜索不收录个人信息、广告、招标、教程、幽默笑话、情感故事、情色、写真、剧照、明星档案、食谱、下载、多媒体等其它类型、其它语言互联网信息。
4、百度新闻搜索希望收录高质量的中文新闻,不收录英文等其它非中文新闻。
5、请按照上面公布的开放协议内容制作XML文件。
其它说明:
支持的编码格式有GB2312、GB18030、UTF-8、BIG5,推荐使用GB18030或UTF-8格式。 您可以将网站某一时间段发布的全部新闻放在一个XML文件中,也可以分频道或栏目放在多个XML文件中。 请保持每个XML文件处于按更新周期持续自动更新状态。更新周期可根据您的需要随时进行调整。 每个XML文件至多存放最新发布的100条新闻,无需保存之前的新闻。 请将发布的新闻按照时间排序,即最新发布的新闻在最上端,否则可能有新闻被遗漏。 XML标签内容中,除文字文本以外不能包含其它任何代码,下表中的特殊字符必须转换为XML定义的转义字符。否则将发生错误导致搜索引擎不能获取页面上的新闻。 字符 转义后的字符 HTML字符 字符编码 和(and) & &amp; &#38; 单引号 ' &apos; &#39; 双引号 " &quot; &#34; 大于号 > &gt; &#62; 小于号 < &lt; &#60; 转义字符中的"&"无需再转。
建议您使用CDATA 部件。一个 CDATA 部件以"<![CDATA[" 标记开始,以"]]>"标记结束。将包含代码或特殊字符的文本置于CDATA 部件内 ,就无需再对特殊字符进行转义。
第二步:验证XML文件
下面的地址提供了帮助您验证XML文件结构的多种工具:
http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html
通过验证的XML文件能够使您提供的信息更加标准,确保您发布的新闻信息不被搜索引擎遗漏。
第三步:提交XML网址
提交前请将XML文件上传到您的网站服务器,将XML文件的URL地址及其它信息输入下面对应的方框内。搜索引擎将定向访问该URL地址,当URL地址发生变化时需要重新提交。
若您的网站符合新闻源收录标准,百度新闻搜索将对您提交的数据进行测试和观察一周。如果XML文件基本按照 《互联网新闻开放协议》的要求制作但存在问题,我们会根据XML页面上提供的邮件地址与您联系。
注意:
1、 我们将对您提交的XML文件进行审核,百度新闻搜索不保证一定能收录您提交的全部内容。
2、站点名、地址为必填项,同一站点一天之内最多提交5个不同的XML文件地址。
3、提交地址后请您注意查看弹出窗口中的信息,以确认是否提交成功。
第四步:查询XML文件状态
您可以在下面的方框中输入您提交的XML文件地址,查询该文件的处理进度和反馈信息。
注意:输入的地址必须完整,即与您提交时的地址完全一致。
更多精彩内容其他人还在看

初学XML的基础知识(认识XML的作用)

“可扩展标记语言”(XML) 提供一种描述结构化数据的方法。与主要用于控制数据的显示和外观的 HTML 标记不同,XML 标记用于定义数据本身的结构和数据类型。 XML 使用一组标记来描绘数据元素。每个元素封装可能十分简单也可能十分复杂的数据。您可
收藏 0 赞 0 分享

使用XML实现多渠道接入网站的构架

  其实写这篇文章的目的最多的想法是把自己在去年在瑞士做项目时应用的一个框架给展现出来让大家共享,但我又有点担心我的表达能力不能将我在里面使用的思想很好的表现出来,所以迟迟 不敢下笔,最后还是下了决心,写吧, 不行就在好好改改,当然也希望大家多提些意见。
收藏 0 赞 0 分享

学习XML关于图像超链接的制作

这是我今天学习的时候遇到的另一个问题,做图像超链接要把链接地址放到<a>的href属性中去,可是这就是在标签中套标签,是不可以的,查了《Web编程实做教程》,才知道正确的解决方案,现在与大家分享。 此段代码运行需要两张图片:a.gif和b.gif。 my
收藏 0 赞 0 分享

Microsoft的XMLHTTP对象介绍

MSXML中提供了Microsoft.XMLHTTP对象,能够完成从数据包到Request对象的转换以及发送任务。 创建XMLHTTP对象的语句如下: Set objXML = CreateObject("Msxml2.XMLHTTP") 或 Set
收藏 0 赞 0 分享

了解WEB页面工具语言XML(六)展望

六、XML展望   任何一项新技术的产生都是有其需求背景的,XML的诞生是在HTML遇到不可克服的困难之后。近年来HTML在许多复杂的Web应用中遇到了问题,要彻底解决这些问题,必须用功能强大的XML来替代HTML作为Web页面的书写工具。XML有利于信息的表达和结构化组
收藏 0 赞 0 分享

了解WEB页面工具语言XML(五)好处

五、XML带来的好处   (1)更有意义的搜索   数据可被XML唯一的标识。没有XML,搜索软件必须了解每个数据库是如何构建的。这实际上是不可能的,因为每个数据库描述数据都是不同的。有了XML,书就可以很容易以标准的方式按照作者、标题、ISBN序号或其他的标准分
收藏 0 赞 0 分享

用XML将机器内码转换为人们容易理解的信息

  程序中通常会有一些错误代码或标识,为了程序中方便这些东西通常不会使用汉字,经常在程序中用的是一些FileError或数字。还有就是在编码中经常使用的枚举标识对象的状态。而通常这些信息会直接的或间接的现实给用户,可用户需要到的是容易理解的汉字描述。以前要么将这
收藏 0 赞 0 分享

历数Firefox2.0对XML处理的改进

Firefox 2.0 在对 XML 的支持方面有几个重要的改进。目前它的用户部署如日中天。了解 Firefox 2.0 XML 特性的改进,包括在 RSS Web 提要处理方面有争议的变化。 被赋予新应用程序平台的角色后,现在 Web 浏览器可能是最热门的软件。对于软件开
收藏 0 赞 0 分享

将XML数据转换成HTM

使用一个简单的XSL样式表就可以将XML数据转换成HTML。随着XML规范的不断演进,在新的版本中满足每个人的需要似乎已经成为必要;假设有一个表示一个页面内容的XML数据,现在想将其内容转换成布局。下面是想要转换的XML:
收藏 0 赞 0 分享

(javascript+asp)XML、XSL转换输出HTML

Javascript客户端转换 [code] <html> <body> <script language="javascript"> // Load XML var xml = new ActiveXObject
收藏 0 赞 0 分享
查看更多