深入解析XML中的字符实体与字符数据

所属分类: 网页制作 / XML/XSLT 阅读数: 1109
收藏 0 赞 0 分享

字符实体
在我们了解字符实体之前,先了解一下什么是 XML 实体。

W3 联盟 对实体的定义:文档实体作为实体树的根元素和 XML 处理程序的起点。


这意味着实体就是 XML 中的占位符。它们可以声明在文档序言或者DTD中。实体有不同的类型,本章后面会讨论字符实体。

HTML 和 XML 都有一些符号被保留使用,它们不能在 XML 代码中用作内容。例如,< 和 > 符号被用作 XML 标签的开头和结尾。要显示这些特殊字符,就要使用字符实体。

有些特殊的字符或符号还不能直接使用键盘输入。可以使用字符实体来显示这些符号或特殊字符。

字符实体类型
有三种类型的字符实体:

预定义的字符实体。
编码字符实体。
命名字符实体。
预定义的字符实体

引入它们是为了避免使用某些有歧义的符号。例如,当我们把小于(<)或大于(>)符号当尖括号(<>)使用时就会产生歧义。字符实体从根本上来说就是用来界定 XML 标签的。下面是一个来自 XML 规范的预定义字符实体列表。它们可以用来表示某些字符而不带歧义。

和号: &
单引号: '
大于: >
小于: <
双引号: "
数字字符实体

数字引用被用来表示字符实体。数字引用可以是十进制或十六进制格式。由于有数以千记的数字引用,导致很难记住它们。数字引用通过使用字符在 Unicode 字符集中的编码数值来表示。

十进制数字引用基本语法:

XML/HTML Code复制内容到剪贴板
  1. &# decimal number ;  

十六进制数字引用基本语法:

XML/HTML Code复制内容到剪贴板
  1. &#x Hexadecimal number ;  

下面的表格列出了一些预定义字符实体和它们对应的数值:

实体名称 字符 十进制引用 十六进制引用
quot " &#34; &#x22;
amp & &#38; &#x26;
apos ' &#39; &#x27;
lt &#60; &#x3C;
gt > &#62; &#x3E;

命名字符实体

正如上面所说的,数值字符很难记住,最受欢迎的字符实体类型是命名字符实体。因为每个实体都用一个名称标识。

例如:

'Aacute' 表示带重音符的大写 A 字符。
'ugrave' 表示带沉音符的小写 u。


CDATA 片段
术语 CDATA 就是字符数据。CDATA 被定义为不由解析器解析的文本块,但它被公认为标记。

标记中预定义的实体比如 &lt;,&gt; 和 &amp; 需要手动输入并且通常难以阅读。这种情况下就可以使用 CDATA 片段。通过使用 CDATA 片段,我们可以告诉解析器文档的特定部分不包含标记,应该被当做普通文本对待。

语法
下面是 CDATA 片段的语法:

XML/HTML Code复制内容到剪贴板
  1. <![CDATA[  
  2. characters with markup  
  3. ]]>  

上面的语法由三个部分组成:

CDATA 开始部分 - CDATA 以9个字符的分隔符<![CDATA[开头。
CDATA 结束部分 - CDATA 以 ]]> 分隔符结尾。
CData 部分 - 上面这两个标记之间的字符被解释为字符而不是标记。这个部分可以包含标记字符(<,> 和 &),但是它们会被 XML 处理程序忽略。
示例

下面的标记代码展示了 CDATA。其中写在 CDATA 片段中的字符都会被解析器忽略。

XML/HTML Code复制内容到剪贴板
  1. <script>  
  2. <![CDATA[   
  3. <message> Welcome to TutorialsPoint </message>  
  4. ]] >  
  5. </script>  

在上述的语法中,<message> 和 </message> 之间的所有内容都会被当做字符数据而不是标记。

CDATA 规则
XML CDATA 需要遵循以下规则:

XML 文档任何位置的 CDATA 都不能包含 "]]>" 字符。
CDATA 片段不可以嵌套。

更多精彩内容其他人还在看

在XML模式中扩展枚举列表

在列表中添加新值是一种常见而且必要的需求。模式设计者通常希望在系统架构中构建一种添加附加值的方法,并且该附加值在设计阶段是未知的。模式设计者如何创建一个可扩展、易于实现的枚举值列表?本文将介绍几种实现这一目标的方法。 模式设计者和实现人员需要一种扩
收藏 0 赞 0 分享

XML入门教程:XML名称空间-XML/XSLT

XML名称空间表示XML名称的使用范围,因为XML可自定义元素标签,所以有不同XML应用间XML名称重名的机会是很大的。如果没有一种方法来区分不应用的名称,就会造成混乱。XML名称空间就是为了解决这个问题而设计的。通过XML名称空间,我们可以区分
收藏 0 赞 0 分享

XML入门教程:属性声明-XML/XSLT

一个有效的XML文档,必须对元素的属性进行声明。使用ATTLIST声明来完成,一个ATTLIST可以为一个元素类型声明多个属性。 一个有效的XML文档,必须对元素的属性进行声明。使用ATTLIST声明来完成,一个ATTLIST可以为一个元素类型
收藏 0 赞 0 分享

XML入门教程:实体-XML/XSLT

由于数据不是XML格式,所以使用NDATA声明指定数据类型。avi是在NOTATION中定义的MIME媒体类型。在XML中嵌入未析实体很复杂且不规范,尽量不要使用。 实体 用ENTITY声明定义实体。如:
收藏 0 赞 0 分享

XML入门教程:元素声明-XML/XSLT

有效文档中使用的每个元素都必须在文档的DTD中用元素声明进行声明。element_name可是任何合法的XML名称,content_model(内容模型)指定元素可以或必须包含的子元素以及子元素的顺序。下面具体介绍内容模型的内容。 上节文档类型
收藏 0 赞 0 分享

XML入门教程:文档类型声明-XML/XSLT

要使用DTD进行有效性检验,就要使用文档类型定义声明指定DTD。文档类型声明位于XML声明之后,根元素之前。如果dtd文档位于本机,可用路径名直接指出dtd文档的位置。 由于XML可自定义标签,所以每个人定义的标签集都会不同,如
收藏 0 赞 0 分享

XML入门教程:XML语法-XML/XSLT

接着在浏览器中打开index.xml文档,则可显示“Hello World”。上面两个文档都是合法的XML文件,具体的语法规则下面会详细介绍,上例可先给大家一个感性的认识。合法的XML文档可有种意思,一个是良构文档(well-format),即符合XML规则书写的文档
收藏 0 赞 0 分享

xml入门教程:XML是什么-XML/XSLT

XML(eXtensible Markup Language,可扩展标记语言)是SGML的一个子集,但比SGML简单,用以创建可相互转换的结构化文本文档和数据文档。下面说明一下与XML相关的一些概念。 XML(eXtensible Markup L
收藏 0 赞 0 分享

WAP教程(11):WAP论坛和开放移动联盟与论坛-XML/XSLT

WAP 论坛,WAP开放移动联盟,WAP论坛. WAP 论坛 (WAP Forum) 无线应用协议 (WAP) 论坛为数字移动电话和其他无线终端开发了事实上的全球标准。 WAP 论坛发布了开放的全球无线协议规范,此规范基于已有的因特网标准
收藏 0 赞 0 分享

WAP教程(10):WML参考手册、WML实例和WML DTD-XML/XSLT

WAP 协议用于在无线客户端(比如移动电话)上展示因特网内容。 WAP 协议用于在无线客户端(比如移动电话)上展示因特网内容。 Deck / Card 元素
收藏 0 赞 0 分享
查看更多