Getting Started with RDF


资源描述框架(Resource Description Framework,RDF)是一个使用XML语法来表示的资料模型(Datamodel),用来描述Web资源的特性,及资源与资源之间的关系 。

资源描述框架为表示数据及其含义提供了一个标准化的通用模型

  • 轻松支持混合、多样和不断变化的数据模型
  • 易于表示数据或模式中的任何更改
  • 可互操作和可组合

RDF模型的定义

RDF提出了一个简单的二元关系模型来表示事物之间的语义关系,即使用三元组集合的方式来描述事物和关系。三元组是知识图谱中知识表示的基本单位,简称SPO,三元组被用来表示实体与实体之间的关系,或者实体的某个属性的属性值是什么

从内容上看三元组的结构为 “资源-属性-属性值” ,资源实体由URI表示,属性值可以是另一个资源实体的URI,也可以是某种数据类型的值,也称为literals(字面量)。

主语和宾语也可以由第三种结点类型空节点(blank nodes)表示。blank node简单来说就是没有IRI和literal的资源,或者说匿名资源。

由于RDF规定资源的命名必须使用URI,所以也直接解决了命名空间的问题。这里我们具体说一下IRI,URI,URL和URN这几个术语的区别

  • URI:统一资源标识符,字符集被限制为US-ASCII(英文字符),通过指定唯一名称来标识资源;
  • IRI:国际化资源标识符(Internationalized Resource Identifier),定义与URI相同,URI,只是将字符集扩展到通用字符集(包含了非英文字符),所以它是URI的超集,同样唯一标识了一个资源;
  • URN: 统一资源名称(Uniform Resource Name),由命名空间标识符(NID)和命名空间特定字符串(NSS)组成;
  • URL:统一资源定位符,即我们通常提到的网址,通常指的是不包含URN的URI子集

以及它们的集合包涵关系

  • IRI ⊃ URI
  • URI ⊃ URL
  • URI ⊃ URN
  • URL ∩ URN = ∅

基本思路

首先假设:类别“artist”包括solo artist和band,band成员是solo artist。

RDF描述这些关系的方式基于我们如何用言语表达。如果我们说“The Beatles has as a member Paul McCartney”,那么用RDF来表示就如图下所示:

Objects

类(class)是指某种类型的事物(如artist和band),一个类由一组个体(individuals),如披头士或约翰·列侬组成,也可称为实例或对象。类或个体可以是RDF三元组结构中的subjectobject

Properties

RDF三元组的中间部分是谓词(predicate),有两种用法。当它在我们的模型中描述两个对象(classesindividuals)之间的关系时,它被称为对象属性(object property)。

如果谓词提供有关对象的数据(数字、日期、字符串等),则称为描述属性的数据属性(attribute)。

Graph

上面这些元素合在一起构成了一个图(graph)。在图中,表示对象或数据的点称为节点(node),而连接它们的谓词(对象属性或数据属性)称为边(edge)。

RDF Concepts

  • IRI: Nodes and edges with a unique identifier
  • Literal: Nodes representing values like numbers and dates
  • Blank node: Nodes without an explicit identifier

Reference

STARDOG

知识图谱学习笔记


文章作者: Passerby-W
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Passerby-W !
评论
  目录