Archive for the '知识组织' Category

信息资源描述的“假设系统”

星期日, 4月 6th, 2008

昨天雨师谈到,在远洋老师的FRSAR模型中,他希望研究一下在背后支持这个模型成立的”公理体系”。 时间无多,未及深入探讨。但这肯定是一个很有意思的问题。雨师提到我应该继续完善那个贸贸然提出的信息资源描述”同一场论“(原来是数字图书馆同一场论,实际上是一套为了解决数字图书馆语义互操作的体系框架,信息资源描述在其中居于核心位置),直觉告诉我,与雨师这个”公理体系”有很大关系。 回来之后想了一下,可以有以下基本假设(不成体系,更不是公理,只是一种理解。持续完善中…):

1.可标识是可描述的前提条件。任何事物,不论是物理的、抽象的或者概念的,作为认识和交流的对象,首先必须能够以某种方式(有意义或无意义,能解析或不能解析,需调度或无需调度)进行标识,才能够进行描述。 2.任何数字对象至少具有”标识符”属性。标识体系是任何描述系统首先需要确立的系统,不论是有形的、无形的,具体的、抽象的。 3.任何一个标识体系,都可以(构建/看成)是一个封闭系统(复杂性可控)。 4.数字图书馆是数字对象的集合,其中的数字对象可以以不同的标识体系进行标识,以不同的元数据方案进行描述。因此数字4.对象是数字图书馆的组织基础,元数据是数字图书馆(数字对象)的结构基础。 5.元数据提供了数字图书馆的微观结构,领域本体提供了数字图书馆的宏观结构。 6.任何描述(不是陈述),最后都能够简化为”主体、谓词、客体”的一阶谓词逻辑(或其可控的扩展)形式的组合(即RDF(作为一种模型而不是语言)形式)。 7.所谓元数据元素,实际上就是描述信息资源的谓词(属性)词表(包括各类结构限定和取值限定)而已。 8.微内容是一类由微格式(包括RDFa)表示的数字对象,通常具有可共享、可重用、结构化和规范化的特性。 9.SKOS是一套用以表达数字对象的”主题”属性(或aboutness)的微格式,由一套属性词表(表现为RDFS)和形式化描述规范构成。 10.作为主题属性标识的SKOS和作为领域本体的知识组织系统具有完全不同的功能,不可同日而语。


Technorati :

语义网范式

星期五, 4月 4th, 2008

最近Alex Iskold在著名的2.0网刊读写歪脖(Read/Write Web)上发表了一篇”语义网范式:语义技术指南”(Semantic Web Patterns: A Guide to Semantic Technologies)的博文,实在是偶数年来一直想写的一个主题。当然如果是俺写,一定不及Alex之万一。对于众多对语义网(鉴于Semantic Network一词几乎已淡出人们的视线,俺也不坚持一定要把Semantic Web翻译成语义万维网了)充满好奇的”数字图书馆人”来说,进行一下入门教育是非常必要的。就像Eric MillerDC-2004上Keynote的:”语义网是什么?就是数字图书馆。”(他说过吗?原话在哪儿? 偶不记得了。) 语义网命中多桀。一说是自1994年在李爵士的脑中闪现(见证据),然FOAF之父DanBri却用了一个证明与Web是同时出现的(顺便一说,DanBri的头像实在是很酷哦),这是一张SW史前的草图,可惜是电子版,没有画在餐巾纸上,无法证明什么。为尊者讳,在互联网领域说一个东西很老是不礼貌的,虽然语义网大旗一直扛得很艰难,几乎被Web2.0抢了风头,但是现在可以改一个名头,称之为Web3.0,凤凰涅磐,浴火重生。 闲话少说,言归正传。Alex开篇就说,语义网是一个百变精怪,对于不同的人可能是不同的东西。让我想起emiller对于数字图书馆瞎子摸象的比喻:对于某些人来说语义网是Web中以RDF或OWL表示的数据(OWL实际就是一种RDF,RDF又都是XML);对另一些人来说RDF干脆就是微格式;还有人认为语义网只是基于语义的Web服务,另一些人则认为是网络上的人工智能…… Alex的这篇”语义网范式(Semantic Web Pattern)”,主要把混沌一片的语义网应用和各种对语义网的认识进行了梳理,可以认为是当前的”语义网类型学”。

1、自底向上和自顶向下:从方法学上认识语义网。

2、主流标注技术:RDF, 微格式和Meta Headers(HTML文件头)。

3、用户分类:面向最终用户还是面向企业。

4、开放语义API。

5、语义搜索。

6、情境(上下文)技术。

7、语义数据库。

原文对上述每个类型都进行了简要的评述并列举了一些例子。文章发表后引来了很多讨论和争议。我们暂且不去评说这些分类和评述是否一定正确,从帮助我们学习和认识语义网的角度来说,还是十分有益的。


Technorati :

对于thema-nomen模型的补充

星期二, 4月 1st, 2008

看了远洋老师新近的博文( ),又引发了很多思考,想起做博士论文时参考Sowa “Knowledge Representation“书中的一个模型(C.K Ogden and I. A. Richards. The Meaning of Meaning,1923),不知是不是可以对thema-nomen模型做一点补充?

the meaning of meaning

查到这里有进一步阐释,很有启发。截图两张:

一点感想:概念和概念的表达,是为了交流服务的,模型的建立有助于达成有效的交流,有时不必拘泥于nomen是否表达了正确的thema,正确性判断可以留给系统的建立者和用户,铁路警察各管一段,系统的设计者只要确认交流的成立,nomen肯定是表达了某个thema的,就成了。否则可能把事情弄得很复杂,难以实现,更难推广应用。

(以上两图来自Harold R Solbrig,Christopher G Chute “A Common Terminology Services (CTS) Back-end to Protégé”,见:http://protege.stanford.edu/conference/2004/slides/3.1_Solbrig_A%20Common%20Terminology%20Services%20(CTS)%20Back-end.pdf

关于FRSAR的问题

星期四, 3月 13th, 2008

看了一晚上FRSAR,结合曾蕾老师的proposal,总结了如下问题:

1、作为描述任何信息资源”主题”属性的抽象模型和应用框架,感到FRSAR似乎没有必要受FRBR的局限,完全能够、也有必要独立存在。FRBR模型本身具有很多模糊性(如下所述的work的定义等),不利于计算机处理和应用,而对于”主题”属性的规范控制,是语义Web的一个极其重要的应用需求,目前还没有很好的解决方案(至少传统的、通过第三方标注而建立的可信任信息,仍旧是实现trusted web的一个方法)。

2、作为”主题”的承载对象的”作品(work)”如何界定?因为作品不仅仅是文学作品,如果所描述的主题只是关于作品的一个局部,如何描述?也就是说在work-thema-nomen的结构中(首先需要说明的是:窃以为这个模型的认识论意义非常重大,但是为了”机读”,还需要更加明确一些),thema可以有parts,work可不可以?局部的work还是不是work?描述局部work的thema能不能代表这个work的thema?(即thema与work的对应关系,不能搞得很复杂,所以就需要对work进行明确界定。)

3、thema有parts的意义何在?是不是因为thema有许多下位的parts,具有thema的work自然就继承了这些parts的thema?在实践中这里面又有一大堆问题需要研究和解决。不如先简化这个问题,留待以后解决。本来一个work可以有很多主题,各个主题并不排斥,可以并存。

4、thema除了可以有parts之外,还可以有type,目前的困境是,能否穷尽type?是否有必要穷尽type,制定严格的规范,必须在这些type中选择?目前的concept, object, event, place再加一个time,是不是就是thema的所有type?如果有从其它角度的分类,是否允许?类型是不是可以开放式的、可扩展的?

5、我对于这个模型的理解:nomen似乎作为thema的形式表现而存在,所有的规范控制都可以归结为对于nomen的规范控制(通过对nomen的规范而达到对thema的规范),work、thema以及nomen这三类”实体”内部的关系和相互关系,都通过nomen的关系来反映。这就是说,规范词表就是nomen的词表(由此nomen词表的规范体系和功能实现又是一大堆问题需要研究了)。

6、根据figure4,由于第一、第二组实体都可以作为work的主题,nomen是不是也可以是第一、二组实体的表现形式呢?于是规范了 nomen就规范了一切。nomen就包括书目数据的规范记录、人名/机构名规范档以及主题词表/分类法等所有的规范控制体系(KOS)。

7、进一步的问题:如何以上述模型描述、并实现规范控制的功能需求?如何编码、形式化、机器可处理?

参考:

编目精灵:FRBR家族未来的第三个成员–FRSAR

书蠹精:FRBR中文翻译版正式发布

DC-2007论文学习(下)

星期二, 9月 4th, 2007

Application Profiles: Exposing and Enforcing Metadata Quality
by Diane Ileana Hillmann, Jon Phipps

Diane 的大作。作者选择了一个利用元数据应用纲要控制元数据质量的角度,元数据应用纲要的标准化问题还没有解决,已经开始深入应用了,有点意思。当然就目前看来 AP是一个可松可紧的东西,可以认为,AP规定得越是严格,数据符合AP越是具有高一致性,元数据质量越是高。有时受到现实的局限,许多内容无法用AP来 规定,或者规定了也无法执行,对元数据质量自然无法要求太高。

Using an Application Profile Based Service Registry
by Ann Apps
Ann 又来讲她的元数据注册登记系统了,当然这回是元数据应用纲要的注册登记系统,同样是以IESR的系统来说事。照Leon的话说,一招鲜吃遍天。这个登记注 册系统虽然与前两年介绍得并没有很大的进展,但毕竟是一个实用的系统在运行,而且每年也实实在在地有一些变化。虽然分布式Web服务、语义技术(如采用本 体)等提了好长时间了没有明显进展,还是非常值得借鉴的。
相比较而言,DCMI的元数据登记注册系统管理的对象只是标准规范中的TERMS,最多 涉及一些推荐的编码方式,供查询、翻译、借鉴。而IESR的注册登记是用于资源导航的,可以看成是一个”服务体系的登记注册系统”,其中有”From Application Profile to XML Serialization”的讨论,除了AP,系统还要管理具体的元数据记录库。当然应用纲要本身的规范用词、词间关系、编码模式(Schema)等也 是可以查阅的。这也是元数据注册登记系统与元数据应用纲要注册登记系统的一个比较大的不同吧。
这篇文章可以看成是国内元数据研究实践与国外的主要差距所在。

Identifying the Identifiers
by Douglas Campbell

这篇论文在整个DC会议上显得比较另类,专门研究标识体系的,Doug甚至在为数字资源的标识建立哲学基础,看不出直接的实用意义,但是是一篇颇有中国图林风格(例如对于定义、属性、范围等的偏好)的好论文。

Using Metadata Schema Registry as a Core Function to Enhance Usability and Reusability of Metadata Schemas
by Mitsuharu Nagamori, Shigeo Sugimoto
日 本筑波大学并入了前日本图书情报大学,这两位日本元数据的干将和元老依然在为DCMI做着重要贡献:开发和维护DCMI元数据登记注册系统,新版的系统将 于不久正式推出,主要升级在于支持编码模式(Metadata Schema)的注册,看起来还要支持符合DCAM的形式化的DCAP注册,这个进展不是一点点。粗粗看了一下论文,还不能确切知道是XML Schema还是RDF Schema,还是OWL,当然他们都可以认为是XML Schema。不过Metadata Schema还可以有不同的理解,不进行XML编码的元数据方案,也可以称为Schema。这篇论文是必须/值得一读的。

Virtual Archival Exhibition System: An Authoring Tool for Developing Web-based Virtual Exhibitions
by Ruan Yang, Chennupati K. Ramaiah, Schubert Foo
一个来自新加坡的实际应用案例,元数据方案在其中起到怎样的作用,似乎并没有看明白。


Education.au and Metadata for Events
by Pru Mitchell, Kim Edgar
探索用DC元数据来描述事件,在edna项目中。相信许多图书馆数字化项目中都有此类描述需求,但是是不是能够开发成一种微格式?或者与现有的事件微格式能够互相转换,是值得探讨的。

Integrating Dublin Core and Learning Object Metadata for Describing Learning Objects for Enhanced Reusability
by Abdul Halim Abdul, Abdus Sattar Chaudhry

论文集中的标题与会议演讲的标题有些出入,可能也说明了这篇文章的探索性。

Audience-Centric Taxonomy: Using Taxonomies to Support Heterogeneous User Communities
by Dave Clarke, Pei Jiun Tan
看来是建立一个统一的词表体系用以建立新加坡国家图书馆统一资源门户,以提高资源对于读者的可用性。

Integrating Dublin Core Metadata for Cultural Heritage Collections Using Ontologies
by Constantia Kakali, Irene Lourdi, Thomais Stasinopoulou, Lina Bountouri, Christos Papatheodorou, Martin Doerr, Manolis Gergatsoulis
利用本体映射解决由于采用不同元数据方案而带来的语义互操作问题。不知道效果如何,但是属于热门领域,值得借鉴参考。

Can a system make novice users experts? Important Factors for Automatic Metadata Generation Systems
by Sueyeon Syn, Michael B. Spring
本次会议中最像论文的一篇论文,探讨Web资源元数据自动生成的问题,通过调查发现,某些方面的资源描述如果给与一定推荐,将提高检索系统的查询效果。

DC-2007论文学习(上)

星期二, 9月 4th, 2007

本次会议的主题是”元数据应用纲要的理论和实践”,所有的论文基本上都与这个主题有直接关系,扣题很紧。
以下论文仅链接至会议网站论文摘要页面,会议论文全文即将上网。

Parallel Writing Tradition in East Asian Language Data and Metadata Representation: Under the Light of the DCMI Abstract Model
by Akira Miyazawa

介绍了东亚语言中常见的、同样的内容不同写法(例如汉字和拼音)的元数据编码问题,主要是如何符合DCAM的XML/RDF编码。

Annotation Profiles: Configuring Forms to Edit RDF
by Matthias Palmér, Fredrik Enoksson, Mikael Nilsson, Ambjörn Naeve

Mikael Nilsson是DCAM的起草人之一,是DCAP形式化方案的主要制订者,因此他作为参与者的论文应该具有一定的权威性,至少在DCAP的编码方面。
这篇论文介绍了一个对于网络资源进行元数据标注的工具的开发项目,这个工具与以往的工具所不同的是,支持多种”标准”的元数据应用纲要形式,甚至还可以支 持用户自定义的AP。具体功能还没有去仔细探究,但是好像能够支持自定义(包含所有约束)的XML/RDF/OWL Schema形式的元数据应用纲要,上载之后立刻能够产生元数据著录标引所需要的表单。不知道对于标注的元数据记录,这个工具提供怎样的管理和检索功能。 如果这个工具能够与个人知识管理工具,例如Zotero、BlueOrganizor等结合起来,就不得了了。
这是我们长期以来都想开发、并且试着做过一些开发的一个东西。

SCROL Application Profile
by Steven Wan Wu, Barbara Reed, Paul Loke

在新加坡国际图书馆数字化项目中采用元数据应用纲要的具体做法。与我们通常的做法大同小异,由于DCAP并不是严格意义上的标准规范,因此具体项目中都会有许多扩展和个性化考虑,特别是在Format/Medium方面有很多细化,值得借鉴或参考。

The DCMI Tools Application Profile
by Thomas Severiens, Jane Greenberg

两位作者是DCMI Tools Community的召集人。DCMI一直想为软件工具制定一个元数据规范,草案就在这里了。因为不涉及具体项目,很像我们专门元数据课题组所作的事情。 目前DCMI新的形式化的AP要求已经提出,这个AP应该可以改写成符合新规范的版本了吧?

The DRIADE Project: Phased Application Profile Development in Support of Open Science
by Jane Greenberg, Sarah Carrier, Jed Dube

Jane真是很能写,这是她参加的一个具体的机构库开发项目,为其设计和应用元数据方案所写的论文。与上一篇单纯提出一个应用纲要规范有所不同,涉及很多 具体开发的考虑,特别是对于开放存取的机构库建设,对于元数据方案的需求比一般的商用系统和交钥匙工程来得更为迫切,非常值得一看。论文中提出的三期应用 纲要:第一期以传统的元素集定义为主,第二期要定义各类实体/元素之间的关系,第三期要符合语义Web以及Web2.0的需求,很有意思。

Theory and Practice of Application Profile Development
by Jon Mason, Helen Galatis

澳大利亚教育界很早(1997)就开始将元数据标准应用到基于Web的数字资源系统中,近年来他们发现,对于如此丰富的资源和应用需求,一个标准、一个编 码模式或者一个元数据应用纲要肯定是不够的。作者回顾了十年以来澳大利亚教育界制定或采用的各类元数据标准的情况,项目不多,互有交叉,但碰到的问题却很 典型。一个很重要的”互操作问题”显现出来,必须要很好的考虑和解决。元数据应用纲要很好地反映了人们在刚性的标准和应用需求之间进行折衷,而必须考虑的 一种操作流程和方式上的标准化,应用纲要提出的历史就是从实践到理论的成熟过程。教育资源领域的数字资源和网络应用具有一定的特殊性,而且对元数据共建共 享的需求尤其迫切,已经有多套标准规范,因此作者回顾的ednaVetadataLFMAPARROWAPSRCarrick 等元数据方案都极具观赏价值和参考意义。从通篇的内容来看,作者对于互操作的考虑还停留于元素的重用和共享方面。

“新加坡框架(Singapore Framework)”

星期日, 9月 2nd, 2007

沃维克框架、堪培拉限定、芬兰终结……。DC元数据自诞生以来,留下许多里程碑式的成果,如今这些成果中又多了一个:新加坡框架(Singapore Framework)。 新加坡框架是指元数据应用纲要的一种规范形式。虽然应用纲要曾经是欧洲标准CWA14855,但那毕竟只是一个非常笼统、给人作参考的”指南”。DCMI认识到DC的应用一直无法大规模开展,与编码方面的规范一直不统一很有关系,编码的无标准可循造成元数据标准有等于无,各类应用的互操作还是无法进行。然而编码规范的统一是一件不可能的任务,在XML大行其道的今天,任何符合XML模式规范的DC编码,你都不能说它不规范,你也不可能让大家都采用一种XML的DC编码模式。同时专注于语义一致性描述的DCMI怎么可能推荐一种编码而排斥另一种呢?再说现在有RDF/OWL/N3等编码方式(甚至采用关系型数据库来描述和编码),将来还会出来种种新的方式,如何能预料得到呢?所以对于编码的标准化,必须依赖于一种编码模型的标准化。这就是近年来DCMI花大力气研究并反复讨论的”DC元数据抽象模型(DCAM)”。只有独立于语言的编码模型标准化了,才能建立一种标准的形式化编码规范,不论形式化语言用的是什么。 而领域应用中符合DC抽象模型的元数据的形式化方案的整体,就叫做DC元数据应用纲要(DC Metadata Application Profile)。 我们的”专门元数据方案“实际上都可以认为属于领域应用的”应用纲要”。 具体说来,新加坡框架指符合DC元数据抽象模型的元数据应用纲要,应该包含以下几个部分:

-

  • 功能需求说明(需要desirable)
  • 领域模型 (必需mandatory)
  • 元素集描述 (DSP: Description Set Prifile) (必需mandatory)
  • 应用指南 (可选)
  • 编码句法指南(可选)


对于每个部分是否必需Mandatory、需要Desirable还是可选Option,目前的意见还不统一,例如很多图书馆员认为功能需求说明应该是必需的,但是对于形式化的应用纲要,功能需求说明只是给人读的,不像领域模型(可用UML形式化)和元素集合描述等(DSP,用Schema等形式化),无法翻译成机器语言,对于机器来说并非必需。

为进一步说明应用纲要各个部分的关系,这里还有一个框架的图示(版权属于DCMI,本人拥有翻译版权,引用敬请声明),值得好好推敲和学习:

2004年本人在一篇论文中将数字图书馆的元数据描述方案定义为”语义结构(Semantic Architecture)”,并认为有如下几个部分组成:

  • Resource Analysis and Definition
  • Metadata Set Definition (Core and Extended)
  • Encoding and Mapping Rules
  • Guidelines and Best Practices
  • Metadata Registry, Ontologies and Authority Files

与这个”新加坡框架”颇有一些异曲同工呢!

DC2007总结

星期日, 9月 2nd, 2007

8月30日下午闭幕式上, Makx Dekkers进行了例行总结:

本次会议进行了4场培训,2场主题发言,3场大会论文发言(共计10篇论文),2场分会场论文发言(共计6篇论文),15场社区和工作组会议,3场特别会议,以及两场专题报告会。参加培训的共有113位代表,参加会议的正式注册代表约190位,分别来自33个国家和地区。

照例,Makx感谢了东道主十分专业的组织和接待工作,以及各方的赞助和参与,将这次会议办成又一次成功的大会,胜利的大会。最后Makx宣布明年的DC年会将移师德国柏林举行。

总体感觉,DC经过这许多年的发展,似乎仍然缺乏群众基础,参与者寡,也一直缺乏杀手级的成功应用。这应该与整个WEB标准规范(例如Semantic Web的RDF/OWL标准,以及Web Services标准等)近年来普及不利有关,与DCMI本身的组织形式也有关系。因此本届会议,虽然并不是参与人数最多的一次,但其成果应该足可以在DC历史上留下一笔。主要是两项成果:提出了”新加坡框架(Singapore Framework)”以及正式提出DCMI向实体化发展。由于8月30日我的出国期限已到,未能参加9月1号举行的内部会议(Advisory Board Meeting),其中的幕后细节和下一阶段的问题讨论我就不得而知,不能汇报给大家了,十分遗憾。

Stu点评张晓星主任的Keynote

星期四, 8月 30th, 2007

早晨张主任的主旨发言向人们展示了来自中国的又一个巨大的数字图书馆,拥有58TB,遍及33个省,超过8000个网点。Juha向DCMI的同行调侃 到,又有了一个巨大的DC数据库了。张主任的发言尚未结束,坐在我身边的Stu就向我秀了他刚刚出笼的博文:中国数字文化的进化(Digital Cultural Evolution in China)(他没有用”Revolution”一词,呵呵)。

Stu也很客气地提到文化共享工程中DC元数据应用中的问题,他是这样说的:

Dublin Core mavens would find Dr. Zhang’s slides very familiar indeed, recapping ideas and principles argued and agreed over more than a decade of experimentation and wrangling (some of his screen shots of application profiles might yet provoke discussion among the architecture crowd). It is a genuine pleasure to see these efforts (and even some of the problems) echoed in a national effort such as this, with repercussions that can be expected to ramify widely in the countryside of Chinese society and culture, validating an awful lot of jetlag on the part of many people over the years. I wish our colleagues in China all success with this project.
DC老手们会对张博士的演示稿感到非常熟悉,许多想法和原则已经试验和争论了十多年(一些应用纲要的截屏可能会遭到”元数据架构”组的激烈讨论)。我发自 内心地感到高兴,这些努力能在这样一个国家级的项目(即使其中有一些问题)中带来反响,……[这部分写得很艺术,很难翻译]。我希望我的中国同行 在这个项目中取得成功。

看来张晓林主任的”元数据标准规范“项目任重而道远。联想到DCMI多年严格控制元素的扩展,我们的”横向扩展”和”纵向扩展”是否太轻易了一些?我们的 领域规范(即所谓”专门元数据方案”)是否太多了些(在我们对”应用纲要”的理解尚未达成共识、得到普及之前)?谁来管理这些Terms?如何管理?特别 是我们对于抽象模型的漠视、我们在编码方案最佳实践方面的缺失,造成研究到应用的断层,元数据工具和应用系统无法在共识的基础上开发,将使得我们现在的许 多努力得不到充分应用,达不到预期效果。

DCMI历来对组织形式和方法上的重视程度要高于对元数据标准规范的内容和结果的重视。一些基本原则(开放原则、民主原则等)只有通过组织形式和方法才能得到体现,才能保证标准规范的正确制定和执行。这是一个值得借鉴的很好的做法。

DCMI向实体化发展

星期三, 8月 29th, 2007

29日早上刚到会场,就碰到昨天念叨的张晓星主任,聊了几句。张主任谈到,会议的组织者感到不可理解,元数据在中国应该也算一个热门话题,为什么参会的国内代表那么少。

找了一个有电源位置坐下来,发现桌上放了一份声明:”DCMI working towards incorporation in Singapore”。这实际上是近年来在DCMI内部讨论过多次的问题,作为一个虚拟的、以志愿者为主的学术实体,难免碰到资源有限、进展缓慢等问题, 虽然DCMI也开始引入了一定的项目激励机制,但”实体化”、”公司化”发展是大势所趋。

声明中说,DCMI将向一个在法律上独立的实体(Legal entity)方向发展,计划与新加坡国家图书馆局合作,在2008年中,成立成立非营利性公司(not-for-profit public company)。新加坡图书馆局将对这个法律实体提供行政管理上的支持(我的理解就是由新加坡图书馆局进行管理),以后几个月中将就达成目标的各项 法律问题,与OCLC、DCMI的会员以及法律专家进行磋商,确定这个”DC元数据公司”的法律地位、组织结构框架等细节问题。这表明新加坡在成为 DCMI的会员(Affiliation)之后不久,又有了更深层次的合作。反观我泱泱大国,富足丰饶,就是不知道在干些什么。

DC-2007开幕式

星期二, 8月 28th, 2007

这几天开会,本人将在现场带给大家鲜活的报道。
有关会议程序 和参考资料,请大家参考会议网站 。会议日程安排 也可以在这里下载。
一般情况下,我会用skype进行实况转播,需要聆听实况的,请下载、安装skype,通过添加我的id:kevenlw告知我,我把你加入”会议室”。skype的会议室最多十人,不过我估计国内感兴趣的、又正好在”现场”的也不会超过十人。

上 午的开幕式,除了新加坡的两位年轻的部长(估计不到50岁)致辞,显示了新加坡政府的积极进取、干什么都要国际一流的雄心之外,缺乏可圈可点之处。 Keynote是联合国粮农组织(FAO)的一位项目主管Johannes Keizer所作,FAO一直在信息技术的应用方面非常领先,很早开展了元数据和本体的应用。但是FAO的演示只提供了宏观的介绍,缺乏细节,所以讲完之 后许多人都提了问题,但是回答没有任何特别之处,看来大家碰到的问题他们也没有很好地解决方案,只不过他们做了一个活生生的系统,但仅这一点也够让人pay respect的。Paper Session 1 Mr. Akira的报告介绍了一个”并列名称”的元数据描述想法,Paper2 是Nilsson的大作,介绍了一个基于Web、支持多种元数据schema的元数据著录网站/工具 ,与我们4-5年前的想法惊人相似。/sigh

一般DC年会有两个Keynote,星期四上午来自祖国的张晓星主任将作主旨发言,期待ing。(不过今天遍寻会场,没看到他,可能专门来作报告吧)

DC-2007参会实录

星期二, 8月 28th, 2007

2007年都柏林核心(DC)与元数据应用国际研讨会 于2007年8月28日在新加坡洲际大饭店(InterContinental Singapore) 召开,来自2O多个国家和地区的一百多名代表参加了会议。这是继东京(2001)、佛罗伦萨(2002)、西雅图(2003)、上海(2004)、马德里 (2005)、墨西哥曼萨利尼(2006)之后的第七届。本人很荣幸,只缺席了其中第一、五两届(第五届是因为保先而缺席的)。

本次会议的主题是”元数据应用纲要的理论与实践(Application Profile: Theory and Practice)”,经过数年的研究、实践和标准化工作的推动,预计本次会议将在元数据应用纲要的形式化方面取得突破性进展,为下一阶段软件工具以及 “杀手极”应用的开发提供基本的编码规范和实践操作指南,一扫元数据应用长期滞后于实践需求的阴霾。

本次会议在日常安排上作了一些改动,将四次培训集中到8月27日一天进行,并且没有进行Post Session以及收费的Special Session。这样做的好处是使会议更加紧凑,不同的对象参加不同的会议,当然其缺点是基本上杜绝了我这种人的蹭会。于是昨天就去参观了一天市容,逛了 十来个书店,以及新加坡国家图书馆、国家图书馆乌节路分馆(也就是因付不起租借费用而即将闭馆的那个),直到深夜才返回饭店,拍了很多照片 ,与南非德班相比(人口差不多),让我充分感受到新加坡改革开放、和谐社会的建设成就,以及人民勤奋进取、安居乐业(据说就业率100%)的良好氛围,让 我深信,同样是华人国家,我们也一定能够成功建设和谐社会。当然这里的消费也是发达国家的消费,从机场打的到市中心宾馆20分钟路程需要35新币,一本书 随便20多元新币,简单一顿商务套餐也差不多这个价,物价水平丝毫不比欧美国家差,所以我们当前的大幅度涨价似乎找到了合理性依据,赫赫。

Flickr的新功能:自动标签

星期五, 8月 24th, 2007

Yahoo!Flickr叫做”机器标签Machine Tagging”,也就是图书馆人梦寐以求的自动标引,已经来到我们身边。这实际上是今年1月份的“新”功能,只是偶现在才注意到。

flickr:user=keven
keven:photo=0123456
……

我想目前最可能获取的”机器元数据”应该是作者信息和一系列的技术信息(例如可以知道该作者/上载者应用的相机型号和技术参数,以及相片的技术参数),更有用的是拍摄的内容信息,例如拍摄对象、事件、事件信息,目前似乎没有更好的办法取得。但是目前可以得到的上载时间、以及经纬度信息,在数据挖掘中具有很重要的意义。结合一些人工标引,能够获得更多的”知识”。只是讨论中列举的一些例子,如菜谱的成分、当地的天气情况等,不知道通过怎样的Mashup才能够得到。

对于任何一个数据库来说,可以自动提取的语义信息有很多,这些语义在系统内部是不言自明的,然而一旦将应用放大到整个互联网,就需要把”内在的” 关系”显性化(explicit)”,才能为机器所识别和利用。

这个功能何其了得,随着微格式和微内容的标准化和应用的普及,一个”数据的Web”将大大促进Web3.0的成形,每个人的图片数据都可以挖掘出大量的语义,与相关的词表结合起来,Web的”智能化”指日可待。

目前似乎在语法上还不够规范,当然只要数据可以通过api读取,可以很方便地转换成rdf(现在被称为NQRDF)。标准是应用中最重要、也是最困难的问题,还是各家使用各家的”标准”,可以直接采用RDF,却采用”NQRDF(Not Quite RDF)”(现在Yahoo!Flickr正在这样做)。大公司为了商业上的考虑,是不可能主动热情、开开心心、心甘情愿地开放共享滴。

ALA年会的元数据应用专题会议(含资料下载)

星期四, 7月 26th, 2007

美国ALA2007年会上,LITA标准组(LITA Standards Interest Group)召开了一个数字图书馆元数据应用的专题分会,会上的演讲PPT已经上网(感谢美国国会图书馆Rebecca S. Guenther提供消息),参见这里 。主要内容如下:

许多东西值得我们国内元数据应用借鉴、学习。

ILS可以同时支持多个知识组织体系吗?

星期三, 7月 25th, 2007

上周在”书商为什么不用图书分类法“讨论了传统的图书馆分类法不适用的原因。其实除了书店之外,对于网络环境中的数字资源,传统的分类法或者主题法也大有改进的必要。

记得在以前的博文中曾说过,元数据实际上是原物的某一个侧面的指代物:一个替身或化身,如果把分类体系看成一张知识的大网,每本书赋予一个分类号,在这张大网中就找到了这本书的一个位置,也就是一个指代。主题词也是这样,标签也是这样。之所以要找一个替身,根本原因在于被代表的资源是实物载体,不可能被实际放在某个位置,又同时出现在另一个位置。

而数字资源就有所不同了,可以方便地拷贝、挪移,可以同时出现在各个知识体系中,不需要”替身”,自己就可以走来走去。并且可以通过”计算”,将整个数字对象作为一个整体,而不抽取任何只表达局部的片面的”关键词”,来赋予一个数字对象一个唯一的向量值,代表这个数字对象的属性,进行特征匹配。

因此,在一个知识库中,按照多个不同的知识体系组织所有的知识单元是完全可行的和必要的,以此来看,一个图书馆的图书分类法为什么只能用一种呢?主题词为什么也只能用一种呢?为什么不能同时用多种知识组织方式安排整个馆藏呢?这实际上是OPAC2.0本质的与众不同之处。

那天在武汉与图创演示InterLib的王先生谈到ILS对多个知识组织体系的同时支持问题,他似乎还没有完全明白我的意思。

这当然会造成我们的自动化系统的不适应,以及MARC格式的不适应。这也是我们要从根本上改变MARC格式和图书馆自动化系统的原因之一。

Karen Schneider这篇文章 给了我们两个正在变革的实例:亚利桑那州Maricopa 县图书馆




凤凰城公共图书馆,当然还没有上述那么超前的变革,但是已经开是一种大胆变革了:从废弃杜威分类法,采用书商的主题标目BISAC开始。令人奇怪的是ALA的官方网站居然也对这种异端邪说大开绿灯,而且后面的30多个留言中大多数表示了支持,并且有许多发人深省的讨论。看来(美国的)图书馆界也并不保守,(美国的)图书馆员很有一种开放和追求变革的心态。

关于如何制定数字出版的元数据规范

星期三, 7月 25th, 2007

元数据也搞了这许多年了,虽说应用成果不多,知识倒是学了不少。前一阵耄耋少年陈先生希望我就数字出版的元数据方案制定工作谈一点想法,不揣浅陋,在此谈一些初步想法,以期抛砖引玉。 元数据是关于数据的数据。任何元数据方案,首先要弄清楚它是关于”谁”的数据,这是”革命”的首要问题。数字出版物的元数据,首先需要界定什么是数字出版物(从内容、形态等各方面,以及描述的对象是不是复合对象,如何组成等),才能明确元数据的描述对象。目前出版界似乎只想到按照传统出版物角度进行界定,仅仅考虑(数字)图书和期刊,恐怕会有很大的局限性。

这里试着从我国出版行业的主管部门的角度给出一个”数字出版物”的定义:

[具有出版资质的单位(出版社)]以数字(指内容)或电子媒体(指载体)形式产生和发布的,具有独立标识或者能被唯一识别的出版物。 这个定义核心部分是清楚的,但是边界很模糊。什么东西不算“数字出版物”,例如网页算不算?可能需要”权威部门”提供“司法解释”。 这个定义还应该进一步明确”出版社”和”出版物”两个概念,他们与元数据规范的管理和应用有关。其它的诸如”数字内容”、“电子媒体”、”独立标识”、”唯一识别”等概念都属于技术概念,定义起来很容易。 但是只要有了这样一个可资参考的定义,就可以开展下面的工作了:

1、界定主要的数字出版物类型;什么是数字/电子图书?什么是数字/电子期刊?还有哪些其他类型?(例如课件、电子地图、游戏、软件甚至网站、资源集合等等算不算?)

2、考察元数据规范的功能需求:为什么要制订元数据方案?制订了元数据方案是不是想解决的问题都能解决?还有哪些需求是元数据方案所不能解决的,需要其它的规范(如编码规范、协议规范)来解决?

3、所涉及的数字出版物对象的各类属性分析,结合功能需求,详细考察哪些属性应该被纳入,哪些暂缓,为什么?

4、如果简单的元数据方案不敷使用,考察是否需要建立扩展机制和应用模型,以体现元数据方案一定程度上的灵活性和可扩展性。

5、是否能建立一个数字出版物的概念模型和描述模型?通过它来定义标准的书目记录以及各种转换方法。

我们的出版标准大多把注意力放在出版物的具体格式(如PDF)上了,当然具体格式不是不重要,pdf已经成为一种开放的国际标准,采用它当然是很好的,但是作为电子出版物的标准,应该不局限于任何具体的格式标准,可以应用于任何开放和私有的格式,如果我们建立标准的模型,以XML/RDF形式编码,就完全可能把元数据带到各种格式中去。目前很多新的格式(或者老的格式新的版本)都包含元数据和数字对象二进制编码两个部分,我们这个电子出版物标准如何制订一定的指南,可以用于PDF、JPEG2000、MPEG7甚至网络出版媒体、流媒体等各类数字格式中去。这应该成为我们的目标。

我们的元数据标准规范成熟了吗?

星期三, 7月 25th, 2007

年初听说要进行大规模的元数据培训,感到似乎还不成熟,为时过早,最近耄耋少年陈老师要我写一些对出版界制订元数据方案的想法,联想到对目前元数据标准规范项目的一些想法,在此不揣浅陋,把自己的想法抛出,请砖家猛砸。

我们现在制定元数据方案,最大的问题还是出发点的问题:给谁用?给机器用还是给人用?

现在的元数据方法与传统的编目规则最大的不同在于,元数据方法的成果–元数据–是真正给机器读的,这个”读”与传统MARC中的Read有质的不同, MARC还是利用机器的字符处理和匹配能力,打印卡片或者显示在屏幕上给人读,而元数据的”读”是要给网络上千千万万相互”认识”或不”认识”的机器来 读,不能读错,才能最终达到检索、利用的准确性(也就是语义互操作)。

我们”数字图书馆标准规范建设”课题制定了一大堆元数据规范(基本、专门元数据规范),实际上还主要是些元素集,把这些元素集当成完整的元数据方案方案进 行培训,说简单点有些混淆视听,说严重点有些误人子弟。应该说这个标准规范建设的课题还没有结束,它的重点应该进一步明确抽象模型和应用模型(这是需要花 大力气去做的,不是靠一两个人起草文章所能完成),在此基础上制定一系列编码方案,并且开发一些验证工具和集成环境(可以授权一些公司进行研发),再进行 推广培训。

在网络环境下,不同的应用领域采用哪些元素进行描述,实际上是一个用户自己选择的过程,元数据规范不可能面面俱到,所以元数据标准只需要定义最宽泛的核心元素(领域应用也可以制定一些领域核心),然后通过复用或自定义方式扩展所需的元素。这种方法已经得到元数据界的公认。

问题是:扩展方式如何确定?元素之间的关系如何描述?如何使计算机明确地知道你描述的属性是属于某个对象的?属性如何取值?属性值之间的关系如何定义?这 些问题都属于元数据描述的抽象模型和应用模型。这些问题不解决,元数据方案是没有办法达到”机读(机器理解)”的,元数据标准规范也是无法应用的,因此也 就是没有完成的标准规范。

由于复杂的应用环境极易造成元数据著录和编码的不一致性,开发工具和集成应用环境可以:

1、尽可能降低使用门槛,消除人们理解和使用上的障碍,使最普通的 工作人员也能过做元数据标引工作;
2、确保元数据元素之间的关系、元数据描述的抽象模型和应用模型已经被编码语言和应用环境/工具”固化”在系统中了。

这 样才能确保应用中正确实施元数据标准规范,同时减少元数据标引创建和维护人员的工作量,少死一些脑细胞。

请参加元数据调查

星期四, 6月 28th, 2007

最近MARC世界暗流涌动,DC欲搭RDA便车重新起飞。英国King’s College London图书馆的Resoum Kidane正在进行一个图书情报机构元数据应用(MARC和DC)的调查,调查表设计得十分简明、实用,有兴趣者可以到这里下载,填好后发往指定邮箱。


Technorati :

元数据的进展与困境

星期日, 6月 17th, 2007

DCMI抽象模型(Abstract Model)最近终于成为DCMI的推荐标准了(DC中文网有老版本的翻译,正在更新中)。经历了四五年的讨论,伴随W3C各类标准的沉浮,一次又一次地错过元数据应用的时机,特别是距今最近的一站:Web2.0的兴起。可能想搭乘3.0的班机吧,也不知能否起飞。

前DCMI已经授权瑞典的W3C干将Mikael Nilsson编写元数据应用纲要的XML模式,为抽象模型下严格规范应用纲要的机读格式提供编码标准。对于DCMI来说,这件事情弄成了,将与抽象模型一起,是一个具有里程碑意义的事件。

从整个互联网应用元数据规范描述的大背景中来看,感觉这个抽象模型似乎是一个夹缝中的标准,会不会在应用中得到推广普及很成问题。

  1. 抽象模型的文本中一再强调,它并非对语义的规定,只是对描述的一致性的规定,强调独立于任何编码语言。
  2. 抽象模型似乎只有采用RDF时才能用来表示语义。对于DCMI来说不强调一定采用RDF似乎是个妥协,或者是个进步。但目前的抽象模型中对于表达语义的相 关问题并没有规定甚至阐明。(完全)基于RDF的模型而不按照RDF的方式来用,即把RDF模型扩展到一般意义的描述,是一个创新?或者折衷?可能会两头 不落好。
  3. 抽象模型不知道对于W3C具有怎样的意义?W3C非常需要对于资源的规范描述和编码规范,它的以RDF/OWL为基础的SW(语义Web)遭到了一部分崇 尚自由的计算机人士的强烈反对,它的WS-架构也一直推行不力(REST架构似乎正在冉冉升起),抽象模型能成为它目前所倡导的Web3.0的核心吗?现 在好像还没有一点影子。
  4. 人们本来指望应用纲要(Application Profile)是一种松散的联合,在此基础上制订的应用纲要的机读版有多少可行性难免让人有所疑虑。

目前Web2.0的应用无一不是建立在对互联网资源的描述、挖掘并提供丰富的链接语义的基础之上,这一轮发展中可以说W3C/DCMI已经缺席了,下一阶 段如果不能尽快搞一些示范性应用,以及推出一些平台工具,甚至修订推出一些进入门槛更低一些的规范,很可能又会被应用的浪潮抛在后面,技术上再先进也无济 于事。

近期国内元数据界又热闹了起来,年内要进行四次全国范围的巡回培训,这当然是好事,便于推广应用前几年科技部元数据项目所取得的成果,但是时机可能稍嫌早 了一些,标准规范的应用维护机制并没有建立起来,不管是民间或者政府的配套管理措施都还付之阙如,平台工具等都还没有影子(并没有企业或者高校在这方面真 正有所动作),培训的效果会大打折扣的。

前两天Leon给了我一本书,是北大肖珑副馆长和Leon共同编撰的《中文元数据概论与实例》,虽然定价有点贵(60元/当当网51元),但却是非常值得拥有 的、代表当前国内元数据领域研究水平的一本书。印数似乎不多,大家快去抢购吧。好话我就不多说了,对我来说,唯一的遗憾是没有包含一些国际上元数据研究和应用 的一些最新成果,可能与这本书定位于两位主编领衔参与的科技部专门元数据项目成果总结有关吧,我们也不好太过于苛求了。总之,衷心祝贺这本书的诞生!

有关知识本体的三本书

星期二, 6月 12th, 2007

雨师很早就推荐了几本书,单位里有三本,请花生壳帮忙借了来,在这里特别鸣谢,并做一个简介。

Title: Ontological engineering : with examples from the areas of Knowledge management, e-commerce and the Semantic Web (本体工程:知识管理、电子商务与语义万维网应用实例)

Author: Asunción Gómez-Pérez, Mariano Fernández-López, and Oscar Corcho.

Publisher: London ; New York : Springer, c2004.

ISBN: 1852335513 (alk. paper)(上图索书号: TP182/G633)

Summary: The book presents the major issues of Ontological Engineering and describes the most outstanding ontologies that are currently available. It covers the practical aspects of selecting and applying methodologies, languages and tools for building ontologies. Ontological Engineering will be of great value to students and Researchers, and to developers who want to integrate ontologies in their information systems.

评述:本书主要介绍了建立和应用本体的工具与方法。由于成书较早(2004年),而近两年在这个领域一些实用的东西发展和定型很快,因此本书可以作为全面了解本体方法背景和基础知识的一本读物,对于理论研究和方法学探讨都有相当的参考价值。推荐指数:****


Title: Towards the semantic web : Ontology-driven Knowledge Management (走向语义万维网:本体引导的知识管理)

Author: edited by John Davies, Dieter Fensel, and Frank van Harmelen.

Publisher: Chichester, England ; Hoboken, NJ : J. Wiley, c2003.

ISBN: 0470848677(上图索书号:TP18/T737)

Summary: Towards the Semantic Web focuses on the application of Semantic Web technology and ontologies in particular to electronically available information to improve the quality of knowledge management in large and distributed organizations. Covering the key technologies for the next generation of the WWW, this book is a mixture of theory, tools and applications in an important area of WWW research.” “Aimed primarily at researchers and developers in the area of WWW-based
knowledge management and information retrieval. It will also be a useful reference for students in computer science at the postgraduate level, academic and industrial researchers in the field, business managers who are aiming to increase the corporations’ information infrastructure and industrial personnel who are tracking WWW technology developments in order to understand the business implications.

评述:本书专注于语义万维网本体应用,各章分别由多人写作,集中了众多专家的智慧。在内容上与上一本书有许多重叠的地方,但是由于成书更早(2003年),其中提到的许多项目已经结项,一些工具已经有了新的发展或替代品,但是作为了解万维网语义化发展历程,以及探究如何将互联网转型为一个巨大的知识库,本书不失为一本很好的参考读物。推荐指数:***

Title: Information modelling and knowledge bases XVI (信息建模与知识库)

Author: edited by Yasushi Kiyoki … [et al.].

Publisher: : IOS Press, Amsterdam 2005.

ISBN: 1586034979 (hd.bd.) (上图索书号:TP18-532/I436/XVI)

评述:本书是一本收录人工智能最新进展的论文集,涉及面非常广泛,大多属于基础性研究和探索,但计算机科学本身是应用性学科,许多研究都有可能成为某一领域的突破,因此值得关注。另外本书的许多内容对于计算机专业的硕博士论文写作是非常好的参考。推荐指数:***