Archive for the '元数据' Category

DC-2007论文学习(下)

星期二, 9月 4th, 2007

Application Profiles: Exposing and Enforcing Metadata Quality
by Diane Ileana Hillmann, Jon Phipps

Diane 的大作。作者选择了一个利用元数据应用纲要控制元数据质量的角度,元数据应用纲要的标准化问题还没有解决,已经开始深入应用了,有点意思。当然就目前看来 AP是一个可松可紧的东西,可以认为,AP规定得越是严格,数据符合AP越是具有高一致性,元数据质量越是高。有时受到现实的局限,许多内容无法用AP来 规定,或者规定了也无法执行,对元数据质量自然无法要求太高。

Using an Application Profile Based Service Registry
by Ann Apps
Ann 又来讲她的元数据注册登记系统了,当然这回是元数据应用纲要的注册登记系统,同样是以IESR的系统来说事。照Leon的话说,一招鲜吃遍天。这个登记注 册系统虽然与前两年介绍得并没有很大的进展,但毕竟是一个实用的系统在运行,而且每年也实实在在地有一些变化。虽然分布式Web服务、语义技术(如采用本 体)等提了好长时间了没有明显进展,还是非常值得借鉴的。
相比较而言,DCMI的元数据登记注册系统管理的对象只是标准规范中的TERMS,最多 涉及一些推荐的编码方式,供查询、翻译、借鉴。而IESR的注册登记是用于资源导航的,可以看成是一个”服务体系的登记注册系统”,其中有”From Application Profile to XML Serialization”的讨论,除了AP,系统还要管理具体的元数据记录库。当然应用纲要本身的规范用词、词间关系、编码模式(Schema)等也 是可以查阅的。这也是元数据注册登记系统与元数据应用纲要注册登记系统的一个比较大的不同吧。
这篇文章可以看成是国内元数据研究实践与国外的主要差距所在。

Identifying the Identifiers
by Douglas Campbell

这篇论文在整个DC会议上显得比较另类,专门研究标识体系的,Doug甚至在为数字资源的标识建立哲学基础,看不出直接的实用意义,但是是一篇颇有中国图林风格(例如对于定义、属性、范围等的偏好)的好论文。

Using Metadata Schema Registry as a Core Function to Enhance Usability and Reusability of Metadata Schemas
by Mitsuharu Nagamori, Shigeo Sugimoto
日 本筑波大学并入了前日本图书情报大学,这两位日本元数据的干将和元老依然在为DCMI做着重要贡献:开发和维护DCMI元数据登记注册系统,新版的系统将 于不久正式推出,主要升级在于支持编码模式(Metadata Schema)的注册,看起来还要支持符合DCAM的形式化的DCAP注册,这个进展不是一点点。粗粗看了一下论文,还不能确切知道是XML Schema还是RDF Schema,还是OWL,当然他们都可以认为是XML Schema。不过Metadata Schema还可以有不同的理解,不进行XML编码的元数据方案,也可以称为Schema。这篇论文是必须/值得一读的。

Virtual Archival Exhibition System: An Authoring Tool for Developing Web-based Virtual Exhibitions
by Ruan Yang, Chennupati K. Ramaiah, Schubert Foo
一个来自新加坡的实际应用案例,元数据方案在其中起到怎样的作用,似乎并没有看明白。


Education.au and Metadata for Events
by Pru Mitchell, Kim Edgar
探索用DC元数据来描述事件,在edna项目中。相信许多图书馆数字化项目中都有此类描述需求,但是是不是能够开发成一种微格式?或者与现有的事件微格式能够互相转换,是值得探讨的。

Integrating Dublin Core and Learning Object Metadata for Describing Learning Objects for Enhanced Reusability
by Abdul Halim Abdul, Abdus Sattar Chaudhry

论文集中的标题与会议演讲的标题有些出入,可能也说明了这篇文章的探索性。

Audience-Centric Taxonomy: Using Taxonomies to Support Heterogeneous User Communities
by Dave Clarke, Pei Jiun Tan
看来是建立一个统一的词表体系用以建立新加坡国家图书馆统一资源门户,以提高资源对于读者的可用性。

Integrating Dublin Core Metadata for Cultural Heritage Collections Using Ontologies
by Constantia Kakali, Irene Lourdi, Thomais Stasinopoulou, Lina Bountouri, Christos Papatheodorou, Martin Doerr, Manolis Gergatsoulis
利用本体映射解决由于采用不同元数据方案而带来的语义互操作问题。不知道效果如何,但是属于热门领域,值得借鉴参考。

Can a system make novice users experts? Important Factors for Automatic Metadata Generation Systems
by Sueyeon Syn, Michael B. Spring
本次会议中最像论文的一篇论文,探讨Web资源元数据自动生成的问题,通过调查发现,某些方面的资源描述如果给与一定推荐,将提高检索系统的查询效果。

DC-2007论文学习(上)

星期二, 9月 4th, 2007

本次会议的主题是”元数据应用纲要的理论和实践”,所有的论文基本上都与这个主题有直接关系,扣题很紧。
以下论文仅链接至会议网站论文摘要页面,会议论文全文即将上网。

Parallel Writing Tradition in East Asian Language Data and Metadata Representation: Under the Light of the DCMI Abstract Model
by Akira Miyazawa

介绍了东亚语言中常见的、同样的内容不同写法(例如汉字和拼音)的元数据编码问题,主要是如何符合DCAM的XML/RDF编码。

Annotation Profiles: Configuring Forms to Edit RDF
by Matthias Palmér, Fredrik Enoksson, Mikael Nilsson, Ambjörn Naeve

Mikael Nilsson是DCAM的起草人之一,是DCAP形式化方案的主要制订者,因此他作为参与者的论文应该具有一定的权威性,至少在DCAP的编码方面。
这篇论文介绍了一个对于网络资源进行元数据标注的工具的开发项目,这个工具与以往的工具所不同的是,支持多种”标准”的元数据应用纲要形式,甚至还可以支 持用户自定义的AP。具体功能还没有去仔细探究,但是好像能够支持自定义(包含所有约束)的XML/RDF/OWL Schema形式的元数据应用纲要,上载之后立刻能够产生元数据著录标引所需要的表单。不知道对于标注的元数据记录,这个工具提供怎样的管理和检索功能。 如果这个工具能够与个人知识管理工具,例如Zotero、BlueOrganizor等结合起来,就不得了了。
这是我们长期以来都想开发、并且试着做过一些开发的一个东西。

SCROL Application Profile
by Steven Wan Wu, Barbara Reed, Paul Loke

在新加坡国际图书馆数字化项目中采用元数据应用纲要的具体做法。与我们通常的做法大同小异,由于DCAP并不是严格意义上的标准规范,因此具体项目中都会有许多扩展和个性化考虑,特别是在Format/Medium方面有很多细化,值得借鉴或参考。

The DCMI Tools Application Profile
by Thomas Severiens, Jane Greenberg

两位作者是DCMI Tools Community的召集人。DCMI一直想为软件工具制定一个元数据规范,草案就在这里了。因为不涉及具体项目,很像我们专门元数据课题组所作的事情。 目前DCMI新的形式化的AP要求已经提出,这个AP应该可以改写成符合新规范的版本了吧?

The DRIADE Project: Phased Application Profile Development in Support of Open Science
by Jane Greenberg, Sarah Carrier, Jed Dube

Jane真是很能写,这是她参加的一个具体的机构库开发项目,为其设计和应用元数据方案所写的论文。与上一篇单纯提出一个应用纲要规范有所不同,涉及很多 具体开发的考虑,特别是对于开放存取的机构库建设,对于元数据方案的需求比一般的商用系统和交钥匙工程来得更为迫切,非常值得一看。论文中提出的三期应用 纲要:第一期以传统的元素集定义为主,第二期要定义各类实体/元素之间的关系,第三期要符合语义Web以及Web2.0的需求,很有意思。

Theory and Practice of Application Profile Development
by Jon Mason, Helen Galatis

澳大利亚教育界很早(1997)就开始将元数据标准应用到基于Web的数字资源系统中,近年来他们发现,对于如此丰富的资源和应用需求,一个标准、一个编 码模式或者一个元数据应用纲要肯定是不够的。作者回顾了十年以来澳大利亚教育界制定或采用的各类元数据标准的情况,项目不多,互有交叉,但碰到的问题却很 典型。一个很重要的”互操作问题”显现出来,必须要很好的考虑和解决。元数据应用纲要很好地反映了人们在刚性的标准和应用需求之间进行折衷,而必须考虑的 一种操作流程和方式上的标准化,应用纲要提出的历史就是从实践到理论的成熟过程。教育资源领域的数字资源和网络应用具有一定的特殊性,而且对元数据共建共 享的需求尤其迫切,已经有多套标准规范,因此作者回顾的ednaVetadataLFMAPARROWAPSRCarrick 等元数据方案都极具观赏价值和参考意义。从通篇的内容来看,作者对于互操作的考虑还停留于元素的重用和共享方面。

“新加坡框架(Singapore Framework)”

星期日, 9月 2nd, 2007

沃维克框架、堪培拉限定、芬兰终结……。DC元数据自诞生以来,留下许多里程碑式的成果,如今这些成果中又多了一个:新加坡框架(Singapore Framework)。 新加坡框架是指元数据应用纲要的一种规范形式。虽然应用纲要曾经是欧洲标准CWA14855,但那毕竟只是一个非常笼统、给人作参考的”指南”。DCMI认识到DC的应用一直无法大规模开展,与编码方面的规范一直不统一很有关系,编码的无标准可循造成元数据标准有等于无,各类应用的互操作还是无法进行。然而编码规范的统一是一件不可能的任务,在XML大行其道的今天,任何符合XML模式规范的DC编码,你都不能说它不规范,你也不可能让大家都采用一种XML的DC编码模式。同时专注于语义一致性描述的DCMI怎么可能推荐一种编码而排斥另一种呢?再说现在有RDF/OWL/N3等编码方式(甚至采用关系型数据库来描述和编码),将来还会出来种种新的方式,如何能预料得到呢?所以对于编码的标准化,必须依赖于一种编码模型的标准化。这就是近年来DCMI花大力气研究并反复讨论的”DC元数据抽象模型(DCAM)”。只有独立于语言的编码模型标准化了,才能建立一种标准的形式化编码规范,不论形式化语言用的是什么。 而领域应用中符合DC抽象模型的元数据的形式化方案的整体,就叫做DC元数据应用纲要(DC Metadata Application Profile)。 我们的”专门元数据方案“实际上都可以认为属于领域应用的”应用纲要”。 具体说来,新加坡框架指符合DC元数据抽象模型的元数据应用纲要,应该包含以下几个部分:

-

  • 功能需求说明(需要desirable)
  • 领域模型 (必需mandatory)
  • 元素集描述 (DSP: Description Set Prifile) (必需mandatory)
  • 应用指南 (可选)
  • 编码句法指南(可选)


对于每个部分是否必需Mandatory、需要Desirable还是可选Option,目前的意见还不统一,例如很多图书馆员认为功能需求说明应该是必需的,但是对于形式化的应用纲要,功能需求说明只是给人读的,不像领域模型(可用UML形式化)和元素集合描述等(DSP,用Schema等形式化),无法翻译成机器语言,对于机器来说并非必需。

为进一步说明应用纲要各个部分的关系,这里还有一个框架的图示(版权属于DCMI,本人拥有翻译版权,引用敬请声明),值得好好推敲和学习:

2004年本人在一篇论文中将数字图书馆的元数据描述方案定义为”语义结构(Semantic Architecture)”,并认为有如下几个部分组成:

  • Resource Analysis and Definition
  • Metadata Set Definition (Core and Extended)
  • Encoding and Mapping Rules
  • Guidelines and Best Practices
  • Metadata Registry, Ontologies and Authority Files

与这个”新加坡框架”颇有一些异曲同工呢!

DC2007总结

星期日, 9月 2nd, 2007

8月30日下午闭幕式上, Makx Dekkers进行了例行总结:

本次会议进行了4场培训,2场主题发言,3场大会论文发言(共计10篇论文),2场分会场论文发言(共计6篇论文),15场社区和工作组会议,3场特别会议,以及两场专题报告会。参加培训的共有113位代表,参加会议的正式注册代表约190位,分别来自33个国家和地区。

照例,Makx感谢了东道主十分专业的组织和接待工作,以及各方的赞助和参与,将这次会议办成又一次成功的大会,胜利的大会。最后Makx宣布明年的DC年会将移师德国柏林举行。

总体感觉,DC经过这许多年的发展,似乎仍然缺乏群众基础,参与者寡,也一直缺乏杀手级的成功应用。这应该与整个WEB标准规范(例如Semantic Web的RDF/OWL标准,以及Web Services标准等)近年来普及不利有关,与DCMI本身的组织形式也有关系。因此本届会议,虽然并不是参与人数最多的一次,但其成果应该足可以在DC历史上留下一笔。主要是两项成果:提出了”新加坡框架(Singapore Framework)”以及正式提出DCMI向实体化发展。由于8月30日我的出国期限已到,未能参加9月1号举行的内部会议(Advisory Board Meeting),其中的幕后细节和下一阶段的问题讨论我就不得而知,不能汇报给大家了,十分遗憾。

Stu点评张晓星主任的Keynote

星期四, 8月 30th, 2007

早晨张主任的主旨发言向人们展示了来自中国的又一个巨大的数字图书馆,拥有58TB,遍及33个省,超过8000个网点。Juha向DCMI的同行调侃 到,又有了一个巨大的DC数据库了。张主任的发言尚未结束,坐在我身边的Stu就向我秀了他刚刚出笼的博文:中国数字文化的进化(Digital Cultural Evolution in China)(他没有用”Revolution”一词,呵呵)。

Stu也很客气地提到文化共享工程中DC元数据应用中的问题,他是这样说的:

Dublin Core mavens would find Dr. Zhang’s slides very familiar indeed, recapping ideas and principles argued and agreed over more than a decade of experimentation and wrangling (some of his screen shots of application profiles might yet provoke discussion among the architecture crowd). It is a genuine pleasure to see these efforts (and even some of the problems) echoed in a national effort such as this, with repercussions that can be expected to ramify widely in the countryside of Chinese society and culture, validating an awful lot of jetlag on the part of many people over the years. I wish our colleagues in China all success with this project.
DC老手们会对张博士的演示稿感到非常熟悉,许多想法和原则已经试验和争论了十多年(一些应用纲要的截屏可能会遭到”元数据架构”组的激烈讨论)。我发自 内心地感到高兴,这些努力能在这样一个国家级的项目(即使其中有一些问题)中带来反响,……[这部分写得很艺术,很难翻译]。我希望我的中国同行 在这个项目中取得成功。

看来张晓林主任的”元数据标准规范“项目任重而道远。联想到DCMI多年严格控制元素的扩展,我们的”横向扩展”和”纵向扩展”是否太轻易了一些?我们的 领域规范(即所谓”专门元数据方案”)是否太多了些(在我们对”应用纲要”的理解尚未达成共识、得到普及之前)?谁来管理这些Terms?如何管理?特别 是我们对于抽象模型的漠视、我们在编码方案最佳实践方面的缺失,造成研究到应用的断层,元数据工具和应用系统无法在共识的基础上开发,将使得我们现在的许 多努力得不到充分应用,达不到预期效果。

DCMI历来对组织形式和方法上的重视程度要高于对元数据标准规范的内容和结果的重视。一些基本原则(开放原则、民主原则等)只有通过组织形式和方法才能得到体现,才能保证标准规范的正确制定和执行。这是一个值得借鉴的很好的做法。

DCMI向实体化发展

星期三, 8月 29th, 2007

29日早上刚到会场,就碰到昨天念叨的张晓星主任,聊了几句。张主任谈到,会议的组织者感到不可理解,元数据在中国应该也算一个热门话题,为什么参会的国内代表那么少。

找了一个有电源位置坐下来,发现桌上放了一份声明:”DCMI working towards incorporation in Singapore”。这实际上是近年来在DCMI内部讨论过多次的问题,作为一个虚拟的、以志愿者为主的学术实体,难免碰到资源有限、进展缓慢等问题, 虽然DCMI也开始引入了一定的项目激励机制,但”实体化”、”公司化”发展是大势所趋。

声明中说,DCMI将向一个在法律上独立的实体(Legal entity)方向发展,计划与新加坡国家图书馆局合作,在2008年中,成立成立非营利性公司(not-for-profit public company)。新加坡图书馆局将对这个法律实体提供行政管理上的支持(我的理解就是由新加坡图书馆局进行管理),以后几个月中将就达成目标的各项 法律问题,与OCLC、DCMI的会员以及法律专家进行磋商,确定这个”DC元数据公司”的法律地位、组织结构框架等细节问题。这表明新加坡在成为 DCMI的会员(Affiliation)之后不久,又有了更深层次的合作。反观我泱泱大国,富足丰饶,就是不知道在干些什么。

DC-2007开幕式

星期二, 8月 28th, 2007

这几天开会,本人将在现场带给大家鲜活的报道。
有关会议程序 和参考资料,请大家参考会议网站 。会议日程安排 也可以在这里下载。
一般情况下,我会用skype进行实况转播,需要聆听实况的,请下载、安装skype,通过添加我的id:kevenlw告知我,我把你加入”会议室”。skype的会议室最多十人,不过我估计国内感兴趣的、又正好在”现场”的也不会超过十人。

上 午的开幕式,除了新加坡的两位年轻的部长(估计不到50岁)致辞,显示了新加坡政府的积极进取、干什么都要国际一流的雄心之外,缺乏可圈可点之处。 Keynote是联合国粮农组织(FAO)的一位项目主管Johannes Keizer所作,FAO一直在信息技术的应用方面非常领先,很早开展了元数据和本体的应用。但是FAO的演示只提供了宏观的介绍,缺乏细节,所以讲完之 后许多人都提了问题,但是回答没有任何特别之处,看来大家碰到的问题他们也没有很好地解决方案,只不过他们做了一个活生生的系统,但仅这一点也够让人pay respect的。Paper Session 1 Mr. Akira的报告介绍了一个”并列名称”的元数据描述想法,Paper2 是Nilsson的大作,介绍了一个基于Web、支持多种元数据schema的元数据著录网站/工具 ,与我们4-5年前的想法惊人相似。/sigh

一般DC年会有两个Keynote,星期四上午来自祖国的张晓星主任将作主旨发言,期待ing。(不过今天遍寻会场,没看到他,可能专门来作报告吧)

DC-2007参会实录

星期二, 8月 28th, 2007

2007年都柏林核心(DC)与元数据应用国际研讨会 于2007年8月28日在新加坡洲际大饭店(InterContinental Singapore) 召开,来自2O多个国家和地区的一百多名代表参加了会议。这是继东京(2001)、佛罗伦萨(2002)、西雅图(2003)、上海(2004)、马德里 (2005)、墨西哥曼萨利尼(2006)之后的第七届。本人很荣幸,只缺席了其中第一、五两届(第五届是因为保先而缺席的)。

本次会议的主题是”元数据应用纲要的理论与实践(Application Profile: Theory and Practice)”,经过数年的研究、实践和标准化工作的推动,预计本次会议将在元数据应用纲要的形式化方面取得突破性进展,为下一阶段软件工具以及 “杀手极”应用的开发提供基本的编码规范和实践操作指南,一扫元数据应用长期滞后于实践需求的阴霾。

本次会议在日常安排上作了一些改动,将四次培训集中到8月27日一天进行,并且没有进行Post Session以及收费的Special Session。这样做的好处是使会议更加紧凑,不同的对象参加不同的会议,当然其缺点是基本上杜绝了我这种人的蹭会。于是昨天就去参观了一天市容,逛了 十来个书店,以及新加坡国家图书馆、国家图书馆乌节路分馆(也就是因付不起租借费用而即将闭馆的那个),直到深夜才返回饭店,拍了很多照片 ,与南非德班相比(人口差不多),让我充分感受到新加坡改革开放、和谐社会的建设成就,以及人民勤奋进取、安居乐业(据说就业率100%)的良好氛围,让 我深信,同样是华人国家,我们也一定能够成功建设和谐社会。当然这里的消费也是发达国家的消费,从机场打的到市中心宾馆20分钟路程需要35新币,一本书 随便20多元新币,简单一顿商务套餐也差不多这个价,物价水平丝毫不比欧美国家差,所以我们当前的大幅度涨价似乎找到了合理性依据,赫赫。

Flickr的新功能:自动标签

星期五, 8月 24th, 2007

Yahoo!Flickr叫做”机器标签Machine Tagging”,也就是图书馆人梦寐以求的自动标引,已经来到我们身边。这实际上是今年1月份的“新”功能,只是偶现在才注意到。

flickr:user=keven
keven:photo=0123456
……

我想目前最可能获取的”机器元数据”应该是作者信息和一系列的技术信息(例如可以知道该作者/上载者应用的相机型号和技术参数,以及相片的技术参数),更有用的是拍摄的内容信息,例如拍摄对象、事件、事件信息,目前似乎没有更好的办法取得。但是目前可以得到的上载时间、以及经纬度信息,在数据挖掘中具有很重要的意义。结合一些人工标引,能够获得更多的”知识”。只是讨论中列举的一些例子,如菜谱的成分、当地的天气情况等,不知道通过怎样的Mashup才能够得到。

对于任何一个数据库来说,可以自动提取的语义信息有很多,这些语义在系统内部是不言自明的,然而一旦将应用放大到整个互联网,就需要把”内在的” 关系”显性化(explicit)”,才能为机器所识别和利用。

这个功能何其了得,随着微格式和微内容的标准化和应用的普及,一个”数据的Web”将大大促进Web3.0的成形,每个人的图片数据都可以挖掘出大量的语义,与相关的词表结合起来,Web的”智能化”指日可待。

目前似乎在语法上还不够规范,当然只要数据可以通过api读取,可以很方便地转换成rdf(现在被称为NQRDF)。标准是应用中最重要、也是最困难的问题,还是各家使用各家的”标准”,可以直接采用RDF,却采用”NQRDF(Not Quite RDF)”(现在Yahoo!Flickr正在这样做)。大公司为了商业上的考虑,是不可能主动热情、开开心心、心甘情愿地开放共享滴。

ALA年会的元数据应用专题会议(含资料下载)

星期四, 7月 26th, 2007

美国ALA2007年会上,LITA标准组(LITA Standards Interest Group)召开了一个数字图书馆元数据应用的专题分会,会上的演讲PPT已经上网(感谢美国国会图书馆Rebecca S. Guenther提供消息),参见这里 。主要内容如下:

许多东西值得我们国内元数据应用借鉴、学习。

ILS可以同时支持多个知识组织体系吗?

星期三, 7月 25th, 2007

上周在”书商为什么不用图书分类法“讨论了传统的图书馆分类法不适用的原因。其实除了书店之外,对于网络环境中的数字资源,传统的分类法或者主题法也大有改进的必要。

记得在以前的博文中曾说过,元数据实际上是原物的某一个侧面的指代物:一个替身或化身,如果把分类体系看成一张知识的大网,每本书赋予一个分类号,在这张大网中就找到了这本书的一个位置,也就是一个指代。主题词也是这样,标签也是这样。之所以要找一个替身,根本原因在于被代表的资源是实物载体,不可能被实际放在某个位置,又同时出现在另一个位置。

而数字资源就有所不同了,可以方便地拷贝、挪移,可以同时出现在各个知识体系中,不需要”替身”,自己就可以走来走去。并且可以通过”计算”,将整个数字对象作为一个整体,而不抽取任何只表达局部的片面的”关键词”,来赋予一个数字对象一个唯一的向量值,代表这个数字对象的属性,进行特征匹配。

因此,在一个知识库中,按照多个不同的知识体系组织所有的知识单元是完全可行的和必要的,以此来看,一个图书馆的图书分类法为什么只能用一种呢?主题词为什么也只能用一种呢?为什么不能同时用多种知识组织方式安排整个馆藏呢?这实际上是OPAC2.0本质的与众不同之处。

那天在武汉与图创演示InterLib的王先生谈到ILS对多个知识组织体系的同时支持问题,他似乎还没有完全明白我的意思。

这当然会造成我们的自动化系统的不适应,以及MARC格式的不适应。这也是我们要从根本上改变MARC格式和图书馆自动化系统的原因之一。

Karen Schneider这篇文章 给了我们两个正在变革的实例:亚利桑那州Maricopa 县图书馆




凤凰城公共图书馆,当然还没有上述那么超前的变革,但是已经开是一种大胆变革了:从废弃杜威分类法,采用书商的主题标目BISAC开始。令人奇怪的是ALA的官方网站居然也对这种异端邪说大开绿灯,而且后面的30多个留言中大多数表示了支持,并且有许多发人深省的讨论。看来(美国的)图书馆界也并不保守,(美国的)图书馆员很有一种开放和追求变革的心态。

关于如何制定数字出版的元数据规范

星期三, 7月 25th, 2007

元数据也搞了这许多年了,虽说应用成果不多,知识倒是学了不少。前一阵耄耋少年陈先生希望我就数字出版的元数据方案制定工作谈一点想法,不揣浅陋,在此谈一些初步想法,以期抛砖引玉。 元数据是关于数据的数据。任何元数据方案,首先要弄清楚它是关于”谁”的数据,这是”革命”的首要问题。数字出版物的元数据,首先需要界定什么是数字出版物(从内容、形态等各方面,以及描述的对象是不是复合对象,如何组成等),才能明确元数据的描述对象。目前出版界似乎只想到按照传统出版物角度进行界定,仅仅考虑(数字)图书和期刊,恐怕会有很大的局限性。

这里试着从我国出版行业的主管部门的角度给出一个”数字出版物”的定义:

[具有出版资质的单位(出版社)]以数字(指内容)或电子媒体(指载体)形式产生和发布的,具有独立标识或者能被唯一识别的出版物。 这个定义核心部分是清楚的,但是边界很模糊。什么东西不算“数字出版物”,例如网页算不算?可能需要”权威部门”提供“司法解释”。 这个定义还应该进一步明确”出版社”和”出版物”两个概念,他们与元数据规范的管理和应用有关。其它的诸如”数字内容”、“电子媒体”、”独立标识”、”唯一识别”等概念都属于技术概念,定义起来很容易。 但是只要有了这样一个可资参考的定义,就可以开展下面的工作了:

1、界定主要的数字出版物类型;什么是数字/电子图书?什么是数字/电子期刊?还有哪些其他类型?(例如课件、电子地图、游戏、软件甚至网站、资源集合等等算不算?)

2、考察元数据规范的功能需求:为什么要制订元数据方案?制订了元数据方案是不是想解决的问题都能解决?还有哪些需求是元数据方案所不能解决的,需要其它的规范(如编码规范、协议规范)来解决?

3、所涉及的数字出版物对象的各类属性分析,结合功能需求,详细考察哪些属性应该被纳入,哪些暂缓,为什么?

4、如果简单的元数据方案不敷使用,考察是否需要建立扩展机制和应用模型,以体现元数据方案一定程度上的灵活性和可扩展性。

5、是否能建立一个数字出版物的概念模型和描述模型?通过它来定义标准的书目记录以及各种转换方法。

我们的出版标准大多把注意力放在出版物的具体格式(如PDF)上了,当然具体格式不是不重要,pdf已经成为一种开放的国际标准,采用它当然是很好的,但是作为电子出版物的标准,应该不局限于任何具体的格式标准,可以应用于任何开放和私有的格式,如果我们建立标准的模型,以XML/RDF形式编码,就完全可能把元数据带到各种格式中去。目前很多新的格式(或者老的格式新的版本)都包含元数据和数字对象二进制编码两个部分,我们这个电子出版物标准如何制订一定的指南,可以用于PDF、JPEG2000、MPEG7甚至网络出版媒体、流媒体等各类数字格式中去。这应该成为我们的目标。

我们的元数据标准规范成熟了吗?

星期三, 7月 25th, 2007

年初听说要进行大规模的元数据培训,感到似乎还不成熟,为时过早,最近耄耋少年陈老师要我写一些对出版界制订元数据方案的想法,联想到对目前元数据标准规范项目的一些想法,在此不揣浅陋,把自己的想法抛出,请砖家猛砸。

我们现在制定元数据方案,最大的问题还是出发点的问题:给谁用?给机器用还是给人用?

现在的元数据方法与传统的编目规则最大的不同在于,元数据方法的成果–元数据–是真正给机器读的,这个”读”与传统MARC中的Read有质的不同, MARC还是利用机器的字符处理和匹配能力,打印卡片或者显示在屏幕上给人读,而元数据的”读”是要给网络上千千万万相互”认识”或不”认识”的机器来 读,不能读错,才能最终达到检索、利用的准确性(也就是语义互操作)。

我们”数字图书馆标准规范建设”课题制定了一大堆元数据规范(基本、专门元数据规范),实际上还主要是些元素集,把这些元素集当成完整的元数据方案方案进 行培训,说简单点有些混淆视听,说严重点有些误人子弟。应该说这个标准规范建设的课题还没有结束,它的重点应该进一步明确抽象模型和应用模型(这是需要花 大力气去做的,不是靠一两个人起草文章所能完成),在此基础上制定一系列编码方案,并且开发一些验证工具和集成环境(可以授权一些公司进行研发),再进行 推广培训。

在网络环境下,不同的应用领域采用哪些元素进行描述,实际上是一个用户自己选择的过程,元数据规范不可能面面俱到,所以元数据标准只需要定义最宽泛的核心元素(领域应用也可以制定一些领域核心),然后通过复用或自定义方式扩展所需的元素。这种方法已经得到元数据界的公认。

问题是:扩展方式如何确定?元素之间的关系如何描述?如何使计算机明确地知道你描述的属性是属于某个对象的?属性如何取值?属性值之间的关系如何定义?这 些问题都属于元数据描述的抽象模型和应用模型。这些问题不解决,元数据方案是没有办法达到”机读(机器理解)”的,元数据标准规范也是无法应用的,因此也 就是没有完成的标准规范。

由于复杂的应用环境极易造成元数据著录和编码的不一致性,开发工具和集成应用环境可以:

1、尽可能降低使用门槛,消除人们理解和使用上的障碍,使最普通的 工作人员也能过做元数据标引工作;
2、确保元数据元素之间的关系、元数据描述的抽象模型和应用模型已经被编码语言和应用环境/工具”固化”在系统中了。

这 样才能确保应用中正确实施元数据标准规范,同时减少元数据标引创建和维护人员的工作量,少死一些脑细胞。

请参加元数据调查

星期四, 6月 28th, 2007

最近MARC世界暗流涌动,DC欲搭RDA便车重新起飞。英国King’s College London图书馆的Resoum Kidane正在进行一个图书情报机构元数据应用(MARC和DC)的调查,调查表设计得十分简明、实用,有兴趣者可以到这里下载,填好后发往指定邮箱。


Technorati :

元数据的进展与困境

星期日, 6月 17th, 2007

DCMI抽象模型(Abstract Model)最近终于成为DCMI的推荐标准了(DC中文网有老版本的翻译,正在更新中)。经历了四五年的讨论,伴随W3C各类标准的沉浮,一次又一次地错过元数据应用的时机,特别是距今最近的一站:Web2.0的兴起。可能想搭乘3.0的班机吧,也不知能否起飞。

前DCMI已经授权瑞典的W3C干将Mikael Nilsson编写元数据应用纲要的XML模式,为抽象模型下严格规范应用纲要的机读格式提供编码标准。对于DCMI来说,这件事情弄成了,将与抽象模型一起,是一个具有里程碑意义的事件。

从整个互联网应用元数据规范描述的大背景中来看,感觉这个抽象模型似乎是一个夹缝中的标准,会不会在应用中得到推广普及很成问题。

  1. 抽象模型的文本中一再强调,它并非对语义的规定,只是对描述的一致性的规定,强调独立于任何编码语言。
  2. 抽象模型似乎只有采用RDF时才能用来表示语义。对于DCMI来说不强调一定采用RDF似乎是个妥协,或者是个进步。但目前的抽象模型中对于表达语义的相 关问题并没有规定甚至阐明。(完全)基于RDF的模型而不按照RDF的方式来用,即把RDF模型扩展到一般意义的描述,是一个创新?或者折衷?可能会两头 不落好。
  3. 抽象模型不知道对于W3C具有怎样的意义?W3C非常需要对于资源的规范描述和编码规范,它的以RDF/OWL为基础的SW(语义Web)遭到了一部分崇 尚自由的计算机人士的强烈反对,它的WS-架构也一直推行不力(REST架构似乎正在冉冉升起),抽象模型能成为它目前所倡导的Web3.0的核心吗?现 在好像还没有一点影子。
  4. 人们本来指望应用纲要(Application Profile)是一种松散的联合,在此基础上制订的应用纲要的机读版有多少可行性难免让人有所疑虑。

目前Web2.0的应用无一不是建立在对互联网资源的描述、挖掘并提供丰富的链接语义的基础之上,这一轮发展中可以说W3C/DCMI已经缺席了,下一阶 段如果不能尽快搞一些示范性应用,以及推出一些平台工具,甚至修订推出一些进入门槛更低一些的规范,很可能又会被应用的浪潮抛在后面,技术上再先进也无济 于事。

近期国内元数据界又热闹了起来,年内要进行四次全国范围的巡回培训,这当然是好事,便于推广应用前几年科技部元数据项目所取得的成果,但是时机可能稍嫌早 了一些,标准规范的应用维护机制并没有建立起来,不管是民间或者政府的配套管理措施都还付之阙如,平台工具等都还没有影子(并没有企业或者高校在这方面真 正有所动作),培训的效果会大打折扣的。

前两天Leon给了我一本书,是北大肖珑副馆长和Leon共同编撰的《中文元数据概论与实例》,虽然定价有点贵(60元/当当网51元),但却是非常值得拥有 的、代表当前国内元数据领域研究水平的一本书。印数似乎不多,大家快去抢购吧。好话我就不多说了,对我来说,唯一的遗憾是没有包含一些国际上元数据研究和应用 的一些最新成果,可能与这本书定位于两位主编领衔参与的科技部专门元数据项目成果总结有关吧,我们也不好太过于苛求了。总之,衷心祝贺这本书的诞生!

也谈如何让MARC安乐死

星期四, 4月 5th, 2007

耄耋少年陈老师在博客中谈及”如何使MARC安乐死“,图情散记在前些日子也论述了”后MARC时代图书馆信息服务的设想“,都提出了一些很好的想法,我这里也想提一点自己的看法,求教于大家。

1、想以一种新的MARC取代旧的MARC是不现实和不足取的,也是不可能的*;
2、在分布式异构环境(说白了即因特网环境)下,多种元数据方式并存是必然的和必需的;
3、元数据方案的标准化并非必需,除非需要与外界进行数据交换或共享(即互操作);
4、MARC只有在所有系统都支持,但又不依赖时才能死的安乐,死得其所;
5、使多种元数据方式在同一系统中并存的解决方案有很多,建立描述对象的属性关系模型是最基本和最可靠的,这个模型实际上是作为一种本体提供服务;
6、元数据方案的标准化不仅仅是属性元素集的标准化,也包括语法和结构的标准化,但更重要的是描述模型的标准化;
7、标准化并非是刚性的、绝对的,可以有不同级别和层次;
8、DC元数据早已不是仅仅包含一套描述元素(更不是15个)的方案,而是一套规范体系,其”应用纲要(Application)”和”抽象模型”的意义远大于元数据核心集合;
9、未来的MARC将是一套元数据描述从语义到语法结构到模型及著录规范和算法的完整体系,这套体系是固化在网络应用的人机界面中,无需用户和任何非专业人士掌握和直接面对的。

*当然,作为一种”图书馆书目”领域应用而言,目前可以作为MARC的替代有很多, 例如MARCXML,MODS等,这些标准可以作为很好的过渡,难以创造MARC昔日的辉煌。将来的ILS系统采用哪一种标准作为替代,目前还看不出来,可能要等RDA来下结论吧,也可能永远没有结论,维持一段战国纷争的时代。眼下最关键的问题,还是解决多标准互融的框架结构和模型的一致性和规范化问题。这个问题有共识了,领域标准让大家自己制定,在应用中形成,多几个都无所谓。

也谈如何让MARC安乐死

星期四, 4月 5th, 2007

耄耋少年陈老师在博客中谈及”如何使MARC安乐死“,图情散记在前些日子也论述了”后MARC时代图书馆信息服务的设想“,都提出了一些很好的想法,我这里也想提一点自己的看法,求教于大家。

1、想以一种新的MARC取代旧的MARC是不现实和不足取的,也是不可能的;
2、在分布式异构环境(说白了即因特网环境)下,多种元数据方式并存是必然的和必需的;
3、元数据方案的标准化并非必需,除非需要与外界进行数据交换或共享(即互操作);
4、MARC只有在所有系统都支持,但又不依赖时才能死的安乐,死得其所;
5、使多种元数据方式在同一系统中并存的解决方案有很多,建立描述对象的属性关系模型是最基本和最可靠的,这个模型实际上是作为一种本体提供服务;
6、元数据方案的标准化不仅仅是属性元素集的标准化,也包括语法和结构的标准化,但更重要的是描述模型的标准化;
7、标准化并非是刚性的、绝对的,可以有不同级别和层次;
8、未来的MARC将是一套元数据描述从语义到语法结构到模型及著录规范和算法的完整体系,这套体系是固化在网络应用的人机界面中,无需用户和任何非专业人士掌握和直接面对的。

Powered by ScribeFire.

DC-2007征文启事

星期一, 2月 26th, 2007

今年的国际都柏林核心元数据年会(DC-2007)将于8月27-31日在新加坡召开,会议的主题是”应用纲要:理论与实践”(Application Profiles: Theory and Practice)。征文将于4月2日结束,估计还会延长两周左右。录用通知会在6月之后陆续发出,7月2日必须提交最终排版稿(Camera-ready copy)。

本次新加坡年会是自2001年以来的系列国际会议的第七届,其中2004年的第四届年会在上海举办。去年墨西哥举办的年会吸引了来自25个国家和地区的234名代表。去年会议的详细情况介绍参见这里

应用纲要的提出是元数据应用研究的一个里程碑式的重要成果,是元数据研究从理论探讨到应用实践的桥梁,不恰当的比喻:相当于MARC格式与AACR2著录规则之间的关系(如果您能够指出”不恰当”之所在,您就一定是元数据高手,不需要看我的博文,直接写论文投稿罢)。

应用纲要的价值在于融合和复用来自于不同元数据标准的术语,在一个共同的抽象模型中达到语义互操作。2003年曾推出关于元数据应用纲要的描述指南:欧洲标准CWA14855,一定程度上规定了元数据方案的规范描述格式,但是离开系统严格的、供计算机识别和处理的形式化规范尚有一定距离。元数据应用纲要目前已获得许多学科和领域的支持,相信今年的会议通过这一主题的交流和探讨,能进一步推动元数据应用纲要达成共识,推进其标准化进程。

本次年会也接受其它任何有关元数据主题的论文投稿,包括但不限于以下主题:

+ Accessibility
+ Business Models for Metadata
+ Conceptual Models
+ Cross-domain Processes (e.g., Recordkeeping, Preservation,
Institutional Repositories)
+ Domain Metadata (e.g., Commerce, Corporate/Enterprise,
Cultural Heritage Institutions (Museums, Libaries, and
Archives), Education, Geo-Spatial, Government, Social Spaces)
+ Metadata Generation Processes (e.g., Human, Automatic, and
Hybrid)
+ Metadata Harvesting
+ Multilingual Issues
+ Interoperability
+ Knowledge Organization Systems (e.g., Ontologies, Taxonomies,
and Thesauri)
+ Localization and Internationalization
+ Normalization and Crosswalks
+ Quality and Evaluation
+ Registries and Registry Services
+ Search Engines and Metadata
+ Social Tagging

征文分研究论文(full paper)和项目报告(project report)两类,具体要求详见这里。投稿论文可通过DC会议录网站以作者身份注册后进行电子提交。

powered by performancing firefox

我所需要的元数据服务

星期四, 1月 18th, 2007

metadataservices

metadatallinonekeven上传于Yupoo.

元数据应用平台的开发需求

星期六, 1月 6th, 2007

华为的朋友在我的博客上留言,要开发一个元数据应用系统,关于互联网或者电信网内容(资源)管理:

内容包括文本,图片,音视频,多媒体等网络资源。
期望通过对内容进行结构化的描述,例如元数据,然后发布,实现对内容或者资源进行检索,依据内容之间的相关性进行聚合,以及统一的访问机制等.

目前大致的思路是,先基于RDF/DC元数据等技术,建立一个简单的资源管理与控制平台,把资源(应该是由URI所确定的)按照某些元信息或是简单的标签进行描述,然后注册在某个地方,然后以此为基础研究对资源的聚类,搜索,资源之间的关联,Web服务对资源的调用访问,资源与服务的匹配关系等等。

对这样一个系统,希望大家出出主意。

首先明确需求如下:

1、资源对象:来自网络(提供URI);
2、资源类型:任意(文本、图片、音视频等);
3、资源描述:规范的元数据(如DC),以RDF编码;
4、应用需求:搜索、聚类、关联;
5、访问方式:开放,支持Web服务。

我们参考原型法来考虑问题:满足上述需求的应用,应该有两类现有应用可作参考:

资源导航门户:

1、资源对象:各类网站、网页(可通过URL链接);
2、资源类型:网页,可能会有pdf等文件;
3、资源描述:专业人员加工的元数据(很多应用了DC,但不一定以RDF编码);
4、应用需求:提供搜索、浏览功能,以及人工的分类(聚类)、(主题)关联;
5、访问方式:开放访问,但不一定支持Web服务,但有这种趋势,例如可能支持SRU/W的REST访问等。

个人知识管理(网摘)系统(如365key、Zotero、PiggyBank等):

1、资源对象:网页或网上的任何资源(提供URL或能够被一定服务解析的DOI/OpenURL等);
2、资源类型:任意(文本、图片、音视频等);
3、资源描述:任何规范的元数据(如DC、微格式)或不规范的元数据(如Tag),以XML/RDF或自定义形式编码;
4、应用需求:标注annotation、存档(在线或离线)、搜索、获取、聚类(多种算法、相关反馈或纯粹人工)、关联(规范控制);
5、访问方式:本地、圈内(可定义)、开放,支持或不支持开放API,提供或不提供基于标准或非标准的Web服务。

针对您的需求描述需要进一步澄清的问题:

1、您需要上述哪些功能?
2、您需要开发的是应用型系统(上述第一种为主)还是工具型系统(上述第二种),或者在开发应用的同时开发一些工具?
3、您的系统开发工具和运行平台怎样考虑?纯开源还是商业应用?纯网络实现(Ajax)还是可以有C/S参与?
4、您希望支持各类”标准”,支持到什么程度?(例如元数据格式的类型–包括数据存储和交换的考虑、流程的耦合程度–即各模块的封装程度、服务标准的支持–如何注册、搜寻、发布服务等)