一旦网络崩溃…
星期五, 7月 27th, 2007“Web崩溃造成所有数据遗失…”这则新闻也确实像那么回事!
“Web崩溃造成所有数据遗失…”这则新闻也确实像那么回事!
美国ALA2007年会上,LITA标准组(LITA Standards Interest Group)召开了一个数字图书馆元数据应用的专题分会,会上的演讲PPT已经上网(感谢美国国会图书馆Rebecca S. Guenther提供消息),参见这里 。主要内容如下:
许多东西值得我们国内元数据应用借鉴、学习。
上周在”书商为什么不用图书分类法“讨论了传统的图书馆分类法不适用的原因。其实除了书店之外,对于网络环境中的数字资源,传统的分类法或者主题法也大有改进的必要。
记得在以前的博文中曾说过,元数据实际上是原物的某一个侧面的指代物:一个替身或化身,如果把分类体系看成一张知识的大网,每本书赋予一个分类号,在这张大网中就找到了这本书的一个位置,也就是一个指代。主题词也是这样,标签也是这样。之所以要找一个替身,根本原因在于被代表的资源是实物载体,不可能被实际放在某个位置,又同时出现在另一个位置。
而数字资源就有所不同了,可以方便地拷贝、挪移,可以同时出现在各个知识体系中,不需要”替身”,自己就可以走来走去。并且可以通过”计算”,将整个数字对象作为一个整体,而不抽取任何只表达局部的片面的”关键词”,来赋予一个数字对象一个唯一的向量值,代表这个数字对象的属性,进行特征匹配。
因此,在一个知识库中,按照多个不同的知识体系组织所有的知识单元是完全可行的和必要的,以此来看,一个图书馆的图书分类法为什么只能用一种呢?主题词为什么也只能用一种呢?为什么不能同时用多种知识组织方式安排整个馆藏呢?这实际上是OPAC2.0本质的与众不同之处。
那天在武汉与图创演示InterLib的王先生谈到ILS对多个知识组织体系的同时支持问题,他似乎还没有完全明白我的意思。
这当然会造成我们的自动化系统的不适应,以及MARC格式的不适应。这也是我们要从根本上改变MARC格式和图书馆自动化系统的原因之一。
Karen Schneider的这篇文章 给了我们两个正在变革的实例:亚利桑那州Maricopa 县图书馆
和凤凰城公共图书馆,当然还没有上述那么超前的变革,但是已经开是一种大胆变革了:从废弃杜威分类法,采用书商的主题标目BISAC开始。令人奇怪的是ALA的官方网站居然也对这种异端邪说大开绿灯,而且后面的30多个留言中大多数表示了支持,并且有许多发人深省的讨论。看来(美国的)图书馆界也并不保守,(美国的)图书馆员很有一种开放和追求变革的心态。
元数据也搞了这许多年了,虽说应用成果不多,知识倒是学了不少。前一阵耄耋少年陈先生希望我就数字出版的元数据方案制定工作谈一点想法,不揣浅陋,在此谈一些初步想法,以期抛砖引玉。 元数据是关于数据的数据。任何元数据方案,首先要弄清楚它是关于”谁”的数据,这是”革命”的首要问题。数字出版物的元数据,首先需要界定什么是数字出版物(从内容、形态等各方面,以及描述的对象是不是复合对象,如何组成等),才能明确元数据的描述对象。目前出版界似乎只想到按照传统出版物角度进行界定,仅仅考虑(数字)图书和期刊,恐怕会有很大的局限性。
这里试着从我国出版行业的主管部门的角度给出一个”数字出版物”的定义:
[具有出版资质的单位(出版社)]以数字(指内容)或电子媒体
1、界定主要的数字出版物类型;什么是数字
/电子图书?什么是数字/电子期刊?还有哪些其他类型? (例如课件、电子地图、游戏、软件甚至网站、资源集合等等算不算 ?) 2、考察元数据规范的功能需求:为什么要制订元数据方案
?制订了元数据方案是不是想解决的问题都能解决?还有哪些需求是 元数据方案所不能解决的,需要其它的规范(如编码规范、协议规范 )来解决? 3、所涉及的数字出版物对象的各类属性分析,结合功能需求
,详细考察哪些属性应该被纳入,哪些暂缓,为什么? 4、如果简单的元数据方案不敷使用,考察是否需要建立扩展机制和
应用模型,以体现元数据方案一定程度上的灵活性和可扩展性。 5、是否能建立一个数字出版物的概念模型和描述模型
?通过它来定义标准的书目记录以及各种转换方法。
我们的出版标准大多把注意力放在出版物的具体格式(如PDF)上了,当然具体格式不是不重要,pdf已经成为一种开放的国际标准
年初听说要进行大规模的元数据培训,感到似乎还不成熟,为时过早,最近耄耋少年陈老师要我写一些对出版界制订元数据方案的想法,联想到对目前元数据标准规范项目的一些想法,在此不揣浅陋,把自己的想法抛出,请砖家猛砸。
我们现在制定元数据方案,最大的问题还是出发点的问题:给谁用?给机器用还是给人用?
现在的元数据方法与传统的编目规则最大的不同在于,元数据方法的成果–元数据–是真正给机器读的,这个”读”与传统MARC中的Read有质的不同, MARC还是利用机器的字符处理和匹配能力,打印卡片或者显示在屏幕上给人读,而元数据的”读”是要给网络上千千万万相互”认识”或不”认识”的机器来 读,不能读错,才能最终达到检索、利用的准确性(也就是语义互操作)。
我们”数字图书馆标准规范建设”课题制定了一大堆元数据规范(基本、专门元数据规范),实际上还主要是些元素集,把这些元素集当成完整的元数据方案方案进 行培训,说简单点有些混淆视听,说严重点有些误人子弟。应该说这个标准规范建设的课题还没有结束,它的重点应该进一步明确抽象模型和应用模型(这是需要花 大力气去做的,不是靠一两个人起草文章所能完成),在此基础上制定一系列编码方案,并且开发一些验证工具和集成环境(可以授权一些公司进行研发),再进行 推广培训。
在网络环境下,不同的应用领域采用哪些元素进行描述,实际上是一个用户自己选择的过程,元数据规范不可能面面俱到,所以元数据标准只需要定义最宽泛的核心元素(领域应用也可以制定一些领域核心),然后通过复用或自定义方式扩展所需的元素。这种方法已经得到元数据界的公认。
问题是:扩展方式如何确定?元素之间的关系如何描述?如何使计算机明确地知道你描述的属性是属于某个对象的?属性如何取值?属性值之间的关系如何定义?这 些问题都属于元数据描述的抽象模型和应用模型。这些问题不解决,元数据方案是没有办法达到”机读(机器理解)”的,元数据标准规范也是无法应用的,因此也 就是没有完成的标准规范。
由于复杂的应用环境极易造成元数据著录和编码的不一致性,开发工具和集成应用环境可以:
1、尽可能降低使用门槛,消除人们理解和使用上的障碍,使最普通的 工作人员也能过做元数据标引工作;
2、确保元数据元素之间的关系、元数据描述的抽象模型和应用模型已经被编码语言和应用环境/工具”固化”在系统中了。
这 样才能确保应用中正确实施元数据标准规范,同时减少元数据标引创建和维护人员的工作量,少死一些脑细胞。
晶晶问:数字图书馆和图书馆2.0究竟是啥关系?
自从搞上了图书馆2.0,咱也一直问个不休。
数字图书馆和图书馆2.0,两个概念都有太多的含义,要对它们进行比较,恐怕只能撮其要旨,分门别类进行探讨。
数字图书馆,一般定义为一类信息资源实体(Entity,即一定的组织、机构或集合体),通常其资源具有一定规模,其组织有一定秩序,且具有一定服务功能。 从技术的角度可以认为凡是上述”实体”所需要的技术,都属于数字图书馆技术。当然也有人不同意这种说法,有”核心技术”和”非核心技术”之分。
图 书馆2.0,”官方”定义为”Web2.0的技术或服务在图书馆信息服务中的应用”。Web2.0本来就是个大杂烩,造成图书馆2.0也是一锅什锦菜。你 可以从各个角度去认识它,认为它是一种理念、精神、技术、服务甚至资源。如果你愿意从服务的角度考察数字图书馆,认为一切数图技术或者数图建设目的都是为 了提供服务,那么这就很接近图书馆2.0了。
图书馆2.0的兴起可以说在一定程度上改变了数字图书馆的发展方向。图书馆2.0中所涉及到 的许多技术、理念都属于数字图书馆范畴,虽然大多集中于表现层和应用层,而不是架构层、存储曾或者互操作层的东西,但这些东西却是前所未有的,能够极大地 刺激数字图书馆的建设,丰富数字图书馆的应用,从而在一定程度上主导数字图书馆的发展。
具体说来,2.0时代的数字图书馆:
1、要支持用户创建资源、描述资源、组织资源;
2、要利用集体智慧,进行信息过滤,提供智能化的服务;
3、无所不在的微内容(数字图书馆的逻辑组成:数字对象);
4、无所不在的静态和动态本体,用于信息的结构化和”语义化”;
5、更加分布的服务,更加松散的应用耦合(mashup);
……
这些原本都是数字图书馆的内容,Web2.0带来了明确的进展。
当然数字图书馆是一个比图书馆2.0宽泛得多的概念,虽然它并不能完全包容后者(他们之间有一个交集),但却是一个比较恒定的概念,被党和国家领导人定性为”代表了图书馆的发展方向”。
最近纽约时报的一篇文章引起了很多图书馆员的不满和热烈讨论。这篇文章把图书馆不用杜威分类法作为一种创新,Karen Coyle在回答网上书店为什么不用图书分类法时说:
Books are supposed to LEAVE a bookstore, not stay on a shelf. So the individual item (the book) is transitory. How would you determine the level of classification detail needed from the context of a constantly changing collection? …… You’d have glaring gaps, and even more unevenness in terms of level of coverage of topics in a bookstore than you have in a library. Under those circumstances, classification beyond the broad headings of the bookstore just might not be useful.
书店的图书是要”离开”的,书架只是暂时的存放地。谁会认为一个详细的分类号对于一个不断变化的馆藏会有用呢?……应该看到它们之间的不同,只要想一下书店和图书馆的图书在主题的覆盖范围方面的差别,就能明白这样的指责是不公平的。在这种情况下,[作为知识分类的综合性]图书分类法对于缺乏广泛主题覆盖的书店可能用处并不大。
仅仅把不用杜威分类法就作为一种创新,可能并不能以理服人。但是许多图书馆员对这种廉价的”叛逆”从情感上强烈排斥,似乎也多半出于”职业性”。试想一下,分类法对于小书店毫无用处还可以理解,对于像Amazon这样的网上书店,其数据库比许多图书馆馆藏还多得多,它的”库存”难道不是一个还算完整的”知识库”吗?固然它的图书也是为了”离开”的,但是记录是保存的,甚至电子版原文是”永久保存”的(相对于一个企业的生命周期而言),它为什么不用传统的分类法?
关于电子出版与图书馆的知识组织,这里面还有许多东西值得研究。
孙卫老师在最近万方的数字图书馆讲座中专门介绍了NISO,正好上个月看到一篇介绍NISO近况的博文,当时让我吃惊不小:
NISO目前有3名全职人员,十几位咨询专家作为”虚拟职员”,300多位志愿者参与各类标准化活动。该机构有82位投票委员,27和图书馆标准 联盟会员,以及13个认定的维护机构。2006年创收71.4万美元(该组织应该是非营利机构),其中80%的收入来自会费,20%来自举办会议和出版,另外来 自各种基金会(如梅隆基金会等)捐赠也是一种形式。
与我想象中代表国家的”标准化组织”相去甚远。不知道我们的国标局TC4是如何运作的(好像本人N年前也是成员呢!)。
NISO实际上是很低调务实的。 在信息技术应用相关领域并没有庞大的标准化计划,它似乎只抓重点热点,颁布的技术标准不能说完整、系统,甚至连不重复都做不到,但是你决不能忽视它的地位和作用。由于与ISO的特殊关系(类似于ISO的美国代表),他的标准甚至就是国际标准。
它的务实的作风与美国人并不神话标准有关。你有用且有人用你才是标准,否则你再叫嚷再培训都没有用。NISO为了彰显自己的作用,近年来通过组织架构和工作重心与流程方面的变革来加快标准的制定、革新标准化工作内容,例如它制定了许多”准标准”文档(例如最佳实践、技术白皮书等),开发测评与检验工具,以及利用Wiki提供”活”文档的讨论、更新和发布等等。
Update: 远洋过客老师在帖子后面做了重要补充,然后本人又进行了一番议论(作愤青语)。 为了让订阅rss的同学能看到更新情况,我把评论移到这里:
远洋过客 Said on 7月 17th, 2007 at 12:32 下午 edit quote
最近上网很少,很高兴读到你的这篇和孙卫老总的ppt. 再补充几点:
1. 在美国有很多学会/协会和机构(比如美国情报学会,国家医学图书馆)都是NISO会员,每年要交很大一笔钱。每个学会和机构可以有一个有投票权的代表,对每个Z39标准有投票和评论的权利。The voting member一般是该学会的标准委员会主席担任,主席必须是任命的。会员中的个别成员也可以被推荐到某个Z39标准的工作组中工作(一般是没有报酬的), 或申请开始一个工作小组。ISO有关标准和议案均得到NISO一票,一般NISO会在会员中先征集意见再向ISO投票。实际上ISO很多工作都落在了 NISO后面。ISO和NISO的标准过5年就要重新投票,看是否保留,修改,或者过期。
2. 我觉得影响更大的是W3C的标准,那都是直接影响信息工作的重要文件,例如HTML, XML, RDF, RDFS, OWL, SKOS等等。W3C的会员费更贵,除了有钱的工业界机构外,民间机构很少能通过议案拿出这笔钱来参加W3C.不过个人也可以为W3C志愿工作,参加标准的制定小组等。
你如果有兴趣专门介绍标准化工作,俺一定效力,直接接通你与NISO的通话。(上届行政执行主席还专门拜托过…)keven Said on 7月 17th, 2007 at 12:58 下午 edit quote
谢谢远洋老师补充!很高兴您也是NISO的委员,是吧?
我们在标准规范的制订过程中值得总结和学习的地方有很多。我总结一下,可能有五个方面的”缺乏”:
1、国家不作为,行业又缺乏领导力量。
2、利益共同体之间不能有效合作(各搞一套甚至相互拆台);
3、缺乏真正的专家,甚至照搬照抄都做不像;
4、缺乏制度创新,迷信政府的权力(认为政府颁布就万事大吉);
5、缺乏开放精神以及民主程序的保障。
1. 彻底(准确)理解;含糊就容易出洋相(本人常犯)。
2. 标题要醒目。每个段落的中心语句也不能含混。
3. 尽量用短句子。
4. 剪辫子彻底一点,能用中文就用中文。
5. 合适的地方使用中文成语;一句顶一万句。
6. 读起来要像中文。不要成为由汉字组合成的英文句子。
陈丹青说,翻译实际上是考中文,不是外文。
到大连的演讲不想讲2.0,实际上还是离不开2.0,实际上我想讲的是图书馆2.0的商务/业务模式(Business Model)。
图书馆是一个极其特殊的行业。其信息链交织着价值链,无法单纯以经济运行规律观之,但又脱离不了经济活动的规律。 在Web2.0的大环境下,图书馆2.0似乎要承担起拯救行业的重任,但是相信这个行业可能还有99%的”相关利益者”不以为然。从这个角度,槐师所言图书馆2.0需要”经常讲、反复讲“千真万确。所幸的是我们已经有了老槐、超平、斋主这样的将帅和旗手,但我们还需要一批先行官、马前卒,才能真正推动图书馆2.0前行。
我们看到厦大、暨大、重大、上大正在积极实践,看到汇文、图创、博特、中数也在摩拳擦掌。但是我们也看到,诸多业界大腕们还在沉默,图书馆2.0还远不是主流。
但是这个行业的大玩家如果行动起来,就能保证图书馆2.0持续健康稳定地发展吗?图书馆2.0应该怎样去推行,才能如人所愿呢?这正是我这个屁屁踢试图探讨的主题。
我是学会工作的外行,然而被领导委以秘书长的重任,总在想如何努力一些,做一些学会应该做的事情。
其实学会工作不好搞,古今中外都一样。因为学会是个体的联合体,其中不可能没有政治,政治的基础是协商,方法是博弈,但更重要的,作为一个组织必须要有目 标,通过建立达到目标的规则,以及实现目标的努力,才能有东西协商、博弈,学会才有存在的价值。否则真成了古罗马长老院,一个荣誉、空谈机构,大家抢位置 坐,坐上位置却没有事干或者不愿干事,这样的组织为人不齿,也不可能长久存在。
昨天Coyle的博文 说,他不能忍受ALA一年仅两次碰头,什么具体的事情都做不成。他举了一个参与ALA”数字化与数字资源管理原则”制订的例子,涉及一个复杂的程序和过 程。这个原则文本需要经ALA一定流程的批准而成为ALA Handbook的一个正式文件,经过一些成员单位签署之后就成为一个行业推荐规范。
这个例子让我联想到前几日学会开会,王世伟理事长强调的”学会的主要任务是促进学术发展”,以及吴建中会长所作的报告《对未来专业研究的建议》。我们要抓学术,并且有那么 多的方向需要研究,那么学会能不能通过推动一些研究项目,来促进这些领域的探索,或者推广一些行业标准规范的制订、采用和实施呢?这实际上是IFLA、 ALA等通行的做法。我们的一系列元数据标准实际上目前并没有成为国家标准或者行业标准,我们是不是能够拿过来修订之后,先作为协会、学会标准呢?进一 步,我们是不是还可以组织专家进行一些认证工作,像CALIS已经做过的那样。这样联合各单位的力量,做一些对行业发展有益的事情,应该是学会协会的责 任。
当然有事可做只是第一步,如何建立起合适的运行规则,如何调动资源开展这些工作,是比找寻研究课题更困难的事情,需要业界大佬们(常务理事们应该算吧?) 在认识到重要性的基础上,积极推动了。我们学会秘书处可以作为参谋、尖兵或者耳目(传统上对情报工作者的要求),负责具体落实。