Archive for 7月, 2005

再读OCLC2003环境扫描报告

星期五, 7月 15th, 2005

清华大学图书馆的同仁们做了一件大好事,将”2003OCLC环境扫描”报告译成了中文。感谢清华馆的姜老师,我已经拿到一本,100多页,大16K,虽然不是正式出版,但是甚至比某些正式出版物印刷更加精美。据说电子版将放在OCLC官方网站上供人下载。

说它是”大好事”,因为赞同书前一段”译者的话”:”.…..认为它不仅对本馆,而且对国内图书馆及同类机构、对相关的信息服务业界同行在当前改革发展和考虑中、长期规划时,可能也具有一定的参考研究价值;……”深以为然。

我曾经写过一篇“读OCLC2003环境扫描”的笔记,但那纯粹是个人的感觉和心得,我旁征博引吴建中博士、新加坡图书馆、尼葛洛庞帝等的类似观点,却没有提到报告的内容,为什么?实际上我看过就忘了,后来又看,又忘了。感谢这次我可以看中文了,透过中文翻译,我还可以猜度清华大学诸位老师的解读,我认为这是一种很好的交流,虽然是单向的。

虽然没读透,然而报告中提到的这些观点似乎已经深入到我的骨髓了,因为我是”技术酒徒”论者。就像报告中的一位读者说这份报告”没有任何新东西,这些内容我已经全知道了”。作者的回答是:”如果我们确实看到了我们自己的发展前景的趋势,可我们已经做了什么去应对挑战呢?”是的,现在是到了该做些什么的时候了。

在”技术酒徒”看来,这是一份非常重要的报告,然而其重要性为报告被写法和大量的事实所掩盖。因为:

1、 这份报告写得很”乱”,内容庞杂,图表众多,花里胡哨,完全不合我们国内平常写图书馆研究报告的逻辑;

2、 以陈述代替论证,以事实代替结论,就像人们对DLI的评价一样,提出的问题多于昭示,留下的困惑多于激励,读时心潮澎湃,读完糊涂依旧。

因此这份报告需要解读,需要业界每个还在思索、还想思索的人,特别是影响我们这个行业发展的Stakeholder头头脑脑们都来提供他们的解读。不管解读的同一性如何,都是一种必要的学习过程,会在潜意识中影响我们的判断,作用于我们的行为,从而影响我们的事业向着一个更加理性的方向发展。这份报告无论你同不同意它的结论、喜不喜欢它的写法,它无疑是近年里、甚至可以说本世纪初图书馆界最重要的报告之一。

这篇笔记就是我的一些解读。今后可能还要经常读,反复读。

关于重要性:

重要性首先来自于这份报告产生的背景。这是一个”图书馆公司”对其生存环境的扫描,这个图书馆公司是一个行业的代表–几乎是唯一的代表,背后获得整个行业(虽然不是全部)的支持,可以说没有这个行业就没有这个公司,但是是不是没有这个公司就没有这个行业的未来呢?当然谁也没有这么说,但是应该说影响还是蛮大的。从东到西,从富到穷,这个行业由于特殊的体制困境在信息化和市场化当中的命运”危如累卵”,它比任何个体图书馆对于信息技术的侵害都具有警觉性,它也是最有能力带领这个行业合纵连横,冲出一条血路的真命天子,于是,这份报告就这么出炉了。在平和的语言和纷杂的事实罗列背后暗藏着绝地反击的玄机。当然,并不是说它已经准备好了,但是它已经开始出击,与Yahoo!/Google的合作是一种试探,DC元数据是深入未来Web应用的一根毒刺,投身于开源运动是一种积极应战的姿态……

关键词:开放性

这份报告充分揭示了图书馆行业是一个开放的行业,是容易、经常、必然不断受到社会经济文化环境影响的行业。我们研究图书馆学,却常常把它作为一个封闭的、自给自足的、神圣的、不可动摇的或者不可或缺的社会存在来研究。事实上作为一种社会功能,可能图书馆会恒久存在下去,然而作为一种社会制度下的组织机构形态,未必。这份报告以一种开放的角度,通过大量的访谈形式,再一次昭示了这一点:需求以及需求的形态将左右事业的形态。这种变化已经通过技术的力量、社会习惯的改变、决策者的认识影响到了我们事业的根本–投入。我们不是一个自给自足的事业,我们必须随着社会需求和习惯的改变而改变,我们更易受到挑战的冲击,却又没有向企业那样迎接挑战的自主性和竞争力。如果我们在社会中的角色如果发展成为盲肠或者多余的手指头,命运就可想而知了。

关键词:普遍联系

这份报告同时揭示了图书馆行业与出版、媒体、计算机、公共服务、网上娱乐等行业的千丝万缕的联系,有时甚至难以有明确的边界。传统图书馆学常常以图书馆的围墙作为图书馆学的边界,所幸的是这种认识已经早就被打破了。然而这种认识还有一是无意识地影响着我们,对于将来图书馆形态的”虚拟性”我们恐怕还没有足够的认识。信息技术使得企业的形态都要向 “虚拟企业”发展了,更何况图书馆!而我们却并没有充分认识到这一点,比如我们在图书馆的布局、服务的设置、业务流程的安排、读者对象的规定等方面,都拒绝看到这一点。这将影响到我们行业的生存能力。

(未完待续)

- 评论人:zhengxh 2005-08-26 11:40:54  

深有同感,这本书需要不断解读,取出精华.

另:关于中译本的文摘版将公布于OCLC网页,而非中文全文.

- 评论人:平林新月 2005-07-18 16:32:28  

有K先生点评,每次都不至于让我入宝山而空回。
有时候,知识水平不到,即使资料在那里,也无法读出个道道来。特别是K先生上次对杭州培训的点评,好多我没注意到。这里一并致谢。

- 评论人:享受 2005-07-15 17:32:58  

听说 K先生要进行”保先”教育,连休息日也要学习,所以桂林去不成了。也好,偶可以天天享受数字图书馆学的大餐了。

- 评论人:而立 2005-07-15 09:32:10  

等待下期。

- 评论人:图谋 2005-07-15 09:23:55 图谋的博客  

真佩服keven先生,读东西如此深入。


Technorati : , ,

张晓林:只有元数据能救数字图书馆?

星期四, 7月 14th, 2005

2004年10月在上海召开的DC2004国际元数据会议上,中科院文献情报中心主任张晓林教授作为第一位主题报告的演讲者,作了题为《Driving Digital Libraries Forward by Metadata Development》的主旨发言,发言中系统阐述了他牵头的科技部科技基础条件平台工作重点项目”我国数字图书馆标准与规范项目(Chinese Digital Library Standards,简称CDLS)”的背景、意义、作用和预期取得的成果。张晓林教授在图书馆学和情报学领域有着全面的训练和造诣,但是他近年来更多地是以一个”技术驱动论”者的形象出现,大量丰富的著述和演讲集中在数字图书馆和元数据领域。此次演讲也是他近年来思索的一个集中反映。

在张晓林教授看来,数字图书馆存在于分布、异构、动态的网络环境中,必须依据一定的原则进行建设才能确保其可获得、可互操作及可持续发展,这些原则就是”模块化”、”开放集成”、”开放服务”以及”可伸缩可扩展”。依据这些原则,张教授提出一个与5S模型完全不同的”数字资源生命周期模型”(如图三所示),虽然没有在其中明确定义”数字图书馆”的边界,但对于这样一种”开放”的认识,所有的相关部分都是数字图书馆的领域范围,而且张教授认为,这个模型也提供了数字图书馆标准规范建设的一个框架,基于对这个模型的所有实体及其相互关系的描述而实现的丰富多彩的功能,是驱动数字图书馆建设和发展的核心内容,因此”以数字图书馆的标准规范建设(主要是元数据标准规范)来促进数字图书馆的建设和发展”是一条必须的和可行的道路。


图示:数字资源的生命周期模型

完整全面的标准规范对于数字图书馆建设无疑具有非常重要的意义。然而应该说在目前我国数字图书馆建设所面临的”技术”、”法规”和”模式”三大难题当中,技术因素是比较容易解决和相对次要的。而且仅就技术问题而言,不同的模型所提供的视角不同,所归纳整理的问题也不同,特别对于发展迅速的IT应用来说,标准规范实在只是个相对的、应该退居后台的东西。在这里需要说明的是,张晓林教授从来没有说过诸如”只有元数据能救数字图书馆”的话,这个标题,只是对目前国内”数字图书馆界”重技术而不重应用的一种反思和忧虑。目前国内数字图书馆应用真正需要的,是集成了各类标准规范在内的、直接面向应用的解决方案,就像DSpace、Fedora、5S系列开源软件以及Greenstone那种,甚至解决部分问题的OAI、OpenURL、LOCKSS等也可资使用,一些语义Web的杀手级应用也可望于近期能够出来。而绝不是那些号称提供”数字图书馆解决方案”的计算机公司所提供的那些混淆视听的东西。技术问题从来都不应该是图书馆员们操心的内容,但是如果图书馆员不尽早参与,数字图书馆是不会成功的,美国对DLI研发历史的反思就说明了这一点。而我们的情况正好相反:只有图书馆员关心数字图书馆。上面列举的一些数字图书馆软件和解决方案可能对我国以图书馆员为主的数字图书馆建设者们来说也还是太复杂了,这就给我们这个行业的一些Key Player们(关键人物,如张晓林教授等)提出了一个课题,应该由图书馆界来主导数字图书馆发展的潮流,提供需求,参与解决方案的研发,而不是由计算机界或者企业界主导。图书馆界需要数字图书馆标准规范,但是远远不止这些。




[i]其中文版名为《以元数据的发展促进数字图书馆的前进》,刊登在上海科技文献出版社出版的”图书馆杂志”《理论学术年刊2004》。



注:本文为已投稿文章的一部分,版权所有。


评论人:kevenlw 2005-07-16 23:07:50 

Hi “a student”,
Glad you are here and leave comments. That search engines are not metadata-friendly is not a piece of news for a long time. And also I don’t think machines will take all the human’s positions in the library, until they become their own masters instead of for the ultimate purpose of mankind. DC metadata will survive as the semantic basis for the next generation of the Web–the Semantic Web, which will be more welcomed by machines than human. So don’t worry about it.

- 评论人:A student 2005-07-16 12:19:53 

Hi all,
I am not familiar with the development of digital library in China. Comparing digital library, seach engines seems more popular for the general users currently. It is notable that most search engines do not implement metadata. They use their unique methods to retrieval information. MARC is just for librarian. How long can DC be survival?
I prefer to the roles of computer technology to the application of digital library, although I am studying library currently. Welcome any comments and discussions through either blog or private email. Thanks.

- 评论人:河边 2005-07-15 09:51:38 

原本此类讨论都当教材看。但看到Keven的最后一贴,忽然想起日前看到一份分析,说是数字出版商意识到必须把市场重心放到图书馆,强调B2B的用户发展策略。而不看好B2C的市场终端服务思路。其中的原因分析好象也没说清楚,主要是一个状况描述。若真是这样,是否意味着作为买方市场环境下的用户代表–图书馆将可能会有更大的发言权,而不是仅仅做点集体杀价的原始动作。

- 评论人:keven 2005-07-15 09:03:25 

这样说首先有一个前提假设:图书馆是数字图书馆标准规范、解决方案的用户,图书馆与数字图书馆的最终用户是一体的,图书馆代表了最终用户,起到一个中间人的角色。当然如老槐所讲,图书馆是不是能代表最终用户是有疑问的,弄不好读者就会走人,这是我们自己的问题,关起门来偷偷地说吧。
也赞同雨僧所言,但是需要强调的是,我们必须了解计算机发展到什么程度,能做些什么,才能构建好模型和框架。
过路人的说法很有见地,张或许在走一条自己的路,我此帖的目的只是想告诉大家,还有很多路可以走。

- 评论人:老槐 2005-07-15 08:43:55 

“应该由图书馆界来主导数字图书馆发展的潮流,提供需求,参与解决方案的研发,而不是由计算机界或者企业界主导。”很有道理,但目前我看到的这种应该,只是图书馆学家的”应该”而非用户的”应该”。
图书馆学家以前不是没有搞过数字图书馆,可惜搞出来的东东是不是成”主导”,不是我们说了算。搞了这么多年,真正给广大用户带来好处的数字图书馆,还是企业主导的那些,如搜索引擎、商业化的全文数字库。
图书馆学家到现在为止,其能耐还只表现在将自己库里那些资源数字化,或者将DC搞得商家不愿用。如果不在研发理念与研发机制上来一次真正的革命,也许图书馆学家难担DL主导之大任。好像不独中国,全世界都一样。一个DC搞了这么久,感觉上是越来越MARC了。

- 评论人:雨僧 2005-07-15 04:13:59 

K兄说得有道理,数字图书馆光靠计算机专家搞不好,光靠图书馆也不行。现在缺少的是像K兄和张晓林这样的人,他们精通技术同时精通图书馆应用,他们可以成为一座桥料,来沟通计算机界与图书馆界,让纯粹技术实现交给计算机专家,我们的研究重点应该在模型和框架的构建。

- 评论人:过路人 2005-07-14 20:34:45 

张的思路的确是博采众家之长,在数据采集与数据加工这一块,走的是InterSpace的路,在分布服务方面较之NDLTD更进一步,在数据保存方面吸收的是OAIS模型,对元数据的理解方面更是国内无人能比,唯一的遗憾就是张在具体的工程建设方面没有什么建树。

秦健:建立为数据库信息服务的知识网

星期三, 7月 6th, 2005

参加在杭州举办的”长三角数字图书馆技术与规范”高级研讨班的同事带回来一些ppt文件给我们学习。今天学了秦健的《建立为数据库信息服务的知识网》,并随手作了一些笔记如下(带背景色的为原文,仅摘录了认为较有启发的一些Slides)。

建立为数据库信息服务的知识网

  • 学术数据库的标引现状
  • 商业数据库的标引现状
  • 标引深度和广度对检索和结果显示的影响
  • 知识组织与表述对标引的支持
  • 利用知识组织与表述的方法丰富标引的内容


很有兴趣看看学术与商业数据库对于标引工作的不同做法。再开阔一些视野:像Google们是不屑做”标引”之类的工作的,他们最大的乐趣就是奴役机器,把机器的功能发挥到极致,现在Web2.0又发现人们的个人行为构成的群体社会性行为以及人-人、人-机交互行为能够提取许多有价值的信息,即所谓”社会性网络”,通过这种网络行为模式提取能够使机器做更多的事情,而不必所有的”标引”皆由人工来做。这样,realize the web of its full potential.


学术信息标引的主要特点:

- 传统学科分类

专业主题分类

一文标引多类

动态分类链接相关文献

- 横向主题词

规范语言

一文标引多词

动态主题词链接相关文献


学术信息为什么要这样标引?社会经济因素决定了学术研究的模式是角色分工,因而不对等,有人定规则,其他人执行规则,利用规则的产品,才是最经济的。而且学术研究对于客观理性的追求常常把东西弄得过于复杂,成本高到社会能够接受的上限。所以往往只有有钱人才能搞科学研究,而且是labour intensive的。


学术数据库标引趋势

分类和规范词标引仍然占主导地位

跨数据库检索主要利用顶层主题分类

网络技术的渗透对标引的深度和广度既有帮助更有挑战

- 灵活多样的小主题词表

- 自动标引、自动对应主题词与关键词


这是不是暂时的?还是相当长时间都会这样?可能学术数据库已经积累的大量数据,由于添加了”Value-add“的人工标引信息而显得尤为珍贵,但是将来必须利用技术手段(相关反馈等系统交互信息)而”加值”,小的词表必须采用Semantic Web的相关架构和技术,才能够更加灵活、降低成本、符合用户习惯、使系统越用越好越有粘着性。


商业数据库的标引现状

厂家、产品信息的标引

- 多面标引(Multi-faceted indexing)

- 厂家与产品之间的连接参照

检索界面与标引内容的联系

- 受网络搜索技术的影响,注重检索浏览界面的设计


许多商家的网页不仅仅作为一个数据库,而是作为商家电子商务的一个门户,这种情况下界面的设计有很多功夫用在后台,用在其核心业务流程(B2B/B2CERP/CRM等)的设计上。这里所指的仅仅是作为信息检索的商业数据库。


商业数据库标引的特点

标引的多面化:主题、地区、产品、公司、人名等

粗分类与细分类相结合

- 粗分类:利用各种专业分类表

- 细分类:主题的多面性

充分利用网络技术的优势,把多面标引和粗、细分类结合灵活应用

充分利用情报检索多年的研究成果进行全自动/半自动标引


商业数据库的体系设计与分类表的设计都遵从实用性原则。一些成熟的、优秀的商用数据库在规范控制方面的成就不亚于学术数据库,这虽然看起来成本很高,不可思议,但是将来基于Web Services的电子商务也是需要规范控制的,”信任”是Semantic Web的特点和难点,但却是必须要做的,只是做的方法可能会两样:新方法从整个体系的角度多方位地建设”信任”体系(如对于传输的控制、注册体系的建立、机构中介的认证、历史纪录考察等角度),老的方法只采用以语义规范为主的权威控制。


多面、深标引的语义支持

叙词表

双语、多语种对应词表

主题分类表

- 不同于传统的图书馆分类表

- 分类原则不是那么严格

- 以实用为原则

实用分类系统

- 侧重于概念类目之间的联系

- 基于某专业领域(domain specific)


下面讲到新方法比老方法的优点


传统知识结构的局限性

有限的概念之间关系的表述

- BT, NT, RT

有限的词语语义限制

- USED FOR, USE

无法定义数据模型,给实施系统带来很多不肯定性

- 主要靠程序设计人员在程序设计时决定如何连接不同概念

- 无一定的规律,即使在同一系统中,不同数据库的实施经常不同


利用”实用分类系统”*弥补传统知识结构的缺陷(*即我们所说的”知识本体”)

主要从两个方面来进行:

- 从不同角度来审视概念及其之间关系

- 从知识模型的角度来构造语义和数据模型

什么是实用分类系统?

- 英文:Ontology, ontologies

- 哲学上的含义:本体,本体论

- 信息技术上的含义:对某一特定领域里概念及其相关关系的规定:

知识模型构造: 概念定义、结构与类型,词语规范对应,逻辑性

实用性:数据模型,数据类型,实例

技术性:数据库,表述语言,推理规则,应用程序


对于本体的理解似乎比计算机领域宽泛些,但是又仅仅局限在”领域”应用,且只是一种抽象的概念体系及其关系,并不包含公理逻辑和实例。–看了后面的例子,感觉还是一样的。


实用分类系统的组成部分

类目(ClassConcept)

- 类名class name

- 定义definition, documentation

- 类目类型class type

特性(Property, Slot, Role)

- 特性名Name

- 特性类型Type

- 特性限制Constraint, Cardinality

- 赋值范围Domain/facets

实例Instance)

推理规则Inference rules)


最后讲了本体的构造过程。以及结论:

网络技术对数据库检索既有促进作用,也使索引数据库面临巨大的挑战

检索功能和界面的多样化灵活性都要有多样深化的标引为基础

开发编制各种专门词表并且使其能够在需要的时候合并

以及如何在专业词表的基础上构建实用分类系统

- 评论人:而立

Sat Jul 09 17:57:21 CST 2005  作者Blog


制定规则的人应该在什么程度制定规则?是在大量调查研究的基础上吗?执行操作的人在其中能起到多大的分量?谢谢先生!我以前经常拿图书馆分类法去评判商业数据库分类体系,现在看来,是很不准确且不全面的,谢谢点评!

- 评论人:平林新月

Thu Jul 07 09:02:10 CST 2005  作者Blog


经K先生点评,豁然开朗!

- 评论人:扎根

Thu Jul 07 08:46:50 CST 2005  作者Blog


K先生莫生气,免费的午餐搭配”博客手拉手”挺正常么。

Fox先生的数字图书馆5S模型

星期日, 7月 3rd, 2005


Technorati : , , , ,

关于MDA(Model Driven Architecture)

星期五, 7月 1st, 2005

前几天说到MDA,这在软件工程领域应该算一个革命性的东东,其主人OMG是在计算机界与OASIS、W3C等齐名的标准化组织,也同时是CORBA、UML的主人。MDA既是一套方法,又是一种体系架构(我更关注这个,核心问题:语义在其中是如何表达、存储、传输、实现的)。作为一种方法,沿袭了计算机发展不断抽象化、”高级”化、人性化和更加的体系无关性的方向,作为一种体系架构,包容了不同的中间件平台(J2EE、.NET、CORBA)并支持作为一种SOA的Web Services。


问题一:这么多的”先进”方法是简化了开发过程还是加大了难度?使系统更为简单还是更为复杂?从不同角度可以得出不同的结论。软件的用户与开发人员的立足点肯定是不同的,各类标准的使用在使系统具有了互操作性等许多好处之余也具有了代码冗余甚至安全隐患,MDA考虑最多的是可重用性和简化开发过程,从而降低成本。这些都是软件公司而并非最终用户所希望的,当然先进的开发方式为系统所带来的可移植性、可扩展性、健壮性等也常常是具体应用系统的”意外之得”。


MDA可以使你只关心需要实现的业务逻辑,通过为应用建模而自动生成底层架构、数据格式以及数据传输之间的连接,可以生成Web services的,CORBA的,或者.Net的,甚至当新的架构出来的时候,也可以生成相应的应用。MDA使用编译器将模型生成支持不同环境(J2EE、.Net、CORBA、COM)的数据转换、存储过程、完整性约束、数据格式等,对于Web services,MDA有从UML到SOAP和WSDL的映射。因此,采取基于模型的方法能够自动生成大量代码(不管你认为这些代码是不是很丑陋)。这真是个非常伟大的想法。但是这里又有一个问题:

问题二:模型的建立如何做到尽善尽美呢?如果模型有缺陷,岂不是互操作性、可扩展性等等又都成了一句空话?方法再好又有什么用呢?


MDA对于Web Services的支持是目前在各应用领域最被看重的。MDA宣称对Web Services的完全支持,刚刚结束了一个规范的制定,并有了一些样板应用。这个标准主要是能够从UML模型自动生成相应的WSDL定义和SOAP文件头,这的确很棒,据说OMG正在开发一整套基于Web service的东西-事务、安全、持久性,甚至管理、名字服务、目录等等,把这些抽象成UML模型,生成对应的Web service实现。目前语义Web和Web Service的许多标准因为缺少相应的工具和环境而进展很慢,让大家都很头疼。W3C实际上也是靠业界同行的力量推广其越来越复杂的标准应用,大家都捆绑在一起了。


MDA与数字图书馆什么关系?MDA提供了开发分布式应用的一个很好的方法和平台,其思想和理念正是数字图书馆所需要的,数字图书馆只不过是其海量信息管理和检索方面的一个应用罢了。特别是在体系结构方面,如果我们可以探索出几种数字图书馆的应用模型(例如Fox教授倡导了十年的5S理论模型),组件化的数字图书馆集成管理系统岂不是水到渠成?


这里有几篇关于MDA的很好的技术报告。这两年人民邮电出版社也出了两本关于MDA的书:《应用MDA》和《解析MDA》。


Technorati :