Archive for 2月, 2005

呼唤数字图书馆的“统一场”理论- -

星期一, 2月 28th, 2005

数字图书馆需要整合。不是说某一个数字图书馆的资源,或者服务需要整合,而是数字图书馆的研究内容需要整合。

记得七、八年前我们刚接触数字图书馆的时候,被其”博大精深”,或者说”混乱无序”弄得非常沮丧。除了一些零散项目、计划的举例,不知道如何认识、怎样下手。好不容易提出了”三种数字图书馆”:即来自计算机界的研究开发、来自各类机构的服务体系建设和纯粹的数字化,又觉得分类很粗,缺乏逻辑,无法反映数字图书馆内在的体系结构和本质联系。

在美国虽数字图书馆的支持接近尾声之际,似乎到来了数字图书馆总结之时( NSF 的”后数字图书馆时代”的提法颇有些对数字图书馆进行”清算”的味道,见” 鳕鱼岬会议 “博客文章。在对 2002 年以来的数次数字图书馆”峰会”(指以回顾展望为主题的管理型的工作会议,如 NSF/DELOS 的一些会议。 99 年也曾召开过一些)进行认真学习之后,突然感到数字图书馆的”学科体系”似乎已然建立,从 Fox 等人的 5S 基础理论( Leon 说 Witten调侃其 为”五行学说”)以及 SFX 的发明人 Sompel 呼吁数字图书馆基础理论建立的必要性,一直到 NSDL 、 CDL 以及 LoC 实打实的建设,以及从技术角度 Digital Library 与 Semantic Web 的联姻,并共同迎接 Cyberinfrastructure 的挑战。数字图书馆的社会性、人文性、技术性正在融合,站得高一点,打破学科之间的固有樊篱,整个图景会变得越来越清晰。本人很想就数字图书馆建立”统一场理论”作一些研究。目前可资借鉴的报告就有如下数篇(名称凭记忆列出):

当然这项研究需要理论与实践的结合,需要不同”粒度”的研究,需要技术与人文的对话。尤其重要的,是需要一个崭新的视角、宽广的视野和突破传统的勇气。这些都不是靠个人的力量所能达到的,需要一个团队,一批人共同的努力。无奈的是国内这个圈子的人太少了。


Technorati :

Michael Gorman最近有点烦- -

星期日, 2月 27th, 2005

本不想对 Michael Gorman 最近发表的观点 发表什么意见,实在没空写这个故事,而且那毕竟是美国人的事情。然而我的博客聚集器中众多的美国同行都有反应,甚至是强烈反应,他自己都意识到引起了”轩然大波”(big stir),甚至有人骂他白痴(idiot),要串联签名呼吁他下台。使我想到这可能是一个行业中一部分守旧人士的普遍问题,是我们这个学科的问题。 Gorman 作为一个国家的当选图书馆学会主席,一贯坚持图书馆的人文主义性质和信息技术的功能主义特点,然而这次好像在信息技术的功能主义道路上走得太远,对”先进生产力的代表” Google 以及 Blog 连讽刺带挖苦,几乎表现出”仇很”,以至于几乎使其晚节不保。不禁使我想到,我们是不是也有领导有这个问题?

可能国情不同,我们总是见到领导对技术敬畏有加,这应该与三个代表的教育有关,也与国情有关。近代中国的落后给我们几代人都烙下了深深印记,”师夷之长技以制夷”,领导总的素质还是不错的,即便没有很强的技术理解力,技术支持力还是有一些的,特别是现在越来越多的钱投入到了图书馆信息技术能力的提高方面,不管效率如何,以及是否好钢用在了刀口上。

然而还是有一些领导总是愚蠢地认为技术是可以用钱买到的,数字图书馆似乎只要投入,指日可待。姑且不论我们这个行业能够有多少资金投入,就算是不愁花钱,观念的落后,体制的束缚,管理的低效,也会把信息技术创造的优势消耗殆尽。 Gorman 蔑视 Blogger 们文笔粗糙,(就差说”没有文化”了),对 Google 充满疑虑和戒心,(仿佛兰开斯特为图书馆掘了坟墓, Google 又要上来推一把),但那毕竟是一个守旧的智者深思熟虑之后发表的观点,就怕我们很多 的Stakeholder 们连思考都懒得思考,或者根本就麻木不仁。我从感情上很赞同我们北京大学一个研究所最近的研究报告,说我们与美国的差距不是一点点,而是一百年!我们都知道这是在麻痹美帝国主义,然而实际上能够好多少呢?

这番议论没有任何价值,也算是完成今天写博客的任务吧。

Michael Gorman (1941– )

王美鸿 Mei-Hung Wang

E-mail: mhwang@cc.nctu.edu.tw

【摘 要】

  本文旨在介绍图书馆界编目的权威 Michael Gorman 。 文中,首先摘要简介他在图书馆事业生涯的英国书目局、美国伊利诺大学及美国加州大学三个时期的工作经历与论著。其后,综合他参与修订编目规则的经验、担任图书馆技术服务主管的经历及发表的丰富论著,发现 Michael Gorman 是一位务实的图书馆员、热忱的图书馆学的教育家、书目控制的权威及信息技术的机能主义者。

【 Abstract 】

This article introduces Mr. Michael Gorman, a well-known authority on library cataloging, an experienced editor in ISBD and AACR2, a leader in the technical services division and an enthusiastic educator in library science. As an authority on bibliographic control and a functionalist of information technology, Mr. Gorman has published numerous articles in many professional and scholarly journals.

关键词: Michael Gorman ;技术服务;编目;英美编目规则第二版

Keywords: Michael Gorman; Technical services; Cataloging; AACR2

壹、前言

  「在信息高速公路蓬勃发展下,传统的图书馆即将消失。」、「信息将以电子化的方式储存、传递 与呈现,未来的读者将使用虚拟的图书馆,因此不需再建立图书馆的馆舍了。 」、「全文检索将可取代图书馆编目的功能。」,诸如此类的说法,纷陈于市。于图书 馆界中,经常疾言厉色的反击上述的说法,并理直气壮的强调图书馆的历史传统与独特功能者,以 Michael Gorman 为最。 ( 注 1)( 注 2) 究竟是怎样的教育背景与专业经验,使他对于图书馆事业的未来发展仍旧信心十足呢﹖本文的主要目的,即是来介绍 Michael Gorman 。文中,首先介绍他在图书馆事业生涯的三个阶段,分别为:英国时期、美国伊利诺大学时期及美国加州大学时期的经历与论著。接着,综合他的论述与经验,汇整出他于当前图书馆事业的地位与贡献。文后,整理出他的著作目录及专业活动的年表,以为附录。

贰、生平

   Gorman 生于 1941 年,于 1964 年至 1966 年接受英国 Ealing School 的图书馆专业教育。他于图书馆事业的生涯,至目前为止可分为三个时期﹕第一为 1964 年至 1977 年的英国时期,主要致力于书目编目规则的编订工作﹔第二为 1977 年至 1988 年,在美国伊利诺大学时期,主要从事技术服务的行政业务﹔第三则是 1988 年迄今,于加州州立大学担任图书馆馆长。 ( 注 3) 此三时期主要的工作与论述,分别介绍于下﹕

一、英国时期 (1964-1977)

  英国时期的 Gorman ,接受了图书馆专业教育后,前后参与英国国家及国际性编目标准的制定研究。此阶段的经历与论著,分别为﹕

( 一 ) 经历

Gorman 于 1964 年进入英国的 Ealing 图书馆学校,接专业的训练。在修业期间,表现非常优异。 1965 年参加期中考试,获得全英国成绩最佳奖 (Cawthrone Prize) ﹔ 1966 年的毕业考试,其中,有两科获得最佳荣誉、两科得奖章。 Gorman 于图书馆学校毕业之后,在 1966 年至 1967 年间,参与西北技术学院图书馆学系与英国国家书目局的研究计划,从事研究助理的工作。由于此份工作,使他一生与书目控制领域,结下不解之缘。在工作一年后,他获得英国图书馆学会认可的助理图书馆员资格。接着, 1967 年至 1974 年间,他任职于英国国家书目局,前二年担任作者编目修订馆员,后三年担任编目组主任一职。 1972 年至 1974 年,他于大英图书馆规划处,担任书目顾问。在 1974 年夏,他到美国伊利诺大学香槟校区的图书馆学系,担任访问教授。于 1974 年至 1977 年,他担任了大英图书馆书目标准室主任。

在英国的这段期间, Gorman 积极参与国际性书目标准的制定,并担任重要的职位。他于 1969 年代表英国国家书目局,参加在哥本哈根举行的「国际编目专家会议」,与各国的专家代表一起探讨合作编目的可能性。随后,他即代表英国参与国际标准书目著录 (International Standard Bibliographic Description, ISBD) 的编订工作,并担任秘书长的职务。在此期间陆续完成单行本、连续性出版品、通则、非书数据及地图数据等版本的国际标准图书著录规则。 1974 年,他又参与英、美、加三国会议,讨论修订英美编目规则 (Anglo-American Cataloguing Rules, AACR) 事宜。随后, Gorman 与 Paul Winkler 被聘为编订 AACR 的编辑。 Gorman 原本就非常合适担任此任务,他长久以来在英国国家书目局从事编目标准的制定工作,再加上对 AACR 有深入的研究,又参与 ISBD 的编订。

( 二 ) 论著

于国家书目局任内,他先后完成三份研究报告。在 1968 年,曾研究 1967 年出版的英国版 AACR 里款目与标目的规则﹔在 1970 年,亦完成大英图书馆使用英美编目规则的研究报告﹔在 1971 年,编制国家书目局机读编目格式的工作手册。

他于此阶段发表的期刊论文有﹕ AACR 之评论、编撰修订 AACR2 之说明、修订 ISBD 之说明、回溯建档之步骤及编目馆员的态度等五方面,分别介绍如下﹕

1 、 AACR 之评论

Gorman 早期对于 AACR 的研究成果,除由英国图书馆学会出版之外 ( 注 4) ,同时也发表于由英国图书馆学会出版的期刊 ( 注 5) 。在此研究报告中, Gorman 首先回顾编目规则的发展﹔其次介绍 Antonio Panizzi, Charles A. Cutter 及 Seymour Lubetzky 等编目先驱者的论点﹔接着,他比照当时的编目理论及他个人的经验,评析 AACR 的著者、基本原则、人名、团体名称、政府机构、划一题名、副款目、叙述、特殊媒体及排列等项目。 Gorman 并不同意 AACR 中作者与团体作者的定义。 AACR 认为作者是一个人或团体,对该作品的制作上,于知识上或技术上有重要贡献者;但是, Gorman 认为出版技术日趋复杂,一作品经常靠许多人的贡献才能出版,因此此种作者的定义过于含糊﹔此外,与一出版品相关的团体,可能包含出版者 (published by) 、资助者 (sponsored by) 、呈献对象 (published for) , AACR 对于团体作者的定义过于简化,令人难以分辨。其它他也不同意 AACR 中对于作者的选取与表现的格式。虽然,在此研究报告中,他对 AACR 里主要作者的选定与团体作者的定义,有严苛的评述,但他也认为 AACR 的基本原则与结论中的观点,是正确且合于时宜的。整体而言, Gorman 肯定 AACR 的价值,认为它是图书馆史上的一个重要的里程碑。

2 、 AACR2 修订之说明

Gorman 在此阶段的后期,对 AACR 的研究,由评论转为建议,并直接参与修订编辑的工作。在此方面研究的具体论著,有﹕款目与标目及连续性出版品的编目规则两方面。 在承继着 Panizzi 与 Lubetzky 等人的努力之后, Gorman 认为修订 AACR 的主要目的,是来解决英语体系作者篇名目录中款目排列的问题。 AACR2 在款目的选择与标目形式方面,皆有所进展,尤其是使用团体为标目与采自然语法著录等,皆取得英美两国图书馆的共识。修订 AACR 的主要原则,除遵守 AACR 所采用的巴黎原则的精神外,另外也配合机器处理编目的发展与 ISBD 著录各类型数据的原则,来做修订。同时,他亦指出编目作业自动化后,编目的原则将有所改变,例如,主款目的重要性与选取对象均异于往昔,著者、题名和团体名称皆可以选为主款目。他相信在善用科技的发展及寻求国际的共识与合作下,图书编目将会有另一黄金的时代。 ( 注 6)

对连续性出版品的书目标准, Gorman 也曾撰文陈述他的观点。文 中,他首先指出连续性出版品的特性与连续性出版品的国际标准著录的内容。连续性出版品的编目,首要解决主款目的选择、排列顺序及刊名改变的问题。他对于连 续性出版品有其独特的见解。他认为连续性是一种状况 (condition) ,而非书目的状况 (bibliographic condition) ﹔也就是说,在叙述图书馆的数据,不论该数据是印刷、微片、或视听数据,均可将之分为完整或非完整的项目。非完整的项目即是指连续性 出版品;因此, AACR2 对连续性出版品的编目改为记述一期,即以第一期为基准,在附注项中,说明后来刊期中不同的资料。这样就可使各图书馆的数据一致,利于连续性出版品中信息的分享。 ( 注 7)

3 、修订 ISBD 之说明

ISBD 的初稿,于 1971 年完成,随后经过修改,于 1974 年发行第一标准版。同时 IFLA 也组成联合工作小组,致力于期刊著录标准化的工作,依据 ISBD(M)(Monography) 的结构,在 1974 年出版国际标准书目著录用连续性出版品 (ISBD(S)(Serials)) 的初稿,且于 1977 年完成第一标准版。 ( 注 8)

Gorman 在这一段期间内,参与各类 ISBD 的编订工作。他对从事的工作非常专注。在 1973 年, Gerald Swanson 于 Library Journal 撰文质疑美国国会图书馆采用 ISBD 的著录方式, Gorman 以 ISBD 工作小组秘书长的身分,立即响应说明 ISBD 的功能与国会图书馆应用国际性标准之适用性。 ( 注 9) 此 外,为说明 ISBD 的标点符号与规则,将会造成使用障碍的疑虑, Gorman 以实验方法进行一实证性的研究。此研究假设是,读者理解 ISBD 著录与非 ISBD 著录的书目,并没有显著的差异。实验的结果推翻其假设。经由四十多位大学生阅读不同著录方式及不同语言的目录卡片,结果发现 ISBD 的著录具有系 统化与一致性,的确有助于读者了解书目纪录。 ( 注 10)

依据多年来参与 ISBD 的订定, Gorman 于 1978 年撰文叙述 ISBD 的发展历程。他认为 ISBD 地位与功能的混淆,皆来自于其纠结的发展过程。 ISBD 既不是使用手册也不是编目规则,其主要的支助者 IFLA 更不愿称之为标准,但图书馆实务界却希望 ISBD 成为编目的规范。不过, Gorman 仍是肯定 ISBD 书目记述的项目、顺序及标点符号的标准清单等原则, AACR2 也将参照这些原则来做修订。 ( 注 11)

4 、回溯建档之步骤

Gorman 于 1976 年 夏,在伊利诺大学图书馆学系的讲习会中,依据他在大英图书馆的经验,发表专文讨论回溯建档的经济效益。回溯建档的目的,除了将源文件转为计算机文件外,最重 要的还是计算机化的系统可比人工系统提供更佳的服务。在规划回溯建档时,转文件的资料、书目的来源、书目内容的层次、书目数据的标准、输入的方式、质量控制及 人员的训练等,都须谨慎做全面性考虑。此文所提的皆是众所皆知的步骤,但是他一再的强调回溯建档不只是为回溯建档而建档。他认为在训练馆员做回溯建档工作 时,不仅要让馆员熟悉编辑、键盘、检查等技术性的技能,更须全面性的了解所使用的书目标准,以及所建立书目档案在整个自动化系统的功能;他甚至一再的强 调,回溯建档的最终目的,是提供读者更佳的服务。 ( 注 12)

5 、编目馆员的工作态度

1941 年 Andrew Osborn 曾发表” The Crisis in Cataloging “一文,引起当时图书馆界的热烈讨论。文中 Osborn 将编目馆员分为四种类别﹕遵守法规型、完美主义型、书目型及实用主义型。 Gorman 认为这样的分类已经过时,在 1975 年,他将编目馆员的类别加以修改,分为﹕颓废者 (the decadent) 、机械万能者 (the stern mechanic) 、虔信者 (the pious) 及机能主义者 (the functionalist) 。 所谓颓废者,是指编目馆员只重视目录的形式,而不关心目录的目的;只注意标点符号的位置,而不考虑目录的意义。他发现可能是图书馆学系编目课程的设计不 当,造成颓废者的增加。他认为当时最迫切的需求,不是训练更多的编目馆员,而是要让更多的馆员了解目录的内涵及目录在图书馆的重要性。所谓机械万能者,系 指认为机械可以解决所有的问题者。当时有些人以为复制的机器与计算机,可以解决目录制作的问题。 Gorman 则 认为要解决编目的问题,譬如计算机化后是否需要主款目的争议,不光是只使用计算机就可以解决,而是改变编目观念与修订编目规则,才是首要的工作。而所谓的虔信 者,系认为编目是一神圣的工作,任何人或机器都不能怀疑其业务;编目规则就如圣经一样,不可置疑。最后一类的编目员﹕机能主义者, Gorman 认为此种人才可以拯救图书馆目录的现况。机能主义者相信目录的功能,但不盲目的相信目录是全能且神圣不可侵犯﹔机能主义者将会善用现代化的机械,让目录发挥更大的功能,但不会将机械化视为唯一的目的。虽然, Cutter 在 1904 年说编目的黄金时代已过去了, Osborn 在 1941 年也指出编目的危机, Gorman 却非常的乐观,认为编目机械化、自动化后,另一编目的黄金时代将会来临。编目馆员是进步的障碍或是成功的关键,端视于编目馆员对于编目目的的了解与应用新科技的态度而定。 ( 注 13)

二、伊利诺大学时期 (1977-1988)

   Gorman 于 1977 年离开英国,应聘到美国伊利诺大学香槟校区图书馆,担任技术服务部的主任,并任教于图书馆学系。在此阶段,他关心的除书目标准的应用与发展外,更扩展至技术服务自动化、图书馆管理及图书馆教育等议题。以下藉由其经历与论著两方面,来介绍他此阶段的事迹。

   (一)、经历

1977 年至 1981 年间, Gorman 担任伊利诺大学图书馆技术服务部门的主任。该图书馆为顺应自动化的冲击,在 1981 年调整部门组织。他在 1981 年至 1988 年担任一般服务部门的主任,并在 1986 年至 1987 年间代理图书馆馆长。除担任图书馆行政工作外,他也于伊利诺大学的图书馆学系开授图书馆行政科目﹔在 1984 年及 1986 至 1988 年间,也曾至芝加哥大学图书馆学系任访问教授。由于他在分类编目领域的贡献, 1979 年 Gorman 荣获 Margaret Mann 奖。

(二)、论著

Gorman 在伊利诺大学时期的论著颇为丰富。 AACR2 的修订版于 1988 年出版。此阶段他在技术服务领域的工作与研究心得,则呈现于他主编的 Technical Services Today and Tomorrow 一书中。 ( 注 14) 此外,他亦活跃于美国的书馆专业组织,在 1983 年及 1988 年举行的第一、二届美国图书馆与信息科技学会 (The Library and Information Technology Association , LITA) 的研讨会,他负责主编会议论文集。 在期刊论文方面,他除为 American Libraries 撰写书目控制的专栏外,也在其它重要期刊上发表论著。

  他于这段期间探讨的主题,主要有﹕书目纪录标准与编目规则、连续性出版品管理、图书馆管理及图书馆教育等,兹分别介绍于下﹕

   1 、书目纪录标准与编目规则

由于他曾参与 ISBD 与 AACR2 的编订,因此他成为编目标准的阐释者。在 1978 年 AACR2 出版的同时,他特别撰文介绍 AACR2 的目的、结构及各部分的特色,是概要式了解 AACR2 必读的文章。 ( 注 15) 当时,有人认为书目自动化之后就不需有编目规则与标准时,他却认为新系统将会有新的规则。新的编目规则与标准,需要各方的合作,来全面考虑现有的 AACR2 、 MARC 、国会图书馆主题标引及排架规则等内容。他建议图书馆员不要花费太多的心思于小细节上﹔而是要有宽广的眼光,重新解释书目控制的目的与方法。 ( 注 16)

虽然,他编订了多种书目纪录的标准,但他并不墨守成规,他支持不同层次的著录方式。依据研究显示,五分之 四的目录使用者查询已知的项目,因此,对于公共图书馆或学校图书馆而言,第一层次的著录已足够。他强调其实用主义的论点 — 追求多数人的最大幸福,而不是 事事追求完美。 ( 注 17)

在 1989 年 Gorman 撰写专文回顾五十年来英美编目规则记述编目的发展。文中提及,团体作 者、划一人名标目、主款目及卡片目录,在以往有其正统的地位,由于出版形式、编目观念及目录形式的改变,其功能已异于往昔,而这些改变已呈现于 AACR2 中。以主款目的变化为例,他介绍了 Dewey 、 Cutter 等人对于主款目的定义与功能,即主款目是完整或主要的款目,通常为作者,其功能除利于分辨每一 书目单元外,也方便排片。但是利用计算机处理书目之后,展现、查询的方式呈多元化,主款目的选取与否,不再是那么重要。文后,他仍是秉持其实用主义的态度, 乐观的看待计算机化后编目规则的自然改变。 ( 注 18)

2 、连续性出版品管理

Gorman 在编订 ISBD 与 AACR2 时,连续性出版品的书目控制,有独到的看法。 1980 年起,他服务的伊利诺大学图书馆的组织架构重整,也致使他对连续性出版品的研究,扩展至期刊自动化管理及组织架构等议题,并陆续发表多篇相关的论文。他 认为连续性出版品的自动化,千万不可基于目前的直线式的记录方式,而是需要对单一的纪录,提供更多的联结。以往连续性出版品的目录,只提供有限的检索点, 因此检索的效果有限。因此,他建议在 MARC 的 700 段中,可加入与连续性出版品相关的作者、团体、变换的刊名及主题等项目以利检索,甚至可与其它数据库 相联结。他强调图书馆使用计算机,不是只将目前的工作自动化,而应该要重新考虑工作的流程,并尽量简化。他建议图书馆不要一味的顺应外界的变化,而是要主动 的做为改变的机制。 ( 注 19-23)

   3 、图书馆组织与管理

伊利诺大学图书馆于 1981 年起调整组织架构,将较具专业性的原始编目、学科书目及馆藏发展分散至各分馆处理,而将较不具专业性的一般业务与抄录编目集中处理﹔将图书馆分为一般服务处与公共服务处。一般服务处之下,设有采购、抄录编目、自动化纪录管理、流通、集中式参考服务 ( 包含有参考图书馆、询问台、档案图书馆 ) 、书库管理及装订等部门。在公共服务处之下,有 35 个以上的系所图书分馆与大学部图书馆,各分馆负责选择馆藏数据、参考服务、原始编目、书目指导及专题书目服务等业务。 Gorman 解 释此种组织架构的调整,乃是由于人力资源的经济效益、图书馆自动化及社会变迁所造成。组织重整的目的,不只是为读者提供更好的服务,同时也可提供馆员更好 的工作环境,提高其工作满意度。他本着其乐观的态度,鼓励馆员不需为自动化的冲击而感到沮丧,自动化将为馆员制造更美好的时光。 ( 注 24-26)

Gorman 掌管的一般服务处,也负责书库管理的业务。在这段期间内,他曾撰文陈述他 对于电动式密集书库的看法。由于读者有浏览书架的行为与及时取得书籍的需求,他认为密集书库比设远地的储存书库、制成微缩片、或全面电子化更具经济效益。 密集书库有书库维护、地板承重要求及不方便多人同时使用等缺点﹔但节省空间、节省经费、安全性高及方便读者使用等优点,已足以胜过缺点。 ( 注 27-28)

他对于技术服务的实际工作与研究心得,呈现于他主编的 Technical Services Today and Tomorrow 书中。 ( 注 29) 此书的内容包括采购、书目控制、书籍保存、自动化与技术服务及技术服务的行政管理。 Gorman 邀请他在伊利诺大学图书馆的同事参与撰写,他本人则负责写 序、跋及书目控制叙述编目的部分。在序言中,他首先界定了技术服务的范围,并且强调在自动化的图书馆中,技术服务将是所有图书馆活动的中枢。在书后的跋 中,他提醒技术服务部门的馆员,不宜妄自菲薄﹔技术服务的主要目的,是在有限的时间与经费之下,获取、组织、传递及流通知识与智能的载体。图书馆员不要惧 怕去学习新的技术,技术只是一种完成目的的工具,而图书馆与图书馆员的功能与存在的价值,是历久不衰的。

4 、图书馆教育

Gorman 同时担任图书馆的行政工作及图书馆学系的教职,他曾接受过英国图书馆专业训练,因此对于图书馆学的教育有其独特的见解。他认为技术服务方面的教育需要配合更多的&


Technorati :

“知识的接生婆”- -

星期六, 2月 26th, 2005

苏格拉底曾说,他是他的听众的 知识的”接生婆 “。( Socrates said he was the midwife to his listeners, i.e., be made them reflect better concerning that which they already knew and become better conscious of it. If we only knew what we know, namely,k in the use of certain words and concepts that are so subtle in application, we would be astonished at the treasures contained in our knowledge. — Immanuel Kant “Vienna Logic” )知识远比用概念、词汇和句子表达出来的要丰富的多。知识的宝藏需要挖掘。做到这一点对计算机来说将有很长的路要走。

从某种程度上来说图书馆员、教师等作的工作也是”知识接生婆”的工作,他们启迪知识、传播文明、点燃独立人格,使更多的人有尊严地生活。这其中有许多内容是机器永远无法替代的。(当然这只是从职业角度上来说的, 自己是火种才能点燃别人 ,有多少教师、图书馆员有这种职业意识?像 Dead Poets Society里的Keating,或Mona Lisa Smile里的Katherine Watson )?

计算机科学对语言的研究- -

星期六, 2月 26th, 2005

计算机科学对语言的研究(包括对自然语言和对人工语言)大致有三个路向: 语法 syntax 、 语义 semantics 、 语用 pragmatics ,语法研究语言的形态结构,语义研究语言与其所指代对象的联系,语用研究语言和其使用者之间的联系(从使用者角度、按使用者的需求对语料进行差异化)。计算机没有智能,计算机智能都是假的,是人给它安装上去的(像是变魔术,有人创造,目的在骗人,当然达到了目的:娱乐、教育、传递信息等),所以计算机语言最大的特点是形式化( Formalization ,包含规范化 Normalization 的意思),计算机语言的形式化分为语法形式化和语义形式化两个方面,形式语义学研究语义形式化,包括操作语义学、指称语义学、公理语义学和代数语义学四种。具体可参考:

另外上海师范大学物理信息学院陈仪香教授对此也有深入研究。以下对四种语义学的简介来即自陈教授”形式语义的论语理论研究进展”一文( 见下列著作第二章:陆汝钤主编,《知识科学与计算科学》.北京:清华大学出版社 ,2003)

图书馆集成系统的新需求

星期五, 2月 25th, 2005

前两年对数字时代图书馆集成系统的需求曾经想做一番调研,在馆所立了软课题而没有做。今天在Lorcan Dempsey’s blog上看到一个很好的总结,可以以此为蓝本加以完善。

http://orweblog.oclc.org/archives/000585.html


February 22, 2005

The integrated library system that isn’t

Libraries - systems and technologies, Libraries - distributed environments, Libraries - organization and services

One can read the phrase Integrated Library System (ILS) in two ways: as a system for the integrated library, or as an integrated system for the library. Although the latter is what was probably meant by the term, neither is an accurate description of what the ILS has become. In fact, it is a misleading term whose continued use is bemusing. It is clear that the ILS manages a progressively smaller part of the library activity. There has been a real shift in emphasis towards e-resource management (see the metasearch/resolver/ERM/knowledgebase suite of tools), and in some cases towards digital asset management. Libraries now manage a patchwork of systems which do not always play well together.

Think about the systems that support current library processes, and some possible directions. Items marked with ILS are typically a part of the ILS offering; those marked NILS are usually not.

Acquisitions (ILS). Libraries are part of larger organizations which ‘acquire’ a variety of materials and services, and have built enterprise systems to support this. It is likely that in many settings libraries will make more use of the generic institutional systems in the future.

Catalog (ILS). The local library catalog — let’s not use the user-unfriendly and jargonish ‘OPAC’ — is not a central part of most users’ information behavior. Users need to be able to discover items of potential interest to them and locate them in the library. The catalog does not do a great job with the former: it does not make its data work very hard. As it covers a part only of a user’s information needs, and a part only of the library collection, it may exert a progressively weaker gravitational pull on the user. More about this below.

Cataloging (ILS). Libraries have various cataloging workflows. They may acquire records from various resources, roll their own, participate in a shared cataloging environment. However, libraries are also creating metadata for other resources which may be poorly supported in their cataloging environment. They may have two workflows (their local system and a cataloging system such as Connexion from OCLC).

Circulation (ILS). This appears to be core function of the (current) ILS and it is where such systems started. However, even here there is an interesting trajectory in some environments towards group wide circuation systems. See Ohiolink for example, where the line between inter library loan and circulation becomes blurred.

Metasearch/portal (NILS). Much could be said about this intractably difficult challenge! (see here for a short and here for a long discussion of metasearch/portal activity). Some libraries are looking at wrapping a metasearch product around their various database offerings, including, in some cases, the catalog. Some libraries are putting a lot of effort into metasearch activity: it is useful, but metasearch will always be a partly broken service given the diversity of the target resource.

Resolver (NILS) The resolver is emerging as a critical part of library systems infrastructure, with the OpenURL binding resources together in various ways. The resolver moves the user from a discovered item to an instance of the item. We are likely to see OpenURLs used to tie together more systems in the future. See for example the current Google Scholar discussions, where a user might discover an item through Google and then be passed through to a resolver to locate local instances. This has been discussed in relation to articles; it could also happen with books, where the resolver talks to the catalog.

ERM/knowledgebase (NILS) A resolver or metasearch engine requires ‘intelligence’ about available collections. What is available? How do I connect to it? Under what terms and to whom is it available? Again, new services are emerging to help with this area, which may need to talk to acquistions systems and catalog.

Portable bibliography (NILS). Citation managers (Endnote, RefWorks, …) and reading lists are becoming more important. This light-weight bibliographic apparatus, a metadata bus if you like, provides interesting integration opportunities.

Digital asset management (NILS). Libraries are managing digitized local collections - maybe images from their special collections, historic newspapers, and so on. At the same time, many are looking at the systems infrastructure required to support institutional repository type services, where they provide management and disclosure services for research or learning materials produced within their institution.

Important other things Libraries may manage e-reserve systems, ILL systems, virtual reference systems, and so on. Various approaches to identity management may be in place.

So, there is a fragmented systems base, and service demands on some traditional service components are morphing as circumstances change. Here are some comments on this environment.

Thinking about collections

Reductively one can think about four collecting areas which are managed in different ‘boxes’:

  1. The Bought collection. Print books and journals, CDs, DVDs, and so on. This has been the core of the library collection and it is around this that the ILS was built. These materials are catalogued and are ‘circulated’ by the library.


  1. The licensed collection. A&I services, e-journals, and so on. These are now a major focus of investment and attention, and new systems components (metasearch/resolver/erm/knowledgebase) are being put in place to manage this. This area presents new metadata challenges in the form of data describing resources, the services through which they are made available, and the terms under which they are available.


  1. The local digitized collection

Libraries are digitizing their rare or unique materials, releasing their research and learning potential in new contexts. This activity is in the cottage industry stage. Metadata creation may be expensive. Digital asset management solutions are not quite routine yet.

  1. The managed institutional research and learning output. This is the institutional repository and learning object repository space.



The balance of investment between these collection areas is different in different libraries; but more interestingly it is probably changing within individual libraries. It is interesting to think what the relative balance between them will be in, say, ten years time, and what implications that has for systems support.

Thinking about services

One downside of this fragmented systems and collections environment is that it becomes more difficult to build services out on top of the collections. Too much effort is going into maintaining and integrating a fragmented systems infrastructure.

This becomes more of an issue as the pressure on the library to be seen to be ‘making a difference’ grows. Increasingly, the library needs to bring its services to the user within their work- or learn-flow, and be seen to be adding value to the collection of resources.

Thinking about directions

Here are some thoughts:

  • The systems environment needs to become simpler. We will see more hosted solutions, better integration options in a ‘web services’ environment, and some consolidation of supply.


  • For ILS vendors there seems to be an interesting shift away from their historic core towards e-resource management, and in some cases towards digital asset management.


  • We will see less focus on the integration of library resources with each other as an end in itself, and more on the integration of library resources with user environments (personal, learning management system, etc).


  • Following on from this, data and services need to be made available in ways which better facilitate their recombination in different user contexts. This touches on what I have called intrastructure, the applications tissue that allows us to more easily stitch together systems and services. RSS feeds, URL-based web services, bookmarklets, data import and export: these are all boundary crossing services which enable better stitching.


  • I think that we are entering a period where opportunities to centralize services and data will be looked at more seriously again, as a way of reducing cost and complexity, and of releasing resources to focus on user experience.

读Lorcan Dempsey等人的一篇报告- -

星期五, 2月 25th, 2005

OCLC 的副总裁 Lorcan Dempsey 最近完成了一篇有关元数据应用新环境文章: Metadata switch: thinking about some metadata management and knowledge organization issues in the changing research and learning landscape ( Draft Version 见: http://www.oclc.org/research/ publications/archive/2004/dempsey-mslitaguide.pdf ),不少很好的观点。

学术研究活动的模式随着网络应用的纵深发展而不断变化,图书馆对于知识的整理和元数据的应用等也必须随着环境的变化而发展。文章第一部分重点论述了 OCLC 在著名报告《 environment scanning 环境扫描》中提出的观点:我们的学术环境正在发生根本性的变化( Changing Patterns of Research and Learning )。使我想起了图书馆学基础理论中著名的几个交流论(自米哈伊洛夫的交流论到宓浩黄纯元的社会知识交流论),传统的知识交流链在 20 世纪一直发生着改变,直至信息社会,成为一个有多个角色参与的,非常复杂的流程。 LD 附了一张图示:

Lorcan Dempsey 的报告的第一部分基本上就这个图进行分析说明,并由此推出对于图书馆的需求和挑战,诸如:

由此图书馆应该做到:

文章的第二部分” OCLC 相关研究”介绍了 OCLC 近年的一些研究课题、研究成果和想法。与第一部分 OCLC 的认识相呼应:

整个第二部分队上述功能进行了详细的解释,基本利用了英美正在进行的一些项目所提出的解决方案和正在做的工作。

LD 希望上述服务尽可能以 Web Services 形式实现。他举了一个很好的用 WS 技术实现人名规范控制的例子。可以做到松散耦合,即插即用。当然如何实现,可以有多种方法,在目前的技术环境下,各有优缺点。我们就考虑是否能采用纯粹的语义万维网的形式( FOAF 架构)来实现,应该从灵活性、可扩展性上具有无比的优势,但是对传统应用的结合程度就不好说了,非互联网应用(例如我们现在的编目)是否能够集成进去,另外安全性如何?并发控制如何?数据量大了之后的可用性等等都是问题。

OCLC 目前应该说代表了图书馆界参与了信息时代的许多变革,例如与 Google 的一些合作等,他近年的表现显示了它一贯的开放、平等的理念,当然图书馆界,特别是欧洲的图书馆对它的许多大动作,以及新的理念、计划、项目等还是抱有戒心的。然而相对于信息技术应用的迅猛发展,我感到 OCLC 也有些力不从心,我们广大的图书馆如果不支持它一把,很可能我们也就一同完蛋了。虽然 OCLC 是一个 Coporation (尽管 non profit ),毕竟代表了图书馆行业,希望我们能够在数字信息时代继续争有一席之地。


Technorati : ,

论文结构参考

星期四, 2月 24th, 2005

看Jeffrey Douglas Heflin的博士毕业论文(2001年):Towards the semantic web: Knowledge Presentation in a Dynamic Distributed Environment.(导师是这个领域著名的James A. Hendler,马里兰大学计算机系)


章节

1. 引言

a) 搜索引擎缺乏什么?

b) 语义Web的其他应用(4项)

c) Web上的知识表达

d) 本文贡献

e) 本文结构

2. 背景知识

a) WWW

i. 因特网

ii. Web的发展

iii. XML

b) 知识表达

i. 语义网络与框架系统(Frame System)

ii. 一阶逻辑

iii. 本体

iv. Context逻辑

c) 演绎(deductive)数据库

d) 分布式数据库

e) 其他相关工作

3. 语义Web的逻辑基础

a) 初始方法

b) 基于本体的方法

i. 本体定义

ii. 资源定义

iii. 简单本体观点

c) 本体扩展

i. 本体扩展定义

ii. 本体扩展举例

iii. 扩展本体观点

d) 本体评价

i. 本体评价定义

ii. 本体修订举例

iii. 本体兼容

e) 本体分歧

i. 领域差异

ii. 解决本体分歧

f) 一致性

g) 扩展性

h) 语义Web查询

i) 小结

4. SHOE语言

a) 设计原理

b) 语言描述

i. 句法

ii. 基础本体

iii. 本体定义

iv. 实例命题

c) 形式语义

i. 基础知识

ii. 本体语义

iii. 实例语义

5. 应用

a) 体系结构问题

i. 本体设计

ii. 注释

iii. 查询信息

iv. 信息处理

v. 基本结构

b) SHOE软件

i. SHOE库

ii. 知识注释

iii. 运行SHOE

iv. 揭示Expose

v. SHOE知识库

vi. XSB

vii. 外观(Parka)

viii. 关系数据库管理系统

ix. SHOE搜索

c) 小结

6. 案例分析

a) 计算机系

i. 计算机系本体

ii. 注释网页

iii. 大规模置标

iv. 处理标记

v. 修订计算机系本体

vi. 小结

b) 食物安全

i. TSE本体

ii. 食物安全注释

iii. 处理注释

iv. TSE路径分析

v. 小结

7. 语义Web语言比较

a) Ontobroker

b) RDF

c) OIL

d) DAML

e) 小结

8. 结论

a) 分析

b) 未来方向

i. 用户友好工具

ii. 可扩展性

iii. 语言设计

iv. Web服务和代理通讯

v. 值得信赖的Web

c) 对于语义网络的观点


Technorati : , ,

语义万维网服务的自动发现

星期四, 2月 24th, 2005

我感兴趣的问题实际上就是Ontology based metadata services for information retrieval. 实际上是开发一个或一组智能代理,利用Semantic Web services架构解决异构系统的情报检索互操作问题。前提条件是一定的Semantic Web services架构。首先必须对这个概念解释清楚。这是个很热门的话题了实际上,一篇经典的文章见(2001年的文章,稍早一些,还没有DAML-S):http://www.daml.org/services/ieee01-KSL.pdf,一个作者是越南人,第三作者是个中国留学生,都很年轻啊!

以下主要来自(Katia Sycara, Massimo Paolucci, Anupriya Ankolekar, Naveen Srinivasan, “Automated discovery, interaction and composition of Semantic Web services”)

Web services 利用自主的代理在分布的环境中实现自动的”按需”服务,Semantic Web提供服务描述和服务接口的语义支持,目前这方面的标准正在逐步建立起来,然而多个Web service之间的协调和语义一致性是一个关键问题,目前BPEL4WS 和WSCI在这方面作了一些探索,然而最可能的途径是通过DAML-S提供解决框架。


组合多个Web services可以分为三方面的问题:

  1. “计划”Web服务之间的交互以及其提供的功能如何整合;
  2. “发现”Web服务实现的的任务;
  3. 对Web服务之间的”交互”进行有效的管理。

这三个方面是交织在一起的,计划决定了如何去发现Web服务的类型,却依赖于Web服务的实现。同样,Web服务的交互过程依赖于计划的实施,计划本身又依赖于对交互的需求。

揭示一个Web服务,系统必须提供对于Web服务所能实现功能和能力的描述机制,并且能够识别和比较不同Web服务的功能和能力的异同。另一个挑战是系统还必须支持对不同Web服务的交互的支持。

也就是说需要从语义和语法两个方面提供互操作性,而不是仅仅是目前考虑的重点–从语法上制定协议标准(例如SOAP和WSDL,利用XSD展现消息数据的结构)。语法的互操作性仅仅提供了消息交换的结构,没有提供消息内容的解释。UDDI仅仅是关于Web服务的信息库,并不包含Web服务能力的揭示。WSCI和BPEL4WS描述了多个Web服务可以组合在一起成为一个更复杂的Web服务,但是其重点放在语法的规定上,因此并不支持自动的Web服务的组合。

语义互操作因此成为Web服务协同组合的关键问题。它必须:

  1. 表达和支持Web服务的任务实现(例如网上卖书或者信用卡认证等),以便通过对于Web服务功能清楚的描述和广告而实现自动发现;
  2. 表达和支持业务关系和规则(Business relations and rules);
  3. 表达和支持消息排序(message ordering);
  4. 理解消息的语义;
  5. 表达和支持使用特定Web服务的前提条件以及激活服务的效果;
  6. 允许Web服务组合成为更为复杂的服务。

Web服务可以直接在语义Web基础上直接建立,后者为Web提供了内容语义,能够被代理或者其他服务获取,代理能够通过严格定义的语义内容和规则进行推理,由本体提供的概念模型能够很好地解释Web网页的内容。从这一点来看,语义Web为Web服务提供了其所需得的语义互操作的基础,提供了形式化的语言和本体,用以支持服务描述、消息内容的理解、业务规则,并提供了不同本体之间的联系。语义Web和Web服务互相促进:前者使Web成为一个庞大的机读数据库,后者提供机器自动使用这些数据的工具。

由此可以认为,”语义Web服务”是语义元数据、本体、形式化工具和Web服务架构的集成,是基于良好定义的语言进行语义描述的Web服务(A Semantic Web service is a Web Service whose description is in a language that has well-defined semantics)。

因此,网络计算的不确定性得到了最大程度的消除,Web服务的发现、选择、组合、沟通、激活、监测、管理、恢复和补偿都得到了最大程度的自动化和实现。特别低,语义Web服务依赖语义Web描述:

  1. 消息交换的内容;
  2. 消息交换的顺序;
  3. 消息交换的状态变化。

结果为不同服务的无缝互操作提供了基础。

利用语义Web描述Web服务有很多具体内容,包括描述Web服务的许多附加属性,例如服务质量、安全性约束等,可能最重要的是在Web服务的运行过程中的状态描述,包括其输入和前提条件,以及输出和结果等,这些是对于其功能和能力描述所必需的。

文章的第二部分讨论了DAML-S对于发现和激活语义Web服务的作用,并进一步讨论了Web服务发现的不同方法和DAML-S处理模型的形式语义。第三部分集中讨论DAML-S怎样用于Web服务能力的发现,怎样在UDDI注册系统的基础上更进一步。在第四部分介绍了DAML-S虚拟机,主要用于第二部分介绍的”DAML-S处理模型”形式语义的处理。第五部分提供了DAML-S虚拟机运行效果的评价,我们可以看到其运行并不频繁。第六部分描述了一个具体的利用DAML-S组合服务的应用。第七部分是结论。

(语义Web服务图示及说明)。

服务描述一般包括三方面内容:服务能力描述;非功能性静态参数(元数据);对该项服务负责的服务实体的描述。

服务能力描述:对于符合一定前提条件的Web服务输入产生一定的输出(返回消息),以及其间的副产品。例如一个付费新闻服务需要一个日期和信用卡帐号的输入,然后判断是否符合日期和信用卡的有效性以及信用卡没有被过度使用(超出信用额度的透支)的前提条件,所产生的输出是提交用户一个满足其日期请求的新闻网址,以及从信用卡中扣除相应的服务费用,其中可能会有非功能性静态参数(元数据)参与整个过程,例如对于新闻质量、收费标准以及新闻类别的选者和控制等。

处理过程和服务概要提供了描述Web服务的两个方面:服务概要描述服务内容和能力,而处理过程描述如何实现服务。例如Amazon的Web服务的概要描述了该网站的售书功能,而服务过程则必须详细描述为了实现卖书的过程,请求者必须首先查到他所需要的书,提供支付信息,并提供发货地址等。


Technorati : ,

关于METS用于资源集合的两个问题- -

星期四, 2月 24th, 2005

METS 网站上找了半天,还没有找到答案,先把问题记在这里:

元数据项目在编码方案方面应该参考 METS :

METS Profile:

METS profiles allow digital libraries to specify constraints that they place on METS for ingest, storage/processing or dissemination, including:


Technorati : , ,

资源集合元数据登记系统- -

星期四, 2月 24th, 2005

资源集合元数据主要是提供机器与机器之间的理解 机制,解决分布环境信息资源集合的封装、提问分发等实用的元数据形式。目前一个比较成熟的做法是利用资源集合的注册系统,作为分布信息环境中的中介,进行资源集合的揭示、管理。其中主要要解决以下问题:

  • 注册系统的协同、标准化问题。

  • “服务”的描述。

  • 资源集合的描述来自开放标准,(是否依旧可以以应用纲要形式?管理元数据等如何办?)

  • 注册系统的基本功能: XML Repository, Meta-registry, several interface including server to server (SOAP/Z39.50/OAI 等 ) ;



资源集合注册体系的功能:

资源集合注册系统包含的内容:

资源集合描述的要求:

资源集合对象的描述方案也是”应用纲要”,符合应用纲要 [1] 的要求:

要求(方法):

过程:

资源集合描述元数据基于:

资源集合对象的描述方案也是”应用纲要”,符合应用纲要 [1] 的要求:


资源集合描述的对象:

资源集合的类型

DCMI提案(2003年10月)

扩展:

资源集合描述

增加的元素如searchable元素,表示内容是否可以检索。还有一些纯粹是informational型的。

对于控制词表也做出一定的规定,例如增加usesControlledVocabulary元素。

‘dc:rights' records any copyright statement about the collection. ‘iesr:useRights' contains a statement about allowed usage of data from the collection, such as terms and conditions. ‘dcterms:accessRights' holds information about any licence requirements to access the collection.

服务描述

注册系统的管理:

每一个注册实体都需要给定一个标识符POI(PURL-based Object Identifier)

编码举例:


本文主要参考Ann Apps DC-2004的投稿文章


Technorati : , ,

"语义万维网服务(SWSI)"- -

星期四, 2月 24th, 2005

“语义万维网服务” Semantic Web Services Initiative (SWSI) 的目标是使目前的万维网技术结合相关的最新进展,得以发挥其最大潜能。

语义万维网技术

万维网协会主席 Tim Berners-Lee 认为万维网的未来是”语义万维网”–万维网向机读信息和自动服务的延伸而远远超出目前的能力。在数据、程序、网页以及其他万维网资源之上的语义呈现,将使万维网成为基于知识的万维网,使目前的服务提升到一个新的水平。通过”理解”万维网上的内容,达到更精确的过滤、分类以及检索信息资源,自动服务将在更大的范围上帮助人类实现目标。这个过程将最终实现极端丰富的知识系统以及在此基础上的特别的推理服务。这些服务将有助于我们日常生活的方方面面,像今天人们对于电力一样普遍而不可或缺。

目前的万维网只是信息的堆积而不提供信息的处理,也就是说并没有把计算机当作一种计算设备。最近围绕 UDDI, WSDL, 和 SOAP 等发展起来的新技术正在把 Web 变成一种新的水平层次上的服务。应用软件课题通过万维网而获得和执行,这个技术叫做 Web 服务。 Web 服务通过提供一种程序自动交流、发现服务的机制,从而可以大大提高万维网体系结构的潜能。因而得到众多软件开发公司的关注。 Web 服务使电脑设备连接在一起,以一种新的方式使用因特网交换和联合数据。 Web 服务技术的关键在于使用松散耦合的”随时”组合可重用软件组件的方式提供服务。这从技术和业务两方面都产生深远的影响。

Semantic Web Service 似乎又多了一个兄弟: Semantic Web enabled Web Services ,欧洲 IST 的一个项目。

相关的项目、组织或网站:

http://swws.semanticweb.org/

http://swsi.semanticweb.org/

Software can be delivered and paid for as fluid streams of services as opposed to packaged products. It is possible to achieve automatic, ad hoc interoperability between systems to accomplish organizational tasks. Examples include business application, such as automated procurement and supply chain management, but also non-commercial applications as well as military applications. Web services can be completely decentralized and distributed over the Internet and accessed by a wide variety of communications devices. Organizations can be released from the burden of complex, slow and expensive software integration and focus instead on the value of their offerings and mission critical tasks. The dynamic enterprise and dynamic value chains would become achievable and may be even mandatory for competitive advantage.


Technorati : , ,

元数据注册系统的作用- -

星期四, 2月 24th, 2005

一套元数据规范可以看成是一套规范词表,可以认为具有权威控制的功能,并构成一个独特应用领域的本体。利用数据库提供词汇的组织、管理功能,以 RDF 编码,提供友好的界面供人工查询,提供 application program interfaces ( API )供机器使用。同时可用于非 DCMI 词的注册、管理。

关于CALIS- -

星期四, 2月 24th, 2005

CALIS二期是我国最有希望的数字图书馆系统之一,可与一争的只有CAS图书馆,而后者还不具有前者广大读者群和分布式资源管理的特点。

以前学习过CALIS二期的计划,也给馆长们汇报过一次,有关资料整理存档如下。

CADLIS 十五建设的总目标:在完善九五期间 CALIS 建设成果的基础上,到 2005 年底,初步建成具有国际先进水平的、开放式的中国高等教育数字图书馆。

对此数字图书馆的描述:以系统化、数字化的学术信息资源为基础,以先进的数字图书馆技术为手段,以 CERNET 为依托,为高等院校教学、科研和重点学科建设提供高效率、全方位的文献信息保障与服务,成为经济和社会发展的重要基础设施。

十五期间的建设内容:

5 大环境系统中的三大:

1、文献服务环境

联合目录数据库、学位论文库、特色数据库、以及馆际互借系统等成果以及各类数字资源,通过对各种形态数字资源和各种资源服务方式进行多种方式的整合和自动化协同工作,建立分布式的、开放的综合文献服务环境。该环境已资助的方式向不同类型的读者提供多层次、个性化的文献检索与获取服务等。

相关子项目:

2、参考咨询环境

通过建立以共享知识库和学习中心为支撑的全国咨询台、本地咨询台等良机分布式服务体系,构建面向中国高等教育的分布式联合虚拟参考咨询环境。该环境以本地咨询台为主体,全国咨询台为支撑,实现 24/7 合作咨询服务模式,针对高校读者在使用数字图书馆中所发生的问题,咨询官员能够予以及时解答,不受时间、地点的限制。

相关子项目:分布式联合虚拟参考咨询系统(上海交大)

3、教学辅助环境

以教学参考信息和教学电子参考书为基础,构筑面向我国高等教育的教学参考辅助环境。不经提供教学参考信息和教学参考书的电子文献等一般性服务,而且集成文献服务环境和参考咨询环境的部分功能,构建面向实际教学的 E-reserve (教学参考)环境,成为现代教学的重要辅助环节。

相关子项目:高校教学参考信息管理与服务系统

4、科研辅助环境

基于网络手段和数字文献服务,构建网上学术交流和科研服务平台。结合科研特点,充分挖掘和利用 CALIS 和各个高校馆拥有的丰富数字文献资源。建立网上学术文献发布体系,实现学术成果的及时发表( E-print ),为各个学科之间科研活动的交流与合作、跨地域的协作科研提供虚拟场所,促进高校内各学科领域之间以及高校外学术界之间进一步的资源共享与协作。

相关子项目:科研服务系统

5、专业培训环境

采用远程教育和多媒体手段,建立高校图书馆专业人员的培训服务平台。采用全国中心和地区中心两级培训服务模式,开展网上培训,组织网上考试认证。使更多的图书馆专业人员能够获得及时有效的专业技术培训,使其掌握数字图书馆是第新的服务手段和服务方式。

相关子项目:分布式联合虚拟参考咨询系统

通过各类标准规范和统一接口与架构下互相联系,可分可合。

5+1 数字服务平台: + 服务支撑平台


Technorati :

情报检索与知识组织(2月25日修订)- -

星期四, 2月 24th, 2005

对于知识的认识(包括”知识组织”)在古代应该属于哲学领域,如果沾得上边,后来的图书馆学可以算是一门。图书馆学通过管理知识载体来反映知识结构,并促进知识的有效传播和利用。其中的核心内容”分类编目”堪当此任。

纸、泥板、羊皮、竹、石以及电光磁等媒介是知识的有形载体,书籍、报刊、杂志、图片、动画等是知识的媒体类型,图书馆、博物馆、大学等社会组织可算是知识的交流机构,也是知识运动国政中不可缺少的一种形式。研究知识,这些方面都值得研究。

二战以后诞生的情报学(或也可称为信息学)专注于知识的内容–信息,而把知识的躯壳留给了图书馆学。信息论走的更远,认为信息是”不确定性的减少”或”负熵”。从这一点说信息学和情报学可以分道扬镳了。二战以后的 情报学受到计算机科学发展的影响,但还是基本上从人的角度去研究情报的规律,无法对只能机械操纵符号的计算机提出任何”智能”一点的要求。人为了充分利用计算机的高速运算、大容量存储能力,以及准确性,发明了一整套情报检索技术。

从穿孔卡片开始,人类最早的计算机奴隶就叫做情报检索。一直到后来的字词索引、匹配、倒排档等等。

计算机就象是上帝给人类的一个魅力无穷的玩具,真的让人能够像上帝一样思考了(不知上帝是否会继续发笑?还是发怒?),人类依靠它,在几十年的时间里除了破解了数据的奥秘(关系型数据库技术),拓展了应用的疆域(Internet和Web技术),甚至创造了人类更加富足的信息化社会。这也再次证明了知识的力量。

目前计算机具有的能力与我们人类的需求之间的鸿沟越来越弥合。然而我们还是不得不为人机之间沟通制定一些原则和模式,这样机器才能更好地模仿人的程序处理信息和知识。元数据和知识本体都是这类工具。

我们现在研究知识组织,已经无法不受到计算机科学已有成果的影响。图书馆情报学知识域中有关信息组织(情报检索)的”话语体系”、”领域本体”必须与计算机科学相关的概念体系进行融合,才能发展。所以我们不得不用计算机科学中在知识组织方面的研究进展取代我们传统的情报检索课程内容。这两个领域的发展速度不是一个数量级的,图书馆学的知识组织能够提供计算机科学许多人文滋养,但是如果不承认计算机科学的主体地位,图书馆学的那点经验学识将会荡然无存。计算机科学的发展有如一辆无可回头的蒸汽机车,在历史的进程中摧枯拉朽、一往无前。

近期大量阅读我图书馆学的情报检索、信息组织教材和计算机科学中的知识库研究成果。

首先对张琪玉、侯汉清编的这本《情报检索语言实用教程》非常感兴趣。一本刚出炉的教材,而且是国内该领域的领衔人物的新作,老树开新花,而且书名冠以”实用”,又是武大出的,让人立刻有探个究竟的愿望。

翻开前言,原来是武大出版社委托编写的,让人感到武大对于传统的图书馆学分支学科已经后继无人了。否则恐怕不会委托早已与武大没有瓜葛的两位老人编写。

前言中还说,本书的编写目的是”减少情报语言学领域诸课程之间的重复,精简讲授内容,突出实用性”,看来传统图书馆学科面临的冲击确实不小。

重复课程大概是指”情报语言学基础”"图书分类学”"主题法导论”之类的课程,与我目前要给北大研究生班上的”信息组织”主题的课程应该有些类似。

减少了不常用的情报检索语言类型和语种、发展历史的讲授。

内容主要包括:

总的看来,体系结构还是比较严谨和全面的。(这本书值得购买收藏)

情报检索语言及情报语言学的基本问题

作者避开情报、信息、文献的概念争论,把这三者的检索和检索系统作为同一概念。也算是一大实用的认识吧。

对于文献的概念,作者没有使用国标中”记录有知识的一切载体”,而解释为:”文献是存储和传递知识、信息的主要载体,所以,利用文献成为获取知识、信息的主要途径。”逃避概念几乎有点过于随意了(捣浆糊)。

对于”情报检索”概念的解释也是非常”图书馆学”化的:”其广义是指通过建立情报检索系统来解决文献查找问题(也就是知识和信息的查找问题)的整个实践,其侠义仅指根据某种需要从情报检索系统中查找出相关文献线索(也称文献检索)或文献中相关内容(也称事实检索、数据检索或全文检索)的操作过程”。可见其感念定义中的同义反复和不严密的地方何其多。并且从计算机界的角度看这些”同类”概念有不少不必要的人为定义和偏差在其中。广义和狭义,到底如何理解?

从作者的角度而言,数字图书馆可以看成是一个情报检索系统,因为是有序的,可以通过多种途径检索的,检索结果也是经过排序输出的,用户能够满足信息需求的。

关于情报检索语言的定义也是本书中非常核心的概念。情报检索语言是根据情报检索的需要而创制的人工语言,专门用于各种手工的和计算机化的情报检索系统,表达文献主题概念和检索课题概念。他作为提供文献内容检索途径的情报检索系统的一个构成因素,在其中起到语言保障的作用。情报检索语言分为分类检索语言、主题检索语言和代码检索语言三大语系。情报检索语言的实质是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统。

作者的一个经典的理论是:情报检索与情报存储是相反过程

情报存储过程:文献的情报内容 - 经过主题分析确立主题概念 - 经过利用情报检索语言的标引过程输入到情报检索系统中。而情报检索过程是一个相反的过程,检索者的情报需要经过主题分析,得出一系列的主题概念,经过情报检索语言的标引之后,通过检索系统进行检索,最后输出检索结果。

情报检索语言的特点:

情报检索语言的基本功能:

术语与情报检索语言是应用于被应用的关系。

概念的概念:概念是事物本质属性的概括。概念的内涵是指它所指事物的本质属性的综合,即概念的含义。概念的外延是它所指的一切事物,即概念的适用范围。

概念之间的关系:

相容关系(概念的外延至少有一部分相重合)

同一关系、属种关系、交叉关系、整体与部分关系、全面与某一方面关系、外延不相排斥的并列关系。

不相容关系:

并列关系(同位关系):同一个上位概念之下的几个下位概念之间的关系;

矛盾关系:并列关系的特殊形式,外延总合等于其上位概念全部外延的两个并列概念之间的关系。如金属材料与非金属材料;

对立关系:外延总合小于其上位概念全部外延的两个并列而且相互对立的概念之间的关系。例如导电体和绝缘体;其上位概念除了这两者之外,还有半导体。

概念的划分与概括(分类)指对概念的内涵而言,内涵的扩大或缩小。

概念的分析与综合(组配)指对概念的外延而言,外延的融合或分化。


Technorati :

ADL:一个古老但可资参考的例子- -

星期四, 2月 24th, 2005

加州大学圣巴巴拉分校牵头的” Alexandria Digital Library “项目从 DLI1 就开始作,目前应该说已经基本完全结束。其中涉及到数字图书馆体系结构、分布式资源组织管理、资源集合元数据应用等都是我比较关心的,只有一项:地理信息的规范控制和管理却不是我的重点。

亚历山大数字图书馆项目在 1999 年就提出了资源集合描述元数据的各项功能,现在实际上还是沿着这条道路继续标准化,然而进展看起来并不是很大。 ADL 当初的陈述如下(见 1999 年的一篇文章: http://www.alexandria.ucsb.edu/%7Egjanee/archive/1999/jasis-paper.pdf Linda Hill etc. Collection Metadata Solutions for Digital Library Applications ):

The Alexandria Digital Library (ADL) Project has designed and implemented collection metadata for several purposes: in XML form, the collection metadata “registers” the collection with the user interface client; in HTML form, it is used for user documentation; eventually, it will be used to describe the collection to network search agents; and it is used for internal collection management, including mapping the object metadata attributes to the common search parameters of the system.

现在看起来 ADL 中的资源集合元数据有许多”不规范”的地方:即为了实现功能而”任意”添加的属性。由于其应用平台为 C/S 结构,编码虽然是 XML 格式,但是 Vocabulary 是自定义的。数字对象的描述是封装于 Bucket 中,规定了 Bucketde 的类型和结构,以及一个 Core Bucket 。

一些想法:

康奈尔、加大圣塔巴巴拉、斯坦福三个高校的 DLI2 项目与我的论文有关。涉及的主要内容有:

鳕鱼岬会议(2月25日修订)- -

星期四, 2月 24th, 2005

会议名称: Wave of the Future: NSF Post Digital Library Future Workshop ,简称 鳕鱼岬 会议

会议性质:NSF主办,邀请参加

主题: “Ubiquitous Knowledge Environments: The Cyberinfrastructure Information Ether”

地点: Wequassett Inn, Cape Cod, Chatham, Massachusetts

报告标题: Knowledge Lost in Information

参加人员:数字图书馆的父母们

网址: http://www.sis.pitt.edu/~dlwkshop/

美国现在热衷于 Cyberinfrastructure 的研究和建设,每年要投入 1 billion 经费,这是NII/DL的一个后续研究领域,去年3月在日本筑波开 DLKC04 会议时认识的米歇根大学的 Daniel E Atkins 教授是其中的重要人物 [1]


匹兹堡大学信息科学学院的一帮教授似乎对 Atkins 提出的构建 Cyberinfrastructure 的报告非常有心得,在 2003 年 5 月决定美国数字图书馆研发未来方向的鳕鱼角会议上提交了一份报告: Ubiquitous Knowledge Environments: The Cyberinfrastructure Information Ether ,一举为这次会议定下了基调。会议网站也寄放在匹兹堡大学的域名之下。

这份主旨报告,以及这次 鳕鱼岬 会议本身,似乎很清楚地表明,数字图书馆的研究重点已经转为 Ubiquitous Knowledge Environment ( UKE :无所不在的知识环境),或者说数字图书馆将为 UKE 所取代,或者说数字图书馆将以 UKE 的形式而存在。而 UKE 的存在目的是什么?大会的副标题说的很清楚:( to provide ) Cyberinfrastructure Information Ether (提供赛百基础结构的信息大气)。


查国内对于 Daniel Atkins 的 Cyberinfrastructure 报告是否有报道。查到 http://www.sunway.cn/swnews/html/2/2004-02-25/20040225100106.html 有一段:

阅读” 鳕鱼岬 “会议上专家提交的报告,一些感悟:

Carl Lagoze 认为:

NSF 倡导的数字图书馆研发开始于”前” Web 时代,因而造成了数字图书馆研究与 Web 为基础的研究有些各走各的道,并造成数字图书馆研究成果的一定的落后和不合时宜。然而具有讽刺意味的是,目前如日中天的宠儿,也是 Web 世界近来最重要的进展– Google ,最早却是来自于 DLI1 支持的一个项目; DL 研发促进了 Web 核心技术 (Java 、 XML 、 RDF 等 ) 的进展,然而这些技术没有任何一个源自 DLI 项目。

陈钦智说:

经过十余年的研发,例如 DLI1 、 DLI2 、 IDLP 等的系列项目的研发,我们取得了丰硕的成果,包括元数据和 OAI 方面的进展、全文本和机遇图像、视频的检索技术的进展等,这些项目带来了全球数字图书馆的研究开发热潮。数字图书馆的研究顺理成章地引申出 Cyber-infrastructure 的研究领域,后者广泛地包容了数字环境下人、数据、信息、工具、设施设备等复杂的联系,以及信息系统在其中的功能实现,这个领域逐渐取代了数字图书馆的研究地位。 (NSF 每年拟投入 10 亿美元进行研究 ) 。数字图书馆的研究过多地注重技术研发,虽然 DLI2 注意了这一点,然而也还是基于技术创新的。而 Cyber-infrastructure 更注重功能和实践。

数字图书馆研发的任务依旧是:

数字图书馆的研发没有带来大规模的应用,主要原因还是许多研发还是基于 R&D ,而没有将这些技术很好地整合起来。数字图书馆大踏步地进步依赖于对其相关技术、内容和用户的整合(见图示):

待续……


Technorati :

图书馆与信息门户

星期三, 2月 23rd, 2005

在”老槐也博客“上即兴就图书馆与信息门户发表了几点意见,被老