Archive for 4月, 2005

刍议数图方案

星期四, 4月 14th, 2005

偶尔冒充专家到各地参加数字图书馆方案评审、论证或咨询,总被问及有关数图建设的共性问题,这些问题常常是因地制宜的,并没有唯一正确的或者标准的答案,然而模棱两可的回答总是让人坠入五里雾中,颇感失望,因此后来我总是尽可能给一个旗帜鲜明的答复,好就是好,不好就是不好。并不是为了死撑”专家”的面子,而是感到有责任为大家打打气。

近几年许多图书馆有机会得到政府或上级部门的大力支持而获得成百上千万的投入,的确是一件非常值得高兴的事情。然而许多数字图书馆方案都只有一大堆软硬件设备,在为各地图书馆感到高兴的同时,也同时为这些图书馆捏一把汗:资源怎么办?服务如何维持?设备更新如何是好?当头头脑脑们意识到投入和社会效益不成正比的时候,图书馆再如何 “招摇撞骗”?

馆长们急切地想知道:他们的方案是否先进、可行?功能配备是否全面、合理?业务构想是否科学、有效?软硬件设置是否配套、超值?专家们大都围绕这些问题仁者见仁,智者见智,

然而最首要和关键的问题是”你为什么要建设数字图书馆?”"你希望你的数字图书馆能够做些什么?”"谁来评价你的数字图书馆?如何评价?”等等。这些问题不是任何”专家”所能回答的,而需要”当事人”们好好思考。把这些问题思考清楚了,立项就成功了一半。

剩下的事情,”专家”也只能就事论事了。


建设”以实体图书馆为基础的数字图书馆”,网络硬件设施是基础环境,但是目前的网络硬件体系架构基本上独立于应用,(应该说应用独立于网络和硬件),因而网络及硬件的方案是比较好做的。目前的情况一般都根据可能投入(标的)的多少来倒推方案。网络一般都采用千兆以太网(也有方案支持万兆网,我们的看法通常是没有必要,除非属于超大规模的图书馆),网络节点数决定了网络规模和大致的投资规模,主交换机和分布、接入交换机的配置目前可选品牌并不多,价格也比较透明。考虑到对图书馆的后续投入常常难以”计划”,在网络节点数的考虑方面留足余量是必须的。应用服务器数量和存储容量则是完全跟着应用跑的,根据预算规模,大的业务不要遗漏(图书馆自动化系统、Web服务器群、电子阅览室管理、各类数字资源/镜像服务器、多媒体音视频服务器、数字资源采集加工体系、OA及其它应用系统服务器等)考虑到一定的冗余结构即可。PC机的需求也是很容易计算出来的。

接下去对图书馆来说有两个难点:

1、 网络出口的线路租用。如果有地区性图书馆合作网络,可能还需要租用虚拟专网,用于业务联系,这一般不需要很高的带宽。但是图书馆的出口(提供来自因特网的读者访问以及馆内业务部门和电子阅览室的访问出口),根据目前大多数公共图书馆的现状,一般在10-100兆,如果不争取电信部门的特殊优惠,年费用可能高达百万元,图书馆一般是承受不了的。

2、应用系统的选择。鉴于图书馆自动化和”数字图书馆”领域没有”一致公认”的集成解决方案,目前也有一些图书馆希望能够”自行研制开发”,但这不是一个好的方案(在这里我奉劝大家千万别这么做。图书馆只是应用IT技术的单位,不能因为”数字图书馆”建设先接管了出版社,再抢了软件公司的饭碗。而且本来你可以找一群公司过过上帝的瘾,做得不好还可以骂它个狗血淋头,否则你就成了被骂的对象了)。现在确实没有一套适合中小型图书馆的,高性价比的完整解决方案,ILAS的后续版本Dilas始终没有露出真面目,然而从它的体系架构上揣摩,它已经不是什么”轻型”系统了。国外的系统在理念上还是要高出不少,但是价格实在比较昂贵。国内的系统就要走集成的方案(实际上国外的系统也是各个模块的组合),需要图书馆自己有一定的技术力量,并且选择一家熟悉图书馆业务的、有实力的集成公司。

评论人:a

Thu Apr 14 15:02:56 CST 2005 

专家在此有一说一,真希望有关数字图书馆们建设者,尤其是决策者们能够看到。由于工作关系,我也具体参与了一些工作,也一直在关注这一块的进展。在高校馆中,我认为目前这一块做的最好的是苏州大学图书馆,两点:一是能要来钱;二是要来钱能干事。要做到这两点太不容易了,方方面面的关系要平衡,还要有懂技术又懂图书情报知识的能干实事的一批人。


Technorati :

回老槐的一些想法

星期一, 4月 11th, 2005

受到老槐鼓励,同时也因为准备课件,才对信息组织作了一些思考。看到老槐回帖,仔细读了多遍,虽然有一些还不是太明白,但想根据自己的理解谈点想法,请老槐和其他朋友们继续批评指正。

如老槐所讲,我也认为信息组织完全可以包括分类主题索引编目等内容,此次没有讲编目,而完全用元数据替代,一则因为曾以为编目另有课程,二则本人对中编西编早已荒疏了,如果要讲那真是误人子弟。但编目应该算做信息组织似确凿无疑的,元数据在许多人的眼里就是”数字资源编目”。至于目录学,虽然也可将其作为统领编目、元数据的理论体系,逻辑上并无大碍,但我还是倾向于let it be的,它传统上自成体系,应用实践性的内容只是其中的一小部分,而且让它统领元数据编目在图林可能没什么,其他领域料不会买账,在理论上恐怕也会动摇传统目录学的根基,勉强自圆其说需要多费口舌。

信息化造成世间万物都需要描述,于是”元数据”渐成显学,而编目蜕变为一种元数据的”领域应用”。但是在实践中我们看到,编目的许多方法论在元数据的应用中的到了强烈的体现,北大早期的元数据方法论研究以及科技部的元数据标准规范项目中的许多文档均脱胎自传统的编目经验(例如元数据方案制定的一整套流程,以及关于”元数据著录”规则和应用方案的制定)。而我比较担心的是我们的元数据规范或者方法将因此仍然局限于狭窄的领域应用,而不能成为更为普遍的”元数据方法”。国内目前元数据应用比较成熟的还有远程教育领域(华师大和北师大牵头,祝智庭教授领衔)和国土资源环境(可持续发展)领域,我们这几个领域已呈现老死不相往来的局面,将来还有电子商务、电子政务、电子医疗等领域。科技部项目没有把这些领域纳入进来,不能说不是一个遗憾。所以这其中有对于传统的编目如何继承发扬的”度”的问题,也涉及到一门学科的将来发展和学生获得技能的适应面的问题。曾经许多门户网站很需要我们专业的毕业生,但是他们有多少”核心竞争力”是值得怀疑的。

来自计算机科学的进展无疑会给”信息组织” 带来最大的影响。我在课件中尽可能体现两方面的影响:一是计算机自动处理的趋势(多表现为对”语用信息”规律的认识,发现信息体的潜在”秩序”,并建立数学算法基础),当然也有语义信息自动处理的,如老槐所说,分类主题有许多交给机器来做了。另一方面是通过与用户各种形式的交互(相关反馈)而发现信息体在利用过程中的”秩序”,从而更好地组织信息。这两方面如果讲的过多则太过技术,讲的太少则不利于正确认识我们这个专业在信息组织中的地位作用。

搞计算机的总是一有机会想方设法让他们的宠物来代替人类。元数据的加工处理应用也是这样,到了他们手里,千方百计地发现内在的规律、”模式”,希望计算机能够自动完成,图书馆员在这方面的价值可能是为他们发现”规律”和”模式”提供试验、素材和经验。分类主题属于”语义信息”范畴,对计算机来说是比较困难的,NKOS把这些传统的图书情报的知识组织和规范控制方法介绍到计算机领域,具有一定的影响。

分类主题只是传统的编目工作的一部份–关于内容的标引(传统中好像把关于内容的描述称为标引,而关于形式的描述称为”著录”,或者”著录”包括标引?对元数据来说,好像都是to describe,即著录),在元数据方法里也同样只是一部分。元数据方法在编目的对象、原则、流程、方法方面大大扩展了,只是对于著录对象的外部属性和细节考虑部分,以及手工检索工具的制作方面,可能超出了”元数据”方法关注的范围。图情的信息组织方式可能不能说败下阵来,而是没有迅速地与时俱进。

数字图书馆的案例我主要介绍了数字图书馆的微观、宏观结构,以及内容管理、情报检索、用户特征信息(用户描述)在数字图书馆体系中的地位作用,也是想说明数字图书馆中的信息描述有不同的层次和需求,因而需要有不同的描述,以及不同的技术实现。

情报检索系统的案例我主要介绍了存储过程和查询过程中的规范控制,以及元搜索的四种方式(Z39.50及其下一代、OAIOpenURL和基于页面分析技术的资源整合,搜索引擎作为其中一个极端例子),所以老槐说的门户网站没有专门讲,但是有关资源整合的主要技术都包括在这里了。企业的知识管理没有什么特殊的理念或者技术内容,只是一个比较热门的应用领域,后来也没有空详细讲了。

汇报到此。上面内容断断续续写成,可能不太连贯,欢迎批评指正。

论人:老槐

Tue Apr 12 07:13:43 CST 2005 

K先生说读了我的”一些想法”不明白,的确,我对信息组织没有想明白。
每当与本系或外系学生谈本专业,总要讲讲专业的核心能力。这种核心能力是可清晰定位的,如外语系会说外语,计算机系的会玩计算机,中文系的会写,甚至于哲学系的会”思考”,体育系的能”保彪”,但信息管理专业会什么?我一般只讲两种知识:信息检索,能比别人更有效地获取信息;信息分析,能从别人看上去无用的信息中获取有用的信息。我很想讲信息组织,但在以前,我觉得那些知识离开了那个不怎么受毕业生欢迎的部门,就没有什么用处了。
因此,我主张在信息组织中能发掘传统图书馆和现在信息服务商们的各种活动中的某种精彩的知识,让学生们可以象说我会XXX一样为掌握这种知识或技能自豪。我相信有K先生一样的教授来研究与讲授信息组织,是可以使信息组织达到这个高度的。但在目前的体系中,我还看不出有这种功能。

- 评论人:宛然

Mon Apr 11 15:15:45 CST 2005  作者邮箱 

这几天一直在跟踪学习题目,虽然是给学生出的,但对普及和整合”信息组织”都比较有利,对实际工作有指导意义。继续…..。


Technorati :

小结“信息资源组织”

星期六, 4月 9th, 2005

这几日给研究生班上课,发现图林博客的潜水族还是很多的,一喜。但是为什么大家都只潜水不冒泡?距离产生美?看热闹?不懂。

教学相长,许多学员反馈的信息让我学了不少东西,他们大都来自图书馆一线,熟悉业务工作,知道图书馆究竟需要什么。这一点上,他们是我的老师。

同时我感到”信息资源组织”这门课程改造的必要,也深深感到图书馆学专业的理论其实可以与实际工作结合得很好。

我的课件和题库出好之后,向我的师友征询意见,有人说得比小a更厉害:”哇,你要把这帮学员整死!?”。我的初衷是把我这些年的一些研究心得:元数据方法作为信息资源组织的最一般的方法,统领分类、编目、摘要、索引、编目,不仅适合传统工作,更适合数字图书馆,不仅有理论、有介绍、有现状、有未来,更有方法、步骤、评价、比较等。要求知其然,更知其所以然。当然在课间中只是努力这样做,并没有做得很好。我的课程安排为:

  • 课程大纲、引言与课程框架和预备知识
  • 信息资源组织方法:分类法
  • 信息资源组织方法:主题法
  • 信息资源组织方法:元数据法
    • 元数据基础
    • 元数据实践
    • 元数据编码
  • 信息资源组织方法:本体方法
  • 信息组织的模型及领域应用
  • 信息组织案例:情报检索系统、数字图书馆、企业知识管理

我担心有些内容太过前沿和抽象。但当我把课程框架告知学员之后,出乎意料,他们对元数据方法的各个方面都非常感兴趣,说他们就是来学习元数据的。让我大喜过望。

如我以前的博客文章所述,我由衷感到信息资源组织的学科体系可以由”元数据方法”一统天下,传统的如图书编目,现代的如知识本体,在其中都能找到恰当的定位。如果上升到理论,就是对目录学的继承和发展。

明天就是授课的最后一天。此次准备的课程内容还是有一些遗憾,一是对这些学员要上的其他课程内容了解的不多,例如他们没有目录学或编目课程,但是有信息技术基础以及看起来很相关,却不知道什么内容的课程(我把他们的课程设置罗列如下);另一个遗憾还是我的课件准备得不十分满意,每次讲座、上课我都匆匆忙忙,过后也没有兴趣好好整理,下一次还是遗憾。猴子掰包谷,老毛病了。明天过后我的”数图笔记”可能要和”知识组织”专题暂时拜拜了(当然我会修改更新维护充实已有内容的)。感谢关注,欢迎留下宝贵意见。



北大硕士研究生进修班课程安排(仅供参考)

1)信息资源管理专论

2)元数据与信息资源组织

3)信息资源检索与利用

4)网络技术及其应用

5)数字图书馆专题

6)信息服务与用户专题

7)信息传播研究

8)图书馆评估研究

9)现代信息机构管理研究

10)图书馆法治研究

评论人:a

Tue Apr 19 20:12:20 CST 2005  作者邮箱 


回头我也下载一个啃啃。

- 评论人:candy

Tue Apr 19 12:15:38 CST 2005  作者邮箱 


在图书馆工作十多年,回头看感觉自己就像一个城外的人,听着别人的这个与那个,自己什么都不懂。心急啊,赶快报名读书。听课是幸福的,考试是痛苦。面对那么多的题目,心里的那个慌。不理解就根本无法背。可是上课明明是明白了呀,可下了课,看见了儿子就什么都不记得的(:这可怎么是好。老师的课件左看右看,心里还是那个慌,后悔那是没把老师的上课录音下来,好时不时再次临听教诲。唉…一声叹息

- 评论人:keven

Tue Apr 19 09:45:14 CST 2005 


课程讲义整理好之后我将放在网上,请告知联系方式(mail to kevenlw@gmail.com),我会通知你。

- 评论人:小荷

Tue Apr 19 09:06:52 CST 2005 


研究生进修班的讲义可以共享给我们吗?虽然现在在上研究生,但是本科却不是专门学的图书馆学,基础知识不很扎实,希望能够得到老师的帮忙,谢谢!

- 评论人:spring

Fri Apr 15 09:13:31 CST 2005 


我无意于批评先生,只是对当前的教育模式及考试方式表示无奈而已。
嘻嘻:)


- 评论人:spring

Fri Apr 15 09:08:55 CST 2005 


理解不了的东西自然是记不住的,况且又都是一些技术名词术语,什么本体,什么语义,什么纲要,其实说白了还是传统的那些东西换了个包装而已,为什么总是将容易的东西来复杂化呢?搞得高深莫测的…


- 评论人:keven

Thu Apr 14 17:05:20 CST 2005 


师者传道受业解惑也,无意作学生的敌人。如果记不住,理解就成,如果没有理解,就是老师的过错了,可以来信骂我,我会想办法补救的。最后的考试,也不过是象搜索引擎一样,对大家的学习成果排个序,即使不及格,也可能排在第一名呢!(当然这是不可能的)

- 评论人:spring

Thu Apr 14 15:50:02 CST 2005 


我也有幸在四年前参加了北大的脱产研究生进修学习,如今可算是脱离了苦海,修成”正果”。每每有朋友向我咨询,我总是先做痛苦状,然后一本正经儿地说:如果你决定选择这条路要走,这是一条不归路,要么成功要么失败,无论哪个结果,都注定要受苦的,你要做好心理准备哟。
今天在网上看到K先生的题库,只感觉浑身颤抖。
三十多岁的人,尤其是女人,(K先生是不是,你班只一男丁吧?)背东西本来就很难,况且又都是如此之多让人难以理解的东东,我只感浑身颤抖。
幸而我读的那个时候,还没有”技术救图”之论也,否则恐怕我也难以”圆满”。
:)
:)
:)

- 评论人:spring

Thu Apr 14 15:23:07 CST 2005 


在图书馆专业学习四年,图书馆工作了十年,因为要评职称,才不得不学着写点儿也算是发表了的文章,可是写来写去,总感觉到无法深入。信息技术方面只知皮毛,时尚图书馆学方面的知识也知之甚少,许多高人大作又看不懂。感觉自己真是太差太差,于是乎,急切恶补,什么元数据、什么资源组织、什么数字挖掘… 见到什么看什么,如果看来看去,还是一头雾水。突然又见KEVEN的什么”技术救图”,才豁然明白了。
都是技术惹得祸儿…

- 评论人:monsterbox

Wed Apr 13 20:27:49 CST 2005  作者邮箱 


我到觉得不用把搜索技术的进步看作是图情界的落后,SE的技术最根本还是在情报检索理论,只是借助的现代的计算机技术实现的更好.觉得如何在现在的计算机技术帮助下,能提出更有前占性的理论才是现在图情界要做的.图情教学倒是该好好改革一下了.

- 评论人:老槐

Sun Apr 10 09:32:56 CST 2005 

K先生的信息组织,是一个很好的探索。但愿以后能与图情教学圈子里搞信息组织的老师交流交流,使我国图情教育的信息组织课能上得更好一些。问过不少的毕业于各个学校的学生,信息组织的课发展几乎不能给他们留下什么印象。
信息组织与原图情中分类主题标引编目相关,先生的大纲中分类主题放着,编目完全成了元数据,这里面总是有些没想透的。分类主题应该发展到自动分类、语义识别一类技术,还有先组与后组。Gmail中的某些创意难道不可看作一种后组的”主题标引”吗?而编目知识似乎也不能完全被元数据取代,比如著录的思想。
以往图情的信息组织是一种封闭式信息的组织,或对”拥有”的自有资源的组织,网络信息组织往往要对开放式资源进行组织,或对不拥有的资源的组织。这就要求信息组织要讲组织的效率问题。图情的组织方式不是不科学,而是效率太低在网络中败下阵来的。
三个案例似乎不能尽兴。数字图书馆是一个什么都可装的筐,有可能的话,学科门户(导航)网站应该作为一个案例,哪怕它是笨办法写的,当然最好是技术变成的,图情的信息组织,若不能将专业知识变成一个网站,有些白学了。搜索引擎也应该作为一个案例。图情界任期以来对搜索技术不了解、不学习,导致自己一步步落后,搜索的学科范畴也许是”检索”,但就象以往图情学科中分类主题与检索要重复一样,信息组织也可重信息检索。不了解和研究搜索引擎的组织原理,感觉有些问题。

“题库”解答参考

星期四, 4月 7th, 2005

这是前两个部分,论述题部分还没有完成。如果其中有错误或更好的答案,请一定告诉我哦。
超长,只好分开贴。下面概念部分。

4月8日21:30修订。



名词解释47个

信息资源

情报检索

XMLS

复分表

规范控制

知识

博客(Blog

RDFS

OAI

组配

元数据

知识管理

Z39.50

OWLS

后控

知识本体(本体论/Ontology)

元搜索(Metasearch)

编码体系EncodingScheme

万维网服务

(Web Services)

元数据收割(Harvesting)

叙词表

数字图书馆

FRBR

互操作

检索语言

语义万维网

元数据登记系统

MODS

Topic Map

全文检索

因特网

内容管理

MARC

元数据应用纲要

OpenURL

搜索引擎

DC(Dublin Core)元数据

METS

分面分类

相关反馈

KOS

数字对象

HTML

万维网WWW

倒排档inverted file

HTTP






1. 信息资源

信息资源即”作为资源的信息”,可以理解为有价值的信息。然而信息的价值是体现在使用中的,对于不同的使用者,信息可以有不同的价值,而且信息的不同组合、不同的关联也能使信息具有不同的价值。这反映了信息的特性:信息是具有语境(context,也译成”上下文”)的数据。从计算机操作的意义上说,信息资源可以是任何具有标识的东西,在互联网上,标识通常为由命名域给出的URI。

2. 知识

知识是能够指导思考、行为和交流的正确和真实的观察、经验和过程的总结。知识包含真理和信念,观点和概念,判断和预期,方法和诀窍等内容,也可以理解为用于解决问题的结构化信息。

3. 元数据

元数据是关于数据的结构化数据,或者定义和描述其它数据的数据(data that defines and describes other data (ISO/IEC 11179-3:2003(E))

4. 知识本体(本体论/Ontology)

知识本体是领域概念及概念之间关系的规范化描述,这种描述是规范的、明确的、形式化的,可共享的。”明确”意味着所采用概念的类型和它们应用的约束实行明确的定义。”形式化” 指知识本体是计算机可读的(即能被计算机处理);”共享”反映知识本体应捕捉该领域中一致公认的知识,反映的是相关领域中公认的概念集,即知识本体针对的是团体而非个体的共识。知识本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。

5. 叙词表

又称主题词表(Thesaurus),指以规范化的自然语言语词作为文献主题的标识,通过叙词的概念组配表达主题概念。能够多向成族、多检索途径、多因素组配、灵活扩检/缩检/改变检索范围,具有专指度好,同时具有一定可扩展性的优点。

6. 语义万维网

语义万维网(Semantic Web)是万维网的发明人Tim-Burners Lee倡导的下一代万维网,致力于开发”以计算机可处理形式表示信息含义的语言”,以在资源之间建立起机器可处理的语义联系。

7. 因特网Internet

采用TCP/IP协议和共享命名系统的全球性网络,由一些独立管理的网络互联组成。是在ARPAnet基础上发展而来的。使用”因特网”常指网络的物理结构,包括以TCP/IP协议连接在一起的所有计算机和网络设备。使用”万维网”常指因特网上的内容信息,包括所有网站、网页、电子邮件以及通过其他各种协议和技术能够获取的信息。

8. 搜索引擎Search engine

搜索引擎(Search Engines)是对互联网上的信息资源(主要是网页)进行搜集整理,然后提供查询服务的系统,通常包括信息搜集、信息整理和用户查询三部分,但提供给用户的往往只是一个查询界面。

9. KOS(knowledge Organization Systems/Structures/Service)

可以指三个相关的概念:知识组织体系(这里system翻译成”体系”比较好)/知识组织服务/知识组织结构。知识组织体系指用于组织知识的各类规范方法,如分类法、叙词表、知识本体等等;知识组织服务指利用知识组织体系实现的具体的应用系统所提供的服务,不同的知识组织体系的服务特点和能力是不同的;知识组织结构指各知识组织体系对于知识关系的表达、揭示时达所表现出来的不同形式。

10. HTTP

超文本信息传输协议(Hyper Text Transfer Protocol),是万维网的基本协议,用于浏览器与服务器之间通信。

11. 情报检索Information Retrieval

搜索信息体,查找与查询请求能够匹配的对象的过程。作为一个信息技术领域它可以指建立情报检索系统所必需的情报存储和查询两个互逆的过程,传统上的”情报”多指二次文献,因此情报检索系统也就是二次文献数据库的建立和用户查询过程。

12. 博客(Blog)

Blog或Weblog,中文称网志或博客,是一种包含RSS元数据描述(RDF Site Summary或者Really Simple Syndication:一种描述网页的元数据方案)的动态网页,使用者可以在万维网上发表自己的日记、文章等。由于使用了RSS,因而能够支持语义链接、聚类功能。

13. 知识管理

机构、组织或个人通过有关知识的评估、获取、学习、传播、整合、保存、创新等活动,将知识视为资产而进行管理,目的是为了有效增进知识资产的价值。

14. 元搜索(Metasearch)

同时利用资源站点自身的检索功能搜索多个站点,并且进行实时动态整理、排序等服务的搜索。

15. 数字图书馆

对以数字化形式存在的信息进行收集、整理、保存、发布和利用的实体,其形式可以是具体的社会机构或组织,也可以是虚拟的网站或者任何数字信息资源集合。通常包括以下内容:

- 数字对象的集合所构成的资源库;

- 描述这些数字对象的元数据库;

- 实用这些数字对象的目标用户;

- 提供各种服务(捕捉、标引、编目、查询、浏览、检索、传递、存档、长期保存等)的系统

16. 元数据登记系统

元数据登记系统(Metadata Registry)是对元数据的定义信息、置标方案、转换规则、著录规则、应用指南等规范进行发布登记管理和检索的系统。

17. 内容管理

内容管理是指对组织机构内部多种格式和媒体类型的信息资源(通常称为信息资产)的组织、分类、管理等有序化过程,常常作为数字图书馆或企业知识管理的一个组成部分。

18. DC(Dublin Core)元数据

数字图书馆中使用的一组简单的包括15个”核心元素”的元数据元素集合,主要用于描述数字对象、馆藏管理和元数据交换。1994年提出,目前由DCMI维护,已成为ISO15836-2003、IETF RFC2413和NISO Z39.85-2001等国际国家标准。

19. 数字对象

存储于数字图书馆中的一个条目,通常由数据、元数据和标识符组成。

20. XMLS

XML是eXtensible Markup Language,即可扩展标记语言,由SGML简化而来,是许多置标语言(例如XMLs/RDF/RDFs/OWL等)的元语言。

XMLS指XML Schema,即XML模式,用于定义XML词表和结构用于机器识别和共享信息的定义语言。

21. RDFS

RDF:Resource Description Framework,即资源描述框架。采用”资源-属性-属性值”的”主谓宾”结构(或称三元组),提供一种框架容器,并通过XML定义了一套形式化的方法,为机器语义理解的结构基础。

RDFS即RDF Schema,用于定义元数据属性元素(例如”创建者”),以描述资源的一种定义语言。

22. Z39.50

允许计算机搜索远程系统上馆藏信息的一种协议,产生可进一步处理的检索结果和检索信息,主要用于检索书目信息。

23. 编码体系Encoding Scheme

元数据修饰的一种方式,用来规定元素取值范围或取值意义的受控词表或规范名称。

24. 复分表

复分表就是将一组可适用于多个类别的子目结构,单独制表。在分类时,若有需要用到這个复分结构时,可以自行组合运用。常见的复分表有形式复分表、时代、国别、语言复分表等

25. FRBR

书目记录的功能需求(Functional Requirements of Bibliographic Records)的简称,是IFLA1998年出版的一份研究报告,对书目记录描述的对象在整个生命周期过程中不同阶段的不同实体类型进行了详细的分析,为这些资源的描述、定位提供了完整的思考框架。

26. MODS

Metadata Object Description Schema是提取MARC记录中的部分内容,用XML模式定义为一个新的元数据对象。

27. MARC

图书馆用于存储和交换书目记录的一种格式。

28. METS

元数据编码与传输标准(Metadata Encoding and Transmission Standard)是一套XML模式,用以编码有关资源对象的描述型、管理型、结构型元数据方案。由美国国会图书馆维护。

29. HTML

超文本标记语言(Hyper Text Markup Language)一种简单的文本置标和排版语言,带有指向其他对象的链接,用于万维网。

30. Markup language

一种嵌入文档中、表示文档结构和/或格式的代码。

31. OAI

全称为Open Archives Initiative Protocol for Metadata Harvesting,简称OAI协议,是一种独立于应用的、能够提高Web上资源共享范围和能力的互操作协议标准。

32. OWLS

万维网本体语言(Web Ontology Language)是描述互联网上信息内容及其相互关系的一种人工语言,是对RDF模式语言的进一步扩充,从本质上是为了计算机处理而设计,而不是为了人理解用的。

33. 万维网服务(Web Services)

Web服务是通过标准的描述性界面(Web Services Description Language) 与SOAP(Simple Object Access Protocol)来设计,开发,管理可编程访问的Web组件的技术 与标准的总称,

是独立的、模块化的应用,能够通过互联网来描述、发布、定位以及调用。

34. 互操作

资源的结构或组件存在技术上或/和语义上差异,但在独立的管理环境中为用户建立一致性服务的工作。

35. Topic Map

主题地图(Topic Maps)是一种类似于语义语意网络的知识表示模式,结合了传统索引、图书馆学与人工智能等领域的优点,可以有效的组织知识以利于探索、推理,解决大量无序信息所带来的问题。

36. 元数据应用纲要

元数据应用纲要是一种元数据标准规范的应用形式,也可以看成是一种规范的元数据方案(metadata schema)。允许在应用中采用组合来自多个不同的元数据标准中的数据元素,并对”混合型”元数据方案从内容和形式上进行规范。

37. 分面分类

经过描述对象的概念的分析与综合,可以把复杂主题概念分析为若干简单的主题概念或概念因素,简单的主题概念可以综合表达复杂的主题。简单主题属性即构成”面”。

38. 万维网(WWW)

World Wide Web的缩写,常指利用因特网可访问的所有网站及其信息内容,也指因特网上用于信息互联的技术,如HTML、HTTP、URL和MIME等。

39. 规范控制

对用于标引的标识(例如主题词、类名、人名或其他名称)进行规范的方法。规范控制是为了完善信息系统的汇集功能和查询功能,保证信息资源组织的整体性、有效性和查询的一致性而进行的工作。也称”权威控制”。

40. 组配

在标引或查询中采用多个标识单元组合成新的概念进行检索的方式。例如利用多个单元词、多个类号,应用一定的语法(例如冒号”;”),组合成表达信息资源的概念,或提问式。

41. 后控

与标引中的规范控制类似,对于情报检索系统的查询提问进行规范的一种方法,以提高查全率和查准率。

42. 元数据收割(Harvesting)

在因特网上分布式检索不同的资源库(repositories),获取元数据在本地集中式建库的一种做法。常常包括对于协议和数据格式的规定。

43. 检索语言

即情报检索语言,是根据信息检索的需要创造出来的一种人工语言。检索语言是一种受控语言,它依据一定的规则对自然语言进行规范,将其编制成表,供信息标引以及检索时使用。

44. 全文检索

一种将文件中所有文本与检索项匹配的文字资料检索方法。

45. OpenURL

即”开放链接”,一种解决不同的数字资源系统互操作、进行资源整合的方法,也是一项的技术标准。开放链接(OpenURL)是一种附带有元数据信息和资源地址信息的”可运行”的URL。可用来解决二次文献数据库到原文服务的动态链接问题,服务提供方(通常是图书馆)维护的链接解析器能够在相关服务网页上动态生成开放链接。

46. 相关反馈(Relevance Feedback)

通过与用户交互的方式(包括实时交互或通过用户兴趣文档特征值交互),改善查询效果、提供个性化查询的方法。

47. 倒排档(inverted file)

按文档中出现的单词及其在文档中位置的列表。倒排表能为给定词汇给出它在文档中所有出现的位置。




评论人:门外汉 2005-09-24 11:26:04  

您真是一位好老师,谢谢您在网上给大家教授知识.

- 评论人:keven 2005-04-07 22:28:18  

确实是没有固定答案。有时很多解释都觉得不合适–并不是说错误,而是语境不对–学生们总是需要一个”标准”答案的,当然标准不标准无法衡量。
先生倒是提醒我可以把这些名词解释上载到维基百科中去,呵呵,等有空了在斟酌斟酌吧…
维基对于理解一些概念是很好的,但是定义嘛,就不敢恭维了。不过我还是根据”语义网”的解释修改了我的”定义”。需要说明的是,语义网还有一个对应词:semantic network,意思是完全不一样的。所以我坚持翻译成”语义万维网”。

- 评论人:游园惊梦 2005-04-07 21:35:59  

呵呵,难得keven师花这么长的时间做这个答案,谢谢了。不过名词解释这个东西是没有一个固定的答案的,强烈推荐先生到维基百科(http://zh.wikipedia.org/)去查寻一下这些名词的解释,很有启发的。譬如一个”语义网”的解释便延伸到了很多相关主题。


Technorati : ,

“题库”解答参考(续)

星期四, 4月 7th, 2005

这是简答题部分。有些部分好像不太”简”。

更新说明:2005年9月30日基于李丽同学的提问补充解释部分内容,涉及11、12题。

简答题30道

1. 什么是信息资源?什么是信息资源组织?

信息资源是指人类社会中经过加工处理的大量有序化信息的集合。

从信息资源组织的角度,由于无法判别”信息资源”的价值(判别信息资源价值的主体应该是用户,同样的资源对于不同的用户其价值可能是不一样的。)在这里给出计算机操作意义上的信息资源的定义:

?? “资源是具有标识的任何东西”。

?? 世间万物,只要人能够识别出来的东西,给它一个标识(最常用的标识就是名称),它就成了”资源”

?? 作为元数据描述的对象,DCMI和W3C强调,其”资源”只是在互联网上,由命名域给出URI标识的实体。

信息资源组织即信息资源的有序化的活动:对于信息资源有序化的规律的认识,以及应用认识得来的规律从事有序化工作

利用一定科学规则和方法,通过对信息外在特征和内容特征的描述和序化,实现无需信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。

?? 信息的外在特征:信息的(物质)载体所直接反应的特征;

?? 信息的内容特征:信息所包含和承载的具体内容,即通过信息载体所传递和交流的具体内容。

2. 试论述数据、信息、知识、智慧之间的关系。

?? 数据:离散、互不关联的客观事实,孤立的文字、数据和符号,没有目的性

?? 信息:人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关联

?? 知识:与行动和决策密切相关,人们做决策的行动能力,知识创造与环境相关

?? 智慧:对事务发展的前瞻性看法,智慧得益于人的内在价值观和信仰

单独的数据没有意义,信息= 数据+语境,知识= 信息+判断,智慧= 知识+整合。

3. 试说明信息资源组织的目的和常用方法。

目的:

?? 查找Find

?? 标识Identify

?? 选择Select

?? 获取Obtain

常用方法:

?? 分类法

?? 主题法

?? 字顺法

?? 号码法(赋予号码后的字顺法)

?? 时空法(例如大事记,年鉴等)

?? 序列法(大小/多少/好坏/贵贱…)

?? 超文本法(链接法)

4. 什么是主题法,主题法的特点和功能是什么?

主题法是直接以表示文献主题的语词作标识,提供字顺检索途径,并主要采用参照系统结石词间关系的标引和检索文献的方法。其中的语词可以是自然语言,也可以是受控语言。

主题法有标题法(Subject Heading)、单元词法(Uniterm)、叙词法(Thesaurus)、关键词法(Keyword又称自由词法)等几种类型。其特点如下:

?? 揭示文献的内容属性

?? 以自然语言为基础(不用标记制度)

?? 直接以局部(语词)指代文献

?? 以特性检索为主,族性检索通过词间的关联达到

?? 以明确性的检索为主,模糊检索通过技术的手段达到

主题法的功能:

?? 对信息内容进行标引的功能(指代用以检索);

?? 对主题内容及其相关信息予以集中或揭示相关性的功能;

?? 对大量信息加以系统化或组织化的功能;

?? 便于将标引用语与检索用语进行相符性比较的功能

5. 什么是分类法,分类法有哪些特点?

分类就是按照事物的性质、特点、用途等作为区分的标准,将符合同一标准的事物聚类,不同的则分开的一种认识事物的方法。

分类法是指将类或组按照相互间的关系,组成系统化的结构,并体现为许多类目按照一定的原则和关系组织起来的体系表,作为分类工作的依据和工具。

6. 叙词表中词与词之间的关系有哪些?

用代属分参(U、UF、NT、BT、RT)

7. 元数据是不是数据?元数据与数据是什么关系?

元数据是关于数据的数据,其本身也是数据。也可以作为被描述的对象,这时描述它的数据就是元数据。在信息系统中一般把数据看成是独立的信息单元,不管这里的”数据”是一本书、一个网页、或者一个虚拟的URL地址。元数据可以出现在:

?? 数据内部;

?? 独立于数据;

?? 伴随着数据;

?? 与数据包裹在一起。

8. 元数据有哪些功能?

?? 描述(description)

?? 资源发现 (resources discovery)

?? 认证(authentication)

?? 互操作(interoperability)

?? 数据管理(data management)

?? 访问控制(rights management)

?? 数字化保藏(digital preservation)

?? 内容分级(content rating services)

9. 数字图书馆和元数据是什么关系?

元数据提供数字图书馆的语义基础。数字图书馆的基本逻辑构成是”资源”,资源是可以被标识的任何东西,可以是物理的实体,也可以是数字对象或者虚拟的复合对象或对象集合。元数据提供了对资源的各种属性的描述,可以看成是”资源”的替代品。数字图书馆通过管理元数据而管理资源,并提供绝大多数功能。

因此元数据通过定义数字图书馆中资源的信息结构,以及定义由数字对象构成的资源库的组织结构,决定着的数字图书馆的信息组织和利用方式,同时元数据还是实现跨资源库语义互操作的基础。

10. 元数据包括哪些种类?

对于元数据的种类有不同的分类方法。一般分为描述性元数据、管理型元数据、结构性元数据、保存性元数据等等。

a) 描述性元数据(Intellectual Metadata),用来描述、发现和鉴别数字化信息对象,如MARC、DC,它主要描述信息资源的主题和内容特征。

b) 结构性元数据(Structural Metadata),描述数字还信息资源的内部结构,如书目的目录、章节、段落的特征。

c) 存取控制性元数据(Access Control Metadata),用来描述数字化信息资源能够被利用的基本条件和期限,以及这些资源的知识产权特征和使用权限。

d) 评价性元数据(Critical Metadata),描述和管理数据在信息评价体系中的位置。

还可以分为管理性、描述性、保存性、技术性和实用性元数据,如下表所示:

类型

定义

使用实例

管理

用于管理与控制信息资源的元数据

采购信息

版权及复制记录

获取权利控制(密级)

馆藏信息

数字化的选择标准

版本控制

描述

用于描述与标识信息资源的元数据,一般为手工制作的元数据

目录记录

专门索引

资源之间的超链接

用户所做的注解

保存

与信息资源的保存管理相关的元数据

资源的物理状态描述文档

有关保存资源物理或数字化版本的文档,例如数据的更新与迁移

技术

与系统功能相关的元数据或元数据行为模式

硬件及软件文档

数字化信息,例如格式、压缩比及缩放比

系统响应时间的记录

许可及安全数据,例如密码及加密密钥

使用

与用户级别与类型相关的有关信息资源的元数据

展出记录

用户及利用记录

内容重用及多版本信息


11. 什么是元数据的语义、结构和句法?

属性元素(元素集合)是元数据的语义,例如DCMES的15个元素。Warwick框架或RDF的三元组结构等是元数据的结构,可以提供人类和机器双重理解,编码(置标)语言(如XML、XML Schema、RDF/RDFS等)是元数据的语法,用以传达语义和结构。

举例:
RDF既是一种结构,又是一个语法规则。作为反映语义的三元组形式,它是一种结构,而具体的采用XML/RDF形式编码规则又是一种语法,语法将结构固定下来了,但是RDF并不一定非要由XML/RDF来编码,它还有N3等其它形式的语法规则。
元数据的语义常常由具体的元素代表:作者(元数据理论与应用,张晓林),结构是P(S,O)
,以XML语法表达出来可以为(xml可以有多种表达,下面只是一种形式,且没有注明命名域):
<rdf:Description about=’元数据理论与应用’>
<dc.creator>张晓林</dc.creator>
</rdf:Description>

当然还可以用其他各种形式,例如自然语言、形式逻辑、语义网、以及关系数据库表等形式表达,具有不同的结构,每种结构可以遵循不同的语法。

12. 举例说明什么是元数据标准?如何使用元数据标准?

对资源描述方案进行标准化的成果就是元数据标准,常常需要经过一定的批准或认可程序。

应用元数据标准的基本方法是利用标准的元素来描述资源对象的各类属性,如在数据库中这些属性的大量实例可以表达为关系型数据库中的表,从而能够利用数据库系统或各类应用软件进行管理。如果以XML形式编码,可以把这些元素用作XML的元素标签或者属性名称。注意由于XML非常灵活,许多元数据标准都有一定的应用规则,规定了关于编码的”最佳实践”,以便不同的应用能够在编码上具有一定的一致性,从而保证互操作性。

以下为部分应用领域的元数据标准:
??网络资源:Dublin Core、IAFA Template、CDF、Web Collections
??文献资料:MARC(with 856 Field),Dublic Core
??人文科学:TEI Header
??社会科学数据集:ICPSR SGML Codebook
??博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core
??政府信息:GILS
??地理空间信息:FGDC/CSDGM
??数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images
??档案库与资源集合:EAD
??技术报告:RFC 1807
??视频图像:MPEG-7


13. 什么是元数据的编码(置标)?

利用置标语言(例如HTML/XML/RDF/XMLs/RDFs/OWL等)将元数据方案形式化,提供机器处理的规范表达,就是元数据置标。

14. 元数据有哪些常用的编码语言?试举例说明。

XML/RDF/XMLS/RDFS以及在SGML基础上发展起来的任何一种置标体系,例如TEI/EAD/METS/MODS等都可以作为元数据的置标语言。

15. 什么是语义万维网(Semantic Web)? 元数据对于语义万维网有什么作用?

语义万维网(Semantic Web)是万维网的发明人Tim-Burners Lee倡导的下一代万维网,旨在赋予万维网上所有资源唯一标识,并在资源之间建立起机器可处理的各类语义联系。元数据是语义描述的基础,因而也是语义万维网的语义基础。


Technorati : ,

“题库”解答参考(续2)

星期四, 4月 7th, 2005


Technorati : ,

“信息资源组织”题库(修补中…)

星期三, 4月 6th, 2005

全称叫”元数据与信息资源组织”,研究生课程,请各位帮我看看这些题目是不是合适,或者太偏?(特别请老槐、超平等大教授们不吝赐教,其他朋友以及路过的朋友也别不吱声,我就不一一点名了),k某在此谢过!可能还会出一些判断题、选择题之类,出起来太累,范围大致都在这里了。

定下来之后我就要做这些作业了,幸亏偶一为之,当老师真苦啊…


名词解释41个

信息资源

情报检索

XML/XMLS

复分表

规范控制

知识

博客(Blog

RDF/RDFS

OAI

组配

元数据

知识管理

Z39.50

OWLS

后控

知识本体(本体论/Ontology)

元搜索(Metasearch)

编码体系EncodingScheme

万维网服务

(Web Services)

元数据收割(Harvesting)

叙词

数字图书馆

FRBR

语义互操作

检索语言

语义万维网

元数据登记系统

MODS

Topic Map

全文检索

因特网

内容管理

MARC

元数据应用纲要

OpenURL

搜索引擎

DC(Dublin Core)

METS

分面分类

相关反馈

KOS









简答题30道

1. 什么是信息资源?什么是信息资源组织?

2. 试论述数据、信息、知识、智慧之间的关系。

3. 试说明信息资源组织的常用方法。

4. 元数据是不是数据?元数据与数据是什么关系?

5. 元数据有哪些功能?

6. 数字图书馆和元数据是什么关系?

7. 元数据包括哪些种类?

8. 什么是元数据的语义、结构和句法?

9. 举例说明什么是元数据标准?如何使用元数据标准?

10. 什么是元数据的编码(置标)?

11. 元数据有哪些常用的编码语言?试举例说明。

12. 什么是语义万维网(Semantic Web)? 元数据对于语义万维网有什么作用?

13. 叙词表中词与词之间的关系有哪些?

14. 什么是DC元数据的1:1(一对一)原则?为什么要有这个原则?

15. DC元数据所描述的对象是什么?

16. DCMES(都柏林核心元数据集)包括哪15个元素?(请按类别说出英文名称)。

17. 什么是元数据限定(或称修饰)?什么是编码体系修饰词?

18. 什么是限定版(Qualified)DC?包括多少元素?试举例。

19. 什么是DC的类型词表?有哪些类型?

20. 什么是DC图书馆元数据应用纲要?与DCMES有什么不同?

21. 什么是DC教育元数据应用纲要?与DCMES有什么不同?

22. 什么是DC本地化?客户化?如何进行DC的本地化和客户化?

23. 什么是元数据标准?什么是元数据方案?他们之间的关系是什么?

24. 元数据方案一般包括哪些内容?

25. 设计元数据方案应遵循哪些原则?

26. 元数据方案的设计流程是什么?

27. 什么是元数据应用纲要(Metadata Application Profile)?元数据应用纲要有相关参考标准或指南吗?

28. 什么是元数据登记系统?有哪些功能?

29. 元数据可以为解决信息系统的互操作性问题提供哪些帮助?

30. 什么是元数据映射?如何进行元数据映射(元数据映射有哪些方法)?

论述题12道

1. 谈谈企业知识管理的特点、方法。

2. 知识本体与叙词表的作用和异同。

3. 如何创建领域知识本体?

4. 元数据应用纲要的组成和设计流程。

5. OAI协议的基本内容

6. 什么是Z39.50协议?其发展趋势如何?

7. 什么是DC元数据抽象模型?有什么作用?

8. 试简要解释元数据与知识本体的关系。

9. 试论信息资源组织的发展趋势。

10. 以Google/Yahoo!为例,谈谈搜索引擎的信息资源组织。

11. 数字图书馆如何解决异构系统互操作问题?

12. 元数据方案设计有哪些正在形成或较为成熟参考模型?这些模型分别解决什么问题?

评论人:kevenlw 2005-05-06 21:34:22 kevenlw的博客  

谢谢”新学”先生的批评意见。在接这门课之后有半年多时间,对专业教育中信息资源组织的情况还是有一些了解的,当然内容的选材偏重于元数据,是基于对网络环境下信息资源组织趋势的理解,这在我的其它博客文章中有所提及,授课的主要内容元数据约占一半,另一半为分类、主题、知识本体,现在我还在总结整理以”语用”信息和相关反馈为基础的对信息资源结构化的方法。从计算机角度看传统的”情报检索语言”理论,固然有可取之处,然而实际上谬误也不少。希望能与先生深入讨论。

- 评论人:新学 2005-05-06 20:51:26  

看似研究生课程,其实主要就是元数据的基本知识,现在我们本科课程也包含了这些内容。把元数据与信息资源组织挂起来,也只能是挂一漏万,我也不明白信息资源组织就是与元数据有关吗?看来不是无知,而是偷工减料,建议你好好学习一下情报语言学知识,必要的补课也是应该的。

- 评论人:keven 2005-04-06 19:47:08  

老槐说”老师的兴趣”,于是”博客”就在这里了。当然博客的编码规范是RSS,而RSS是正宗的”站点描述元数据方案”的成功应用,所以当然是信息组织的一种方式啦。甚至folksonomy可以看成网络上草根关键词法到草根分类法的一种回归,各种信息组织方法相互嵌套、聚类,又结合了丰富的语义链接,真是很有意思。

- 评论人:游园惊梦 2005-04-06 19:01:57  

呵呵,如果keven师给出答案,那就不是”数图笔记”而是数图讲义了,^_^。
为什么要把博客放在这里呢,不解的说。从博客讲开到tag,到Folksonomy等等?

- 评论人:keven 2005-04-06 17:57:30  

学校没有给大纲,只是审查了讲课的内容计划,本来我都是元数据的内容,提示我要增加些传统的分类主题,就这样。
参考答案贴在这里合适吗?我没有经验,当然我希望得到大家的指正,但是会不会有”漏题”之嫌?或者反正题目都在这里了,不存在漏题的问题了?这应该是10份卷子的量,学校会挑一套考试。

- 评论人:老槐 2005-04-06 16:46:31  

题目不是教科书,题目是老师的兴趣,只要不大大的”超纲”,想出什么就是什么,不需要什么道理。因此,象宛然和所有”学生”朋友一样,我也只想看答案。

- 评论人:宛然 2005-04-06 16:36:21  

假如能 象”元数据十万个为什么”一样,希望很快能见到标准答案和解释为盼。
谢谢!

- 评论人:a 2005-04-06 15:45:16  

做个称职的老师难,做个称职的学生也难。KEVEN先生出那些题够我不吃不喝做好几个月。当然了还得呆在计算机前做,要不然尽瞎掰,呵呵。

- 评论人:keven 2005-04-06 13:16:27  

KOS不错,很重要的概念,已经添上。并将 Pagerank改成了”复分表”,以更加传统一些。Pagerank解释起来比较技术性,与学生的专业方向不大对路,复分表的概念类似于元数据的元素修饰词(element refinement,也即词表修饰词),老概念有新意,所以换掉了。

- 评论人:老同学 2005-04-06 12:57:02  

KOS: knowledge organization systems/structures/service


Technorati : ,

Blog、Wiki、del.icio.us、flickr、TAP、FOAF…,再多又如何?

星期二, 4月 5th, 2005

近年来风起云涌的blog、Wiki、del.licio.us、flicker、43thing、StumbleUpon、…以及TAP、FOAF等等,以及专业性更强一些的metasearch(包括OpenURL/SFX),从信息组织的角度来看,不论传统的z39.50*,马上就要变成传统的SRW/SRU,还是已经不怎么新的RSS或者RSS聚合而分类的后代Folksonomies,都可以归纳为链接方式的知识组织,并且大都是在传统Web方式的href上添加了链接语义,也就是对信息对象单元(各种形式的URI)附加或标注(annotate)了元数据,或者利用这些附加信息做更多的操作。

语义关联本来没什么大不了的,基于传统的数据库技术的Data Warehouse早就实现了丰富的表关联(语义关联的早期形式)和多视图展示(甚至可视化),并且通过数据挖掘能够呈现、产生新的知识(指库中并未存储的知识),但那毕竟是封闭系统,只能满足一个企业或组织内部的信息需求,即使这是全球拥有无数分支的跨国企业。真正使这种”语义链接”不得了的是Web的规模(发展为网络社会学),以及这种技术(特别是XML)所体现出的民主精神加上了人类的想象力,这与P2P一样是草根技术,任何人都可以参与,因而具有无穷的生命力。

“语义链接”是元数据的发明人们早期的梦想,这一梦想差一点被人类的劣根性Spam掉。手工对Web网页添加Annotation (从元数据的定义可以得知,任何annotation都是元数据)显然是不可能的,自动添加、或由信息生产者添加一定是一条必由之路,然而这就有待于人类的想象力,设计出一种低门槛的、巧妙的甚至神奇的应用模式(在这里不提商务模式,但是到了商人手里就成了商务模式),充分调动人类的好奇心、好胜心、甚至是一点点贪欲,把一个个信息岛屿组织的蓬蓬勃勃、欣欣向荣。

各种语义链接技术都可以归结为广义的语义万维网的应用。富含语义的Web从技术上来说只是一小步,但是对整个人类信息和知识的获取和利用来说是革命性的一大步。现在只是起步,已经在不停地挑逗崇尚技术的热血青年和金钱嗅觉异常灵敏的产业界的谜走神经,好在我坚信以TBL爵士为代表的一帮技术精英的力量,不会让万维网成了赚钱的机器,否则TBL也不会放弃Web的专利权、连别墅也买不起了。这个领域90%甚至更多的技术,将会昙花一现。但愿留下来的都是适用的、好的,而不是让少数人赚得盘满钵满的。

目前这些技术被许多年轻人玩得很有活力,就像早期的因特网应用一样,无限多的可能性几乎使他们忘记、或者原谅这些婴儿技术的所有缺点。这些技术的核心一点儿都不高深,只是一些规定而已(说的好听些是标准规范,但完全不同于传统的”权威”–最多来自于W3C、OMG这种民间机构),而源头总是少数机构(MIT/UCB等等),我们只能在这些貌似民主、实际独裁的世界中屁颠屁颠地生存,一个RSS能让那么多人为之疯狂,接下来最能让我们激动的,恐怕是对实现各种聚合或更多功能的RDF/RSS工具软件的期待了,使我们从编写代码、一遍又一遍地调试的痛苦中解放出来,不必像我们的C++前辈们,把宝贵的青春交给冷冰冰的机器。有这样的工具我们会欢呼雀跃,但是恐怕得等到目前的技术稳定一些,让人看到更多的前景时才会有这一天。也就如此而已了。

我想指出的是,语义链接技术背后值得研究的问题海了去了,本体负责语义,逻辑负责形式化和机器推理,语义万维网服务(Semantic Web Services)提供松散耦合的计算模式,其中有无数的数学基础、算法、路径值得研究(例如我估计folksonomies的大规模应用到了GOOGLE手里会有惊人的分类/聚类算法,基于相关反馈而动态生成),研究过程中也能抛出无数的新玩具,我们为什么总是只愿意接手别人的二手玩具呢?


Tim Berners-Lee最早的语义链接图(Tim Berners-Lee’s original 1989 WWW proposal described a web of relationships among named objects that unified many info. management tasks.)

参见http://www.w3.org/History/1989/proposal.html


试比较TBL的Web图示:

*注:严格说来,z39.50不是链接方式,但是它确实需要给定一个服务器名、地址、端口和数据库名等信息,剩余的事情交给查询来做。在此可以归入”链接”方式的知识组织,但它不是Web方式的href链接。


评论人:匿名网友 2005-04-06 20:18:31  

很有个人见解,不管是BLOG,wiki,网摘,SNS等,以后又能有多少能真正意思上的保留下来的,”BEST OF EASY”才能最容易的融入社会中去。
我看太多的个体技术,文化是适应潮流的,玩着也累,最终还是会走向整合,重组的把

- 评论人:游园惊梦 2005-04-05 19:47:04  

呵呵,先生这篇文章果然击中网络上最近流行的技术的要害了。
通过我的365key(http://www.365key.com/youyuan/)显示:收录此链接但未评价的会员有:ltankl, youyuan, antworld, keso。

- 评论人:a 2005-04-05 16:34:16  

Keven先生的境界太高了。我现在对好多东西都麻木了。很多东西真的看不懂,但是还是有懂的欲望。浏览keven先生的博客,当属信息技术前沿追踪,可以得到几分慰籍。

- 评论人:游园惊梦 2005-04-05 12:50:38  

最近天天硬着头皮在玩这些东西,Blog、 Wiki、del.licio.us、flicker、TAP、360,都有点憔悴了。看k先生在老槐那里当愤青,也没时间与先生理论了。呵呵,我确实很希望先生对这些东西做个剖析,当然还有社会网络、tag、Folksonomy等等。
这里有一篇文章:http://www.adammathes.com/academic/computer-mediated-communication/folksonomies.html
先生看一下。关于元数据与Folksonomy的。
目前我还处于懵懂阶段,很难向先生请教这些东西了。


Technorati : , , , , ,