Archive for 8月, 2007

Stu点评张晓星主任的Keynote

星期四, 8月 30th, 2007

早晨张主任的主旨发言向人们展示了来自中国的又一个巨大的数字图书馆,拥有58TB,遍及33个省,超过8000个网点。Juha向DCMI的同行调侃 到,又有了一个巨大的DC数据库了。张主任的发言尚未结束,坐在我身边的Stu就向我秀了他刚刚出笼的博文:中国数字文化的进化(Digital Cultural Evolution in China)(他没有用”Revolution”一词,呵呵)。

Stu也很客气地提到文化共享工程中DC元数据应用中的问题,他是这样说的:

Dublin Core mavens would find Dr. Zhang’s slides very familiar indeed, recapping ideas and principles argued and agreed over more than a decade of experimentation and wrangling (some of his screen shots of application profiles might yet provoke discussion among the architecture crowd). It is a genuine pleasure to see these efforts (and even some of the problems) echoed in a national effort such as this, with repercussions that can be expected to ramify widely in the countryside of Chinese society and culture, validating an awful lot of jetlag on the part of many people over the years. I wish our colleagues in China all success with this project.
DC老手们会对张博士的演示稿感到非常熟悉,许多想法和原则已经试验和争论了十多年(一些应用纲要的截屏可能会遭到”元数据架构”组的激烈讨论)。我发自 内心地感到高兴,这些努力能在这样一个国家级的项目(即使其中有一些问题)中带来反响,……[这部分写得很艺术,很难翻译]。我希望我的中国同行 在这个项目中取得成功。

看来张晓林主任的”元数据标准规范“项目任重而道远。联想到DCMI多年严格控制元素的扩展,我们的”横向扩展”和”纵向扩展”是否太轻易了一些?我们的 领域规范(即所谓”专门元数据方案”)是否太多了些(在我们对”应用纲要”的理解尚未达成共识、得到普及之前)?谁来管理这些Terms?如何管理?特别 是我们对于抽象模型的漠视、我们在编码方案最佳实践方面的缺失,造成研究到应用的断层,元数据工具和应用系统无法在共识的基础上开发,将使得我们现在的许 多努力得不到充分应用,达不到预期效果。

DCMI历来对组织形式和方法上的重视程度要高于对元数据标准规范的内容和结果的重视。一些基本原则(开放原则、民主原则等)只有通过组织形式和方法才能得到体现,才能保证标准规范的正确制定和执行。这是一个值得借鉴的很好的做法。

DCMI向实体化发展

星期三, 8月 29th, 2007

29日早上刚到会场,就碰到昨天念叨的张晓星主任,聊了几句。张主任谈到,会议的组织者感到不可理解,元数据在中国应该也算一个热门话题,为什么参会的国内代表那么少。

找了一个有电源位置坐下来,发现桌上放了一份声明:”DCMI working towards incorporation in Singapore”。这实际上是近年来在DCMI内部讨论过多次的问题,作为一个虚拟的、以志愿者为主的学术实体,难免碰到资源有限、进展缓慢等问题, 虽然DCMI也开始引入了一定的项目激励机制,但”实体化”、”公司化”发展是大势所趋。

声明中说,DCMI将向一个在法律上独立的实体(Legal entity)方向发展,计划与新加坡国家图书馆局合作,在2008年中,成立成立非营利性公司(not-for-profit public company)。新加坡图书馆局将对这个法律实体提供行政管理上的支持(我的理解就是由新加坡图书馆局进行管理),以后几个月中将就达成目标的各项 法律问题,与OCLC、DCMI的会员以及法律专家进行磋商,确定这个”DC元数据公司”的法律地位、组织结构框架等细节问题。这表明新加坡在成为 DCMI的会员(Affiliation)之后不久,又有了更深层次的合作。反观我泱泱大国,富足丰饶,就是不知道在干些什么。

DC-2007开幕式

星期二, 8月 28th, 2007

这几天开会,本人将在现场带给大家鲜活的报道。
有关会议程序 和参考资料,请大家参考会议网站 。会议日程安排 也可以在这里下载。
一般情况下,我会用skype进行实况转播,需要聆听实况的,请下载、安装skype,通过添加我的id:kevenlw告知我,我把你加入”会议室”。skype的会议室最多十人,不过我估计国内感兴趣的、又正好在”现场”的也不会超过十人。

上 午的开幕式,除了新加坡的两位年轻的部长(估计不到50岁)致辞,显示了新加坡政府的积极进取、干什么都要国际一流的雄心之外,缺乏可圈可点之处。 Keynote是联合国粮农组织(FAO)的一位项目主管Johannes Keizer所作,FAO一直在信息技术的应用方面非常领先,很早开展了元数据和本体的应用。但是FAO的演示只提供了宏观的介绍,缺乏细节,所以讲完之 后许多人都提了问题,但是回答没有任何特别之处,看来大家碰到的问题他们也没有很好地解决方案,只不过他们做了一个活生生的系统,但仅这一点也够让人pay respect的。Paper Session 1 Mr. Akira的报告介绍了一个”并列名称”的元数据描述想法,Paper2 是Nilsson的大作,介绍了一个基于Web、支持多种元数据schema的元数据著录网站/工具 ,与我们4-5年前的想法惊人相似。/sigh

一般DC年会有两个Keynote,星期四上午来自祖国的张晓星主任将作主旨发言,期待ing。(不过今天遍寻会场,没看到他,可能专门来作报告吧)

DC-2007参会实录

星期二, 8月 28th, 2007

2007年都柏林核心(DC)与元数据应用国际研讨会 于2007年8月28日在新加坡洲际大饭店(InterContinental Singapore) 召开,来自2O多个国家和地区的一百多名代表参加了会议。这是继东京(2001)、佛罗伦萨(2002)、西雅图(2003)、上海(2004)、马德里 (2005)、墨西哥曼萨利尼(2006)之后的第七届。本人很荣幸,只缺席了其中第一、五两届(第五届是因为保先而缺席的)。

本次会议的主题是”元数据应用纲要的理论与实践(Application Profile: Theory and Practice)”,经过数年的研究、实践和标准化工作的推动,预计本次会议将在元数据应用纲要的形式化方面取得突破性进展,为下一阶段软件工具以及 “杀手极”应用的开发提供基本的编码规范和实践操作指南,一扫元数据应用长期滞后于实践需求的阴霾。

本次会议在日常安排上作了一些改动,将四次培训集中到8月27日一天进行,并且没有进行Post Session以及收费的Special Session。这样做的好处是使会议更加紧凑,不同的对象参加不同的会议,当然其缺点是基本上杜绝了我这种人的蹭会。于是昨天就去参观了一天市容,逛了 十来个书店,以及新加坡国家图书馆、国家图书馆乌节路分馆(也就是因付不起租借费用而即将闭馆的那个),直到深夜才返回饭店,拍了很多照片 ,与南非德班相比(人口差不多),让我充分感受到新加坡改革开放、和谐社会的建设成就,以及人民勤奋进取、安居乐业(据说就业率100%)的良好氛围,让 我深信,同样是华人国家,我们也一定能够成功建设和谐社会。当然这里的消费也是发达国家的消费,从机场打的到市中心宾馆20分钟路程需要35新币,一本书 随便20多元新币,简单一顿商务套餐也差不多这个价,物价水平丝毫不比欧美国家差,所以我们当前的大幅度涨价似乎找到了合理性依据,赫赫。

开一次unconference如何?

星期六, 8月 25th, 2007

Blyberg报道了大苹果地区图书馆2.0粉丝的一次聚会,内容很丰富,使我想到上海地区是否也可以按照类似的模式(unconference)搞一次,一方面充分发扬2.0精神,大家参与组织,共同商讨日程,论题人人可议,另外不给组织者太大的负担,形式自由,大单位小单位都可以组织。

当然其实要开好这样的会议,也必须有一帮人在幕后做很多工作。好在现在大家都很积极,马上就要开学了,可以搞一次了。

参考链接:

参加上海图书馆2.0研讨会
上海地区图书馆2.0应用与实践研讨会前后
上海地区图书馆2.0应用与实践研讨会___失声一下
激情過後

情报检索2.0

星期六, 8月 25th, 2007

David比较了’Analysis of Google Scholar and Google Books‘和”Google Earth Book Search“,认为后者才是比较地道的情报检索2.0。

前者报道了两篇关于Google学术搜索和图书搜索的论文,写得很好,不知道国内是否已经有了抄袭版,关心数字资源建设的馆员们,以及搞类似学术搜索的网站可以参考。后者只是一篇博文,简单介绍了一下GEBS的功能和缺点。当然如果mashup的搜索就能称为情报检索2.0的话,未免也太容易了。

Flickr的新功能:自动标签

星期五, 8月 24th, 2007

Yahoo!Flickr叫做”机器标签Machine Tagging”,也就是图书馆人梦寐以求的自动标引,已经来到我们身边。这实际上是今年1月份的“新”功能,只是偶现在才注意到。

flickr:user=keven
keven:photo=0123456
……

我想目前最可能获取的”机器元数据”应该是作者信息和一系列的技术信息(例如可以知道该作者/上载者应用的相机型号和技术参数,以及相片的技术参数),更有用的是拍摄的内容信息,例如拍摄对象、事件、事件信息,目前似乎没有更好的办法取得。但是目前可以得到的上载时间、以及经纬度信息,在数据挖掘中具有很重要的意义。结合一些人工标引,能够获得更多的”知识”。只是讨论中列举的一些例子,如菜谱的成分、当地的天气情况等,不知道通过怎样的Mashup才能够得到。

对于任何一个数据库来说,可以自动提取的语义信息有很多,这些语义在系统内部是不言自明的,然而一旦将应用放大到整个互联网,就需要把”内在的” 关系”显性化(explicit)”,才能为机器所识别和利用。

这个功能何其了得,随着微格式和微内容的标准化和应用的普及,一个”数据的Web”将大大促进Web3.0的成形,每个人的图片数据都可以挖掘出大量的语义,与相关的词表结合起来,Web的”智能化”指日可待。

目前似乎在语法上还不够规范,当然只要数据可以通过api读取,可以很方便地转换成rdf(现在被称为NQRDF)。标准是应用中最重要、也是最困难的问题,还是各家使用各家的”标准”,可以直接采用RDF,却采用”NQRDF(Not Quite RDF)”(现在Yahoo!Flickr正在这样做)。大公司为了商业上的考虑,是不可能主动热情、开开心心、心甘情愿地开放共享滴。

IFLA开幕式和闭幕式

星期四, 8月 23rd, 2007

众人赞不绝口的开幕式没有参加,闭幕式不容错过。整两个半小时的闭幕式让人感到一晃而过,于是忍不住花了100兰特买了一张开幕式光盘,回旅馆放了一遍,果然名不虚传。

很多人对IFLA年会评价不高,就像国内的图书馆年会一样,以人多取胜,主题海阔天空,内容参差不齐,每个人似乎都会迷失其中,最终感到收获很少,成为变相旅游。
然而经过此次IFLA,我的印象大有改观(以前只参加过阿根廷的一届),IFLA不是DC年会,它不是学术会议,而是图书馆文化的一种综合展示,它宣扬的不是科学精神,而是多元文化和自由的艺术。

这一届IFLA就是一场连续数日的诗剧、歌剧、舞剧,由开幕式和闭幕式串起来,首尾呼应,可能并不那么高雅、整齐、专业,然而却足够自由、奔放、热情。每个与会者的激情都由开幕式点燃,被那位粗犷的、豪情四溢的主持人带入情境,被那位天使 般的、火辣辣的歌手Tamara Dey推向高潮。(我的同事接连几天,千方百计地寻找她的CD,获得了之后欢喜之情无以复加)。每个人都融入其中,都成为其中一分子,甚至每个人都成了 诗人,张嘴就能吟出诗句,随着非洲舞蹈原始而强烈的节奏,宣泄出来,为自己正在从事的人类最美好的事业而燃烧、升腾。

主持人以非常特别的南非英语,毫不吝啬地把所有美好的词汇,夸张地、赤裸裸地用来赞美图书馆,赞美书籍,赞美阅读,赞美人类的理性(把图书馆比作母亲的乳房,把知识比作乳汁)。大法官、文学家、自由战士 Justice Albie Sachs更是把民主与理性赋予图书馆事业,语调轻松幽默,不时晃动的独臂和饱经沧桑的脸庞讲述着他的深刻。Alex Bryne更是把图书馆事业升华为曼德拉的事业,让人们几乎完全忘却了饥饿、贫穷、野蛮和战争,或者说让我们获得了与饥饿、贫穷、野蛮、战争抗争和战斗的 武器。至少人们不会再拘泥于德班的盗窃、抢劫,以及旅途的疲惫。

开幕式和闭幕式以诗的语言描述人类的梦境和理想,再以这梦境和理想装点图书馆事业,它是政治家舞台和交际场,同时又不乏普通人的真实和幽默。成功的IFLA年会,是图书馆精神的展示和体现,同时也是图书馆职业的洗礼和朝圣。

IFLA第一天

星期一, 8月 20th, 2007

电脑不能没有电,而我的电脑更不能没有网络。

跟随我两年多的IBM T42电池早就罢工了,还好这次出来的时候,准备工作做得充分,花了480大洋,为它配了一块新的兼容电池。

在IFLA会场上有免费上网,但是没有随处可用的电源。我住的宾馆没有网络(只有大堂上网,需要买卡),电脑开着,不知道干啥。

突然发现有一个微弱的Wifi信号,连接上去,要刷信用卡,看看250Mb流量140南特,相当于140元钱吧,就像犯了毒瘾,毫不犹豫地输入了信用卡号。

IFLA的会场一如往年,忙乱、喧闹,人们衣冠楚楚,穿梭往来,拎着包,拿着资料,并且经常是手持着盘子或者端着杯子,三五成群,欢声笑语,认识的不认识的都点头,整个一全世界图书馆员的节日。

我今天(8/19)上午才到德班,行李没取到,接机的人也跑掉了,只好花了10美刀,坐IFLA的大巴来到宾馆。打了无数个电话联系行李的事情,据说还在约翰内斯堡没有上得飞机,无奈,只好请航空公司给我送到宾馆。后来知道,我的同事冯老师也遭遇了同样的事情,有个同伴,心里好受些,哈哈。

给吴馆长、图有其表发了短信,打算即刻赶往会场,于是去在宾馆商场买了张地图,却被门口被好心的黑人兄弟拦住了,说你千万不能一个人背着包,还拿着相机带着手表,走在没有一个白人的街上。顿时吓了我一跳,都21世纪了,难道南非没有警察吗?

询问了守法出租车的特征和到会场的大致费用,正准备出发,碰到一对老年夫妇,别着IFLA的胸牌,很热情地招呼我打他们的便车去会场。路上老头告诉我他是南非某个党的党员,特崇拜毛泽东和周恩来,去年刚去过中国,游览了北京、上海、西安,说你们中国共产党已经不是共产党了,哈哈哈哈,身在异国他乡,不敢争辩什么,一笑置之。

到了会场,最先见到的人是此次IFLA的VIP张晓林博士,荣幸!紧接着见到了张智雄博士,以及交大的郑巧英馆长,后来陆陆续续见了一些来自世界各地的华人图书馆员,认识的不认识的,寒暄几句。我们信息技术小组昨天已经开过会议了,我的任期今年就结束,所以也没有急着去见老朋友(我们的老组长Woods先生这次已经退休,这次没来),现在张智雄博士在ITS组很活跃。

碰到雪茅兄,依旧那么热情,那么生气勃勃,请我喝了一听啤酒,聊了好多设想。一会儿收到表哥的短信,说到处在找我,告知所在之后也找了半天。加入我们不久,下午的会议Session过半,Coffee Break,雪茅说曾蕾老师约我们一起聊聊,在人潮中我们冲到约会地点,匆匆见了一面,曾老师简单介绍了一下她们那个小组正试图对于IFLA的第三类实体(即除了Bibliography, agent之外的subject)进行一定的纠正和细化。很有意义的一项工作,目前正在酝酿突破。时间有限,我们约好这两天有空再聊。于是散去。

在各大会场和展览区转了一圈,没发现什么有趣的专题,找了一个僻静的角落,支起电脑,打算拷贝一些图片到电脑里,并作一些笔记。于是发现了会场上的上网信号,一下子有了一种得救的感觉(就像在新加坡机场发现免费的上网角一样)。于是很快注册了一个用户,第一时间把照片都上载到了我的flickr空间中。IFLA主办方不知怎么想的,每人限时250分钟,到了250分钟,换一个用户名不就完了?

老愤青语录:知识和观点,哪个重要?

星期二, 8月 7th, 2007

一五一十部落的drunkpiano 新近发了一篇博文opinion vs. knowledge,提到一个值得警醒的观点,不要把观点凌驾于知识之上。”中国过去这一百年走了这么多弯路,就是因为抒情和表态的人太多了,讲知识和论据的人太少了。”

我的感觉,把opinion置于knowledge之上的人,一般是与下述词汇联系在一起的:立场、群众、理想、道义、社会、解放、热爱、阴谋、走狗、终 极、打倒、”一定要”。而置knowledge于opinion之上的人,一般与下述词汇联系在一起:逻辑、事实、经验、悖论、个人、偏好、当前、可能, “问题是”。在我看来,聪明人和笨蛋的区别不在于他们的观点和派别,而在于他们能否就自己的观点说出有理有据的所以然。在这个意义上,我欣赏有水平的”论 敌”远甚于就知道吓吵吵的”战友”。

当然,观点建立在知识之上,就好了。

图书馆自动化:10大广告陷阱

星期六, 8月 4th, 2007

以下收集了一些广告概念,大多是近来软件公司喜欢用的,也是许多图书馆喜欢听的。对软件公司的好学精神表示我们应该表示足够的敬意,同时我们自己也应该好好学习,天天向上。

1、图书馆2.0(同义词:Web2.0)。自从2.0成为图书馆先进生产力的代表,尽管有不少学者领导学府胜地不屑一顾嗤之以鼻,毕竟占图林绝大多数的草根们已经开始交头接耳春心荡漾,于是许多厂商纷纷开始开发据说是”图书馆2.0″的功能。您还别说不要一棍子打死,有那么几家还真的在2.0的酱缸里染了点色彩,但是我要提醒图书馆的是,2.0绝没有一揽子解决方案,也不是靠买软件就能实现。

2、网格。我好像还在很年轻的时候已经知道有SETI这个基于网格的外星人探索项目,后来又看了一大堆网格资料,希望能挺身而出,为图书馆学划分一个时代。后来发现很多人都用这个概念划分了无数个时代,这个概念自己却还停留在一个没有多少人用的分布操作系统阶段。好让人伤心。谁要是真的开发出基于网格图书馆自动化系统,请在第一时间告诉我,我一定自带香槟,前往庆祝!

3、资源整合(同义词:异构数据库检索、联邦检索、OpenURL解决方案…)。当秦始皇还没有统一中国的时候,有很多人想统一中国,于是有了很多解决方案,于是中国就一直没有统一。现在我们已经不知道其它方案,我们唯一知道的,秦始皇统一中国后,其它方案于是都不存在了。

4、内容管理(Content Management)。IBM背信弃义,好端端的数字图书馆软件改名叫做内容管理,企图让数图找不到北。于是大家都来搞CM,不管多少资源是自己的,多少是买来的。

5、智能化(同义词变体:自动生成;自动链接)。第五代人工智能,将在图书馆自动化系统中得到咸鱼翻身。

6、彻底支持多语种(原因阐述为:支持UNICODE,支持大字符集等等)。程序员是软件系统的上帝,他们创造的世界是完美的,统一的。而可悲的是现实世界在程序员产生之前就已经存在,遗留的问题足够目前所有的程序员自杀很多次。多语种问题的产生有多方面原因,遗留系统中数据字符集的统一非常复杂,有一些甚至不是仅靠技术就能解决的。

7、一卡通(别名:通借通还)。先解决管理流程问题,再来提出明确需求!解决了管理问题,一卡通可能是最容易解决的问题,否则就是一个比登天还难的问题。任何自动化系统,都不要妄言”完全解决”。

8、支持共建共享。又一个领导需要/欺骗领导的绝妙好辞!要知道我们的领导是以政治的正确要求事业的正确,本来的网络世界,和谐美好,每个节点生而平等,我们的组织模式,一定要分层分级,于是一团浆糊矣…

9、数字版权管理。苹果已经放弃,微软已经放弃,我们却还当宝贝。本来是阻碍生产力发展的代表,却成了先进生产力,矛盾而滑稽。对于图书馆来说,说有了数字版权管理就解决了版权问题,又是一个滑天下之大稽。版权问题不是加了数字版权管理就能解决的,图书馆因为购买包含数字版权管理的数据而多付钱,是冤大头。

10、持多种元数据格式。先把元数据格式搞搞清楚再说。DC只是语义,还没有格式,就有人支持了,支持哪种编码呢?不支持还好,越支持越混乱!

这十大广告陷阱是在志愿者培训时给众多的馆长们讲的,希望更多的馆长知道,所以放在这儿了。

QOTD:版权声明应该改改了

星期六, 8月 4th, 2007

Coyle在他的博文中转述马里兰大学Fred von Lohmann的建议,FBI的标准版权声明应该这样写:

WARNING. Federal law allows citizens to reproduce, distribute, or exhibit portions of copyright motion pictures, video tapes, or video discs under certain circumstances without authorization of the copyright holder. This infringement of copyright is called “Fair use” and is allowed for purposes of criticism, news reporting, teaching, and parody.

警告:联邦法律允许公民在某些特定情况下未经版权持有人许可而复制、发布或展览具有版权的动画、录像带、影碟等资料。这种版权的例外称为”合理使用”,适用于评述、新闻报道、教学以及恶搞。