Archive for 3月, 2008

数字出版的视野和野心

星期六, 3月 29th, 2008

一直在关注陈源蒸老师近期的工作:参与”复合出版工程”有关标准交换格式的制订和讨论。具体的格式规范和细则十分琐碎,涉及到出版、发行、报业、媒体、图书馆等多个传统行业(实际上也涉及到现在的很多互联网甚至2.0企业),现在在征询意见。可以想见,大家都从自己的角度出发,仿佛数字风暴吹翻的只能是别人的小船,自己无需改变。因此如果都听从了大家,一个期望中的龙种生出来可能就要变成怪胎了。

征求相关行业的意见是必要的,但不能受其制约。乔布斯说,用户需求是需要被发现和引导的。媒体融合的时代,数字出版要有大视野,出版的形态在发生改变,人们传播和交流的方式也在发生变化,在这众多的变化之中,什么东西是不变的,什么东西是暂时的,什么东西是永恒的,值得方正这样的”数字毕升”好好思考,否则还会重蹈”排版系统”风光一时而不能风光一世的覆辙。

说到交换格式和技术标准,这不是一个十分困难的问题,只要系统提供可定制的灵活性和扩展性,架构设计得合理,任何现有的和未来的交换标准、协议都可以支持,但是这个”架构”却不是一两句话能讲清楚的,不能放任自负的技术人员来做,要讲政治(战略),这不仅仅是技术,这是核心竞争力。

中国的IT企业生存不易,练就褊狭人格,往往太聪明。殚精竭虑讨好资方,讨好用户,讨好政府,讨好上下游行业,满足于一时偶然的成功,没有主心骨,缺乏大智慧,难成大事业。

书目系统的功能需求(FRBS)

星期日, 3月 23rd, 2008

2.0的书目系统我们已经讨论了很多了,但是看到这样一份功能需求的清单,还是让我吃了一惊。作者说这些还只是提供大家思考的不完全清单(food for thought)。

  • Add to my collection - 加入”我的收藏”。这是基本功能,但实现方式、程度都可以不同。
  • Annotate - 标注/评价,似乎也是基本功能。
  • Cite - 引用,当然要输出成标准的引文格式,如 MLA. Chicago等,保留链接当然更好。
  • Compare & contrast - 比较和对比,除了字词统计之外,似乎要一点人工智能才好。如何用于书目系统,值得探讨。(以下保留原文)This is one of the “kewlest” functions. Select any number of texts. Two. Five. Fifty. One hundred. Select compare. The system reads each text and analyzes the words it finds. It counts the words (much like a concordance) and returns a report listing things such as: these words appear in 90% of the documents, these words appear in 45% of the documents, this document contains most of the words contained in the other documents, this document contains the most number of unique words. By going through this process a person would be able to see which documents were similar to each other and which documents were dissimilar. Optionally, the user could seed the compare & contrast documents with word or phrases to focus on a particular idea.
  • Create different version of - 版本管理,当然,最好都是电子书,而且能FRBRizing就更好了。
  • Create flip book - 做剪辑,似乎是个人知识管理工具的功能。A simple approach it to create an interface allowing the person to “flip” through the book very quickly similar to the way a person makes pages turn very quickly in their hands. Even better, extract all the images from one or more texts and create a slide show of the images. This will allow a person to scan/browse many texts quickly and select a text accordingly.
  • Create tag cloud from - 生成标签云图(与以下”标签”功能不同,这里指从del.icio.us等网站生成云图)
  • Delete from my collection - 从”我的收藏”中删除(这条功能好像多此一举,应该包括在”加入’我的收藏’”中)。
  • Do concordance against - 做字词索引
  • Do rudimentary morphology - 词典功能
  • Find opposite - 查找反例
  • Find similar - 查找同义词
  • Hilight - 内容加注
  • Incorporate into syllabus - 内容关联
  • Map to controlled vocabulary term - 映射至控制词表
  • Plot on a map - 地图标注
  • Print - 智能打印
  • Purchase - 购买
  • Rate - 排序
  • Review - 评论
  • Save - 保存
  • Search - 搜索.
  • Search my collection - 搜索”我的收藏”
  • Share - 内容共享
  • Summarize - 客观摘要(与带有主观性的评论不同,也可由软件自动进行)
  • Tag - 做标签
  • Trace author - 跟踪作者(通过id?)
  • Trace citation - 引文跟踪
  • Translate - 翻译

其中许多功能有很大的想象空间,做得程度如何,其实相差很大。就像我们现在的很多东西一样,可以只是宣传策略,中看不中用,也可以实质性地去做。”注水”的数字图书馆和图书馆服务实际上是很多的,只是图林很少有方舟子啊。

数码家电一年进展

星期六, 3月 22nd, 2008

去年劳动节写了一篇数码时尚产品的博文,列举了最希望拥有的十个东东,时间不到一年,其中的几样已经与我朝夕相处了。

iPhone是一位长辈从香港带回的新年礼物,实属意外之喜。但最没有想到的是iPhone在上市才几个月就被Crack了所有功能,不知是苹果的能力不济还是有意为之,成了目前国内数十万台水货的直接源动力。目前略感不便的是功夫网的作梗和应用软件的缺乏(例如大智慧就不支持这个平台,手机版的Safari也还不支持插件)。如果以美国目前399美刀的价格,具备iPod(实际上是8GB的iTouch)、时尚手机(拥有multi-touch人机界面,200万像素照相机)和基本PDA功能的个人电子设备,绝对值得拥有!隆重推荐!

数码单反,是去年去IFLA前购买的一台尼康D40x,像素只有680万,但性价比不错,目前套机大约不到4000就可以拿下。

元旦和春节期间,那口子奖励自己一年辛苦,特批俺将HTPC升级,并购买了Wii和PS3。偶的PS3实际上是当蓝光播放机在用,一部分功能与HTPC重叠。数字家电实际上越来越电脑化,Hacker们总是想挖掘更多的功能,从而使专用家电变成 了多功能的电脑。而HTPC也越来越家电化,每个功能都要做到极致,造成了现在的DIY与过去电子管时代巨大的不同。至少硬盘录像机是可以不要了,网上下载的高清电影用HTPC足够看到爽,然而网络收音机的效果还不行,远不如卫星收音机(iPhone就有专门的软件可以当网络收音机用),主要还是带宽 不够。

PS3和Wii两款游戏机是值得大书特书的。前者据说SONY亏本赚吆喝,与XBox打得不可开交,一度卖一台亏一台,现在总算修成正果,特别是蓝光带来的市场占有率成了打败HD-DVD的头号功臣,但是其软件过于昂贵,加密技术至今无人能破,一个游戏要300-500,好在目前蓝光电影碟逐步与普通DVD接近了。Wii绝对是一个划时代的游戏产品,我的Wii买来在家里没有驻扎一个月,一直在外周游列国,我都不好意思拿回来了。这两个东东目前市售大约分别在3300(60G)和1900左右,当然都是水货,说这些是给大家一个参考。

Zune当时是作为iPhone的替代品而罗列的,至今没有看到真面目,而且Google的手机Switch也没有下文,看来苹果借着iPod的东风,领先业界不是一点点阿。

Spype的电话在国内WiFi不是很普及的情况下,看来还不值得拥有,除非是国际长途多得不得了的公司和家庭。据说iPhone也能借助WiFi打Skype,配置起来比较复杂,还没有试过。 目前USB口的Skype简易电话只要几十块钱,实际上就是Skype软件的专用外设,一台即能打普通电话又能打Skype的最便宜的也要1000元以上。不过比我在新加坡看到的、动辄4-500新币的已经便宜多多了,估计是国内代工流出来的。就像手机店永远看不到iPhone一样,这些东东也不可能有电信产品销售许可证。

支持多种格式的高清硬盘摄像机感觉还不是特别需要,一是因为家里有DV,越来越少有机会用它;其次做视频播客费时费力,还是让年轻人多折腾去吧。

投影也是有了就不想再换了,三四年前的三洋Z2已经支持720p,缺点是灯泡亮度不够了,而且没有HDMI接口(只有现在没落了的D4)。目前呆在客厅里的时间越来越少,发烧重点应该从器材转向内容,软件收藏很多却不去欣赏,是假发烧和真浪费了。


Technorati :

常用的火狐狸插件

星期五, 3月 21st, 2008

前几日看到丫枝在秀他的火狐狸插件,想想那么些好东西居然那么多人都不知道,前年在馆内介绍”图书馆员2.0必须掌握的十个工具”都介绍过,现在了解下来,好像没多少人用,为什么呢?看来这是个社会学问题,值得深究。

再来宣传一下偶常用的FF插件。这些东东每次(重)装一个系统都要逐一装上去,否则就用不习惯。倒是有很多以前必装的应用程序,现在感到可有可无了。

Gladder,穿墙首选,参考工作利器,2不2的首要标准。已内置几个著名网站的代理,如维基百科、blogspot、wordpress.com、technorati等。

Access Flickr!,偶是pro用户,每年付钱的,知道国内会做yupoo,就不会作这个冤大头了,现在莫法,幸亏能穿墙。

Backword,mouse over就能翻译单词的工具,阅读外文的伴侣。

Greasemonkey,很多用户代码需要这个东东才能运行。

Scribefire,一边看网页一边写博客。

Zotero,丫枝已经介绍。很好的研究工具,但有一重大缺憾:数据本地存储,不同机器上的知识库无法同步。据说正在开发,但已经开发很久了,影子还未见着。

BlueOrganizer,综合性的个人知识组织/管理工具,据说克服了Zotero的缺点,但是还用得不多,故不熟。

ScrapBook,丫枝已经介绍,据说很好,但用的不多。

Web Developer,常用于偷窥/盗取别人网页背后的秘密。

Flash Video Resource Downloader,最近由于作课件的需要,剽窃别人的东西专用。

还有一些比较小众,要么不登大雅之堂的插件,就不多说了。

回忆“现代化之路”主持人语

星期四, 3月 20th, 2008

前几日查索CNKI,偶然翻出王源老师与我在《图书馆杂志》2000年第一期的一个对话:《图书馆现代化:从何出来,向何处去》,作为该刊”现代化之路”新千年第一期的主持人语。看到王老师八年前的回顾和前瞻,不得不佩服老先生体察脉络与洞悉趋势的能力,景仰之情简直如崇拜数字图书馆的老祖宗万尼维尔 布什一般。

王老师认为”数据组装(data assembling)”将是未来的一个趋势:

“我在文献中还没有看到这一提法。我认为这是很自然的。开始是数据库(database),而后是数据仓库(data warehouse),有了数据仓库而后出生了数据挖掘,我认为挖掘还不够,还要把他们根据服务对象的需求组装成新的数据产品。至于数据组装是否侵权是值得推敲的。

“其实数据组装一直存在,工具书就是数据组装的产品。只是他们是通过专家的智慧用手工进行的,是一种编辑工作。 现在大量信息是机读的,可以用现代化手段很快地把不同来源的同一主题的信息集中起来,使之可以更方便地被利用。超文本链接是物理上分散,逻辑上相连,而数据组装则要求物理上和逻辑上都按照同一主题集中……这样的话,我们从事文献信息的专家又有许多工作可做。”

“数据组装”的思想, 不正是现在2.0中的mashup吗?

有幸本科毕业前在有机所实习,王源老师使我们了解了当时国内最先进的情报检索系统。我们都知道王老师是自学成材,这更增加了我们对他的敬仰。但当时我不是个好学生,同学们都记得我盗取DEC Vax 11/780小型机管理员密码的事情,留下恶名。所以我一直很害怕王老师,也没想到王老师会邀我共同主持这个栏目。

很怀念当初给图书馆杂志的技术栏目写”主持人语”的日子,每到大限临近,常常抓耳挠腮,弄到深夜。后来把Leon拉来垫背,才如释重负。但正当我们驾轻就熟、渐入佳境之时,不知为什么杂志社取消了主持人语,可能是那些不着边际的话越来越成了我们不知天高地厚、指点江山、挥洒文字的私器了吧。后来终于有了博客,我们也就不在乎什么主持人不主持人了,哈哈。

附王源老师的一次讲座录像(90分钟,来自中科院上海生命科学信息中心)。

偶的数字化生活

星期一, 3月 17th, 2008

006keven上传于Yupoo, 由相机iPhone拍摄. 今天来曝曝隐私,秀一把最近的数字化生活,真正的多媒体啦,看看各位能够看出几样东东。


Technorati :

有关2.0的播客频道

星期日, 3月 16th, 2008

itune1

keven上传于Yupoo, 由相机Unknown拍摄.

如果你有ipod/iphone,右图的一些频道有丰富的免费内容可供订阅。当然你也可以下载其中的mp3,除了无法自动更新之外,其实与ipod也没什么两样,任何mp3播放机都可以放。

关于FRSAR的问题

星期四, 3月 13th, 2008

看了一晚上FRSAR,结合曾蕾老师的proposal,总结了如下问题:

1、作为描述任何信息资源”主题”属性的抽象模型和应用框架,感到FRSAR似乎没有必要受FRBR的局限,完全能够、也有必要独立存在。FRBR模型本身具有很多模糊性(如下所述的work的定义等),不利于计算机处理和应用,而对于”主题”属性的规范控制,是语义Web的一个极其重要的应用需求,目前还没有很好的解决方案(至少传统的、通过第三方标注而建立的可信任信息,仍旧是实现trusted web的一个方法)。

2、作为”主题”的承载对象的”作品(work)”如何界定?因为作品不仅仅是文学作品,如果所描述的主题只是关于作品的一个局部,如何描述?也就是说在work-thema-nomen的结构中(首先需要说明的是:窃以为这个模型的认识论意义非常重大,但是为了”机读”,还需要更加明确一些),thema可以有parts,work可不可以?局部的work还是不是work?描述局部work的thema能不能代表这个work的thema?(即thema与work的对应关系,不能搞得很复杂,所以就需要对work进行明确界定。)

3、thema有parts的意义何在?是不是因为thema有许多下位的parts,具有thema的work自然就继承了这些parts的thema?在实践中这里面又有一大堆问题需要研究和解决。不如先简化这个问题,留待以后解决。本来一个work可以有很多主题,各个主题并不排斥,可以并存。

4、thema除了可以有parts之外,还可以有type,目前的困境是,能否穷尽type?是否有必要穷尽type,制定严格的规范,必须在这些type中选择?目前的concept, object, event, place再加一个time,是不是就是thema的所有type?如果有从其它角度的分类,是否允许?类型是不是可以开放式的、可扩展的?

5、我对于这个模型的理解:nomen似乎作为thema的形式表现而存在,所有的规范控制都可以归结为对于nomen的规范控制(通过对nomen的规范而达到对thema的规范),work、thema以及nomen这三类”实体”内部的关系和相互关系,都通过nomen的关系来反映。这就是说,规范词表就是nomen的词表(由此nomen词表的规范体系和功能实现又是一大堆问题需要研究了)。

6、根据figure4,由于第一、第二组实体都可以作为work的主题,nomen是不是也可以是第一、二组实体的表现形式呢?于是规范了 nomen就规范了一切。nomen就包括书目数据的规范记录、人名/机构名规范档以及主题词表/分类法等所有的规范控制体系(KOS)。

7、进一步的问题:如何以上述模型描述、并实现规范控制的功能需求?如何编码、形式化、机器可处理?

参考:

编目精灵:FRBR家族未来的第三个成员–FRSAR

书蠹精:FRBR中文翻译版正式发布

抢钱的大会

星期二, 3月 11th, 2008

借奥运东风,世界万维网大会(WWW2008)终于开到中国来了,北航做东,时间就在下个月,兴冲冲去注了册,五天1520元注册费不贵,仔细看发现是美元,发展中国家,不包吃不包住,还有古狗、微软赞助,抢钱哪?真成了网络贵族的大会了。
看看会议博客做得一点技术含量都没有,不去也罢。

Drupal向Web3.0发展?

星期日, 3月 9th, 2008

Drupal看来确实是一个值得关注的开源软件,不仅因为它是Web2.0的内容管理软件,而且因为它正在向3.0发展。

我并不喜欢2.0、3.0之类的模糊词汇,现在已经炒到4.0了(见这里这里),但是大家都这么说,就将就了吧。

在上周召开的Drupalcon Boston 2008大会上,Drupal的创始人Dries Buytaert发表了一场精彩的主旨报告,这里有视频(视频1视频2),可惜我们看不到。 Dries正在把Drupal带入一个全面应用RDF的富语义时代,在他的演示中我们可以看到作为一个内容管理软件平台的Drupal如何借助标准的SPARQL语言,将各类语义应用(如dbpediadbtunes,Google数据), 以及包含地理数据(geodata),事件、FOAF 、表单,利用Exhibit框架混搭(mashup)起来。

这是一个令人振奋的进展。在许多Web2.0的开源社区中,Drupal似乎显得最有活力, 这次Drupalcon Boston 2008半年会盛况空前,可能与Drupal注入了一定的商业元素有关吧。开源如何与商业共同发展,是一个值得探讨的话题。

进一步资讯:开源CMS 项目 Drupal 创始人 Dries Buytaert 访谈录

J. of Web Librarianship哪家有订?

星期日, 3月 9th, 2008

Haworth出版的季刊Journal of Web Librarianship (出版商链接)内容看起来不错,上海地区期刊联合目录中没有,不知哪家有订?

最新一期的目录可以看看:

Collaborative Strategic Planning: A Wiki Application
Susan L. Kendall, Mary H. Nino, and Shannon M. Staley

Syndicating Rich Bibliographic Metadata Using MODS and RSS
Andrew Ashton

Webifying a Workshop: From Our Classroom to Their Desktop
Daniel S. Dotson and Amanda J. Wilson

Dynamic Pathfinders: Leveraging Your OPAC to Create Resource Guides
Ben Hunter

SOCIAL EYES: Making IT Work: Tips for Getting Projects off the Ground
Brian S. Mathews

GLOBAL CONNECTIONS: Eternal Egypt
Sarah Beasley and Candice Kail

丢魂的情报学

星期四, 3月 6th, 2008

大家都知道”它”在那儿,可就是说不清楚它是什么。或者你以为你说清楚了,但是几乎没有人同意你的观点,甚至没有两个人的观点是一致的。

这就是现在的”情报学”。

前两天看到小娄娄《情报学完全可以独立于图书馆学》的博文,留了这么一段话:

学科的内容是其立足的基本依据,目前这两门学科都似乎残墙颓垣或图有躯壳,还是不要内讧的好.
学科之间的关系也并不是一层不变的,儿子长大了要脱离老子,也是没有办法的事情,甚至还会有孙子(竞争情报)造反的那一天,和谐一点吧!
科学研究有其自身的规律,图书馆学和情报学要立足,还是扎扎实实地探索些来自实践的问题,从概念到概念,从文章到文章,恐怕是没有前途的。

情报学独立不独立其实不重要,自己人不说,外人是不知道的。当初如果没有”信息学(Information Sciences)”搅局,中国特色的情报学可能早已建立,而且可以骑在图书馆学头上作威作福了。

只是现在没有了体制支撑的”情报事业”,情报学突然也失去了支撑,让人有点匪夷所思。试想医学没有了医院、生物学没有了动物园,是不是一个个立马散架、晕倒、都不行了?这种情况倒跟图书馆学异曲同工。看来图书馆学改名至今都不成功,是有原因的。

情报学实践性很强,且总有数学撑腰壮胆,本来根正苗红、起点很高。却习惯于躲进书斋自我完善,自成体系,自我陶醉,面临”泛在信息”时代的到来和体制上的釜底抽薪双重夹击,几乎分崩离析,于是遭到了实证派的猛烈抨击。 然而实证派能够祭出的情报学又实在太狭隘,不如直接叫做”谍报学”,或者东一榔头西一棒子的情报工作总结。

许多人赞赏推出一个既非information又非intelligence的”情报”学,中国特色浓郁,有望入选”国粹”,有这样的”科学”当然好,只是无法跟外国人交流,美其名曰”民族的就是世界的”,可以算作第五大发明,只能关起门来好好自模一把,揽镜自high了。