不太相信有什么人真的能掌握好两种语言。不管是谁,不论多聪明,总会有一种语言文字是主要的,用来表达比较深刻的思想和观点。像K,离开北京一年,不知道怎么地,感觉上和中国的语言文字就产生距离似的。那种被方块字团团包围的环境,对她来说,是让这个语言进步、变得精彩的最佳途径。
在北京,她随时都可以走进一间从一层到六层都是中文书的书店。每一本拿起来都给她全然不同的感受,让她清楚看到这个文字的多彩和深度。就算足不出户,她也可以打开电脑到网上订购图书。隔天图书送上门来,K就埋在书堆里,一本一本地翻,翻着那些纸张的感觉,阅读他人的思考和情感纪录,让K心里无比满足。
K喜欢语言和文字,中文、英文、法文、意大利文、菲律宾塔加洛文、俄罗斯文等等,都各有千秋。就算听不懂、看不懂,K仍觉得它们各有各的好听、各有各的好看、各有各的好玩。
回到新加坡这个语言复杂的环境里,K可以感受到她仅懂的两种语言经常在脑子里打架。有时英文打败华文,有时华文打败英文。写着写着,明明在写英文,语法却变成中文的;说着说着,明明在说华语,却得到英语里找词汇。那些中英语文的词汇、语法,在她脑子里各据一方,突然跳出来干扰对方,弄得两方都无所适从。
从北京刚回来时,她特别受不了国人的华语和英语。华语说得难听得可以,英语也说得不像样,没有一个语言说得“溜”,随便一个北京德士师傅就把谁都比下去。什么“讲华语运动”、“讲标准英语运动”,K认为这些运动一点用处也没有。语言文字,是得浸在里面才能学好的。
她记得大女儿北京班上的中国小朋友,当时她们不过念幼儿园,才五六岁年纪,但每天回家看的卡通片是改编自中国神话的《哪吒》。于是,小朋友们在学校里,都互相喊着谁是哪吒,谁是哪吒的好朋友——小龙女。她们玩追逐游戏的时候,亮出来的武器是“乾坤圈”和“混天绫”。
今天,她七岁了的女儿从新加坡学校回来问她:“妈妈,学校的小朋友都在看'Singapore Idol'。什么是'Singapore Idol'?我可以看吗?”K脸黑黑回答不可以,语气斩钉截铁。她从抽屉里挖出《哪吒》,决定让孩子们从头再看一遍。
不管是中文还是英文,如果每天孩子们接触的只是这种速食文化的语言文字,没有美感、没有深度、没有“文化”;当其他国家的孩子——那些以后我们的孩子在国际上所将面对的竞争对手——接触的是那样的文化,而我们的只是这样,那往后我们当然也只能够是这样。
不仅无法应付老在打架的两种语言文字,更失去了表达自己的能力。那真是作为一个人的悲哀呀……
● 丹女
Sunday, July 30, 2006
选择的悖论
“我是应该自杀还是喝杯咖啡?”卡谬把生活是不断的选择这简单道理包装得耸人听闻地。
有人说,美国之所以需要那么多心理治疗师,因为传媒上充斥着快乐的广告及美丽的人,对照之下,许多人觉得自己不快乐不美丽,当然就烦恼多多。现实中有时选择不多,可是却被布置成充满选择。
有人捉到一只草龟,他肚子正饿,又爱喝草龟汤,就赶快烧了一大锅开水,可是他是一个善心人,不忍心杀龟,而且杀龟也不是吉利事,于是在开水锅上摆了一根竹竿,把龟放在竹竿上说:“龟呀龟,如果你能够在竹竿上从锅的这边爬到那一边,不掉下去的话,我就放了你。”龟于是小心翼翼,尽管竹竿不十分稳当,还是一步一步,拼老命地爬到锅的另一边。善心人非常惊讶,拍起掌来,然后说:“再来一次,现在你从锅的那边爬回这边。”龟如果跌入热汤中,当然就为开水增添鲜美的肉味,那是龟自己不小心或没气力;如果龟拒绝玩爬竹竿这杂技,善心人一定说我给了你一条生路,可是你却选择放弃,我当然把你丢进热水中。
可怜的龟,它其实是没有选择的,可是却被愚弄得以为有选择。难怪美国畅销书作者巴里·施瓦茨在《选择的悖论》(The Paradox of Choice)书中说,那些期待选择获得最理想结局的人,是抑郁症的首选人群。
了解自己只有多少选择的人,当然比较不会烦恼。
阅读全文
有人说,美国之所以需要那么多心理治疗师,因为传媒上充斥着快乐的广告及美丽的人,对照之下,许多人觉得自己不快乐不美丽,当然就烦恼多多。现实中有时选择不多,可是却被布置成充满选择。
有人捉到一只草龟,他肚子正饿,又爱喝草龟汤,就赶快烧了一大锅开水,可是他是一个善心人,不忍心杀龟,而且杀龟也不是吉利事,于是在开水锅上摆了一根竹竿,把龟放在竹竿上说:“龟呀龟,如果你能够在竹竿上从锅的这边爬到那一边,不掉下去的话,我就放了你。”龟于是小心翼翼,尽管竹竿不十分稳当,还是一步一步,拼老命地爬到锅的另一边。善心人非常惊讶,拍起掌来,然后说:“再来一次,现在你从锅的那边爬回这边。”龟如果跌入热汤中,当然就为开水增添鲜美的肉味,那是龟自己不小心或没气力;如果龟拒绝玩爬竹竿这杂技,善心人一定说我给了你一条生路,可是你却选择放弃,我当然把你丢进热水中。
可怜的龟,它其实是没有选择的,可是却被愚弄得以为有选择。难怪美国畅销书作者巴里·施瓦茨在《选择的悖论》(The Paradox of Choice)书中说,那些期待选择获得最理想结局的人,是抑郁症的首选人群。
了解自己只有多少选择的人,当然比较不会烦恼。
阅读全文
Sunday, July 16, 2006
政治能许我们一个未来
政治能许我们一个未来
--读 覆巢之下 焉有完卵 有感
政治与每个人的未来息息相关。(注1.李光耀语)
华人政治意识冷漠,独立前已经不善争取政治权益,独立近五十年以来我们的政治权益又仅仅依靠马华(从选票来看)这个事后证明是事事"无为"(无所作为)的懦弱/没有立场/没有主见/没有自尊/逃离政治的政党(说好听是奉行中庸的政党,本质不变).独立近五十年后,华裔人口比例又下降至不到三分之一,华人民族天性侧重经济利益,仅有华小独中教育课题是华社的最后保垒,不善争取其他方面的权益的弱点被种族政党政客玩弄,导致最后保垒的据点越来越小,步步往后退,再不久就会退至悬崖,退无可退了.
另一边厢,相较下马来民族比较关心政治权益,独立前期善于争取政治权益,要求把沙,砂加入马来西亚的版图以增加种族的比例,同时抗衡新加坡加入后马来西亚的华族人口比例。这点虽无可厚非,却也说明了马来民族的高度政治意识。加上独立后,又通过种种手段(如默许引进印尼人口,归化为马来西亚公民;对大量沙,砂边界的印尼人采取只眼开,只眼闭的态度,据闻他们还有办法弄到大马身份证;最近又爆出"M 计划"的事件),独立后短短数十年间,土著人口遽然比例大增,政治权益也相对地获得了保障。政客为了政治利益,平步青云,不断玩弄种族,宗教, 教育课题,多年来有人每退让一步,就有人跟进一步。
此消彼长,再加上不争气的政党和人民,政治权益被狠狠地剥削,仅存的一点丁教育权益竟也会惹人眼红。
世界经济风雨雷电交加,甫传来孟买的恐怖爆炸惨案,中东局势吃紧,美国经济和油价隐忧,马来西亚国内政党政客继续把时间,金钱,资源,精力耗于内斗;内忧外患,马来西亚的未来,在哪里?马来西亚土著以外的公民的未来,又在哪里?
除了冀望于马来西亚人的政治意识的觉醒,公民社会的到来,摒弃种族主义的政党政治外,要扩大日渐式微的政治权益,实际可行的,除了"政治"这个出路,别无他法。
政治能许我们一个未来,但我们关心政治吗?力度够吗?
注:
1.李光耀在“我的选票为什么重要——与内阁资政对话”:"政治和你的生活、你的未来息息相关,如果情况变坏,你的前途就没了......政治和你的生活、工作、住屋、医疗保健以及你孩子的前途有关。" (2006-04-13)
新加坡人不可不关心政治——李资政与年轻人谈大选
--读 覆巢之下 焉有完卵 有感
政治与每个人的未来息息相关。(注1.李光耀语)
华人政治意识冷漠,独立前已经不善争取政治权益,独立近五十年以来我们的政治权益又仅仅依靠马华(从选票来看)这个事后证明是事事"无为"(无所作为)的懦弱/没有立场/没有主见/没有自尊/逃离政治的政党(说好听是奉行中庸的政党,本质不变).独立近五十年后,华裔人口比例又下降至不到三分之一,华人民族天性侧重经济利益,仅有华小独中教育课题是华社的最后保垒,不善争取其他方面的权益的弱点被种族政党政客玩弄,导致最后保垒的据点越来越小,步步往后退,再不久就会退至悬崖,退无可退了.
另一边厢,相较下马来民族比较关心政治权益,独立前期善于争取政治权益,要求把沙,砂加入马来西亚的版图以增加种族的比例,同时抗衡新加坡加入后马来西亚的华族人口比例。这点虽无可厚非,却也说明了马来民族的高度政治意识。加上独立后,又通过种种手段(如默许引进印尼人口,归化为马来西亚公民;对大量沙,砂边界的印尼人采取只眼开,只眼闭的态度,据闻他们还有办法弄到大马身份证;最近又爆出"M 计划"的事件),独立后短短数十年间,土著人口遽然比例大增,政治权益也相对地获得了保障。政客为了政治利益,平步青云,不断玩弄种族,宗教, 教育课题,多年来有人每退让一步,就有人跟进一步。
此消彼长,再加上不争气的政党和人民,政治权益被狠狠地剥削,仅存的一点丁教育权益竟也会惹人眼红。
世界经济风雨雷电交加,甫传来孟买的恐怖爆炸惨案,中东局势吃紧,美国经济和油价隐忧,马来西亚国内政党政客继续把时间,金钱,资源,精力耗于内斗;内忧外患,马来西亚的未来,在哪里?马来西亚土著以外的公民的未来,又在哪里?
除了冀望于马来西亚人的政治意识的觉醒,公民社会的到来,摒弃种族主义的政党政治外,要扩大日渐式微的政治权益,实际可行的,除了"政治"这个出路,别无他法。
政治能许我们一个未来,但我们关心政治吗?力度够吗?
注:
1.李光耀在“我的选票为什么重要——与内阁资政对话”:"政治和你的生活、你的未来息息相关,如果情况变坏,你的前途就没了......政治和你的生活、工作、住屋、医疗保健以及你孩子的前途有关。" (2006-04-13)
新加坡人不可不关心政治——李资政与年轻人谈大选
Wednesday, July 12, 2006
马来西亚人从不看笑话,为什么?
可知道为什么马来西亚人从来不看笑话?
答案:看看某些内阁部长的“惊人”言论,想想他们在内阁会议所作的决定,你还嫌笑话看不够吗?
==============================================
5亿伦敦设体育馆 让运动员适应寒冷氣候 让我想起了一则笑话。
儿:“爸爸,我要到北极去探险,所以我必须先锻炼体魄,把身体练好,你愿意帮助我吗?”
父:“哦?说来听听!”
儿:“爸爸,你只要每天买雪糕给我吃,好让我的身体适应寒冷氣候,那就没问题了。”
笑话中的小儿是童真,天马行空。
现实生活中的马来西亚内阁部长,真的是天真吗?
新闻背景:議員追問實用性 政府5億英國建運動中心
答案:看看某些内阁部长的“惊人”言论,想想他们在内阁会议所作的决定,你还嫌笑话看不够吗?
==============================================
5亿伦敦设体育馆 让运动员适应寒冷氣候 让我想起了一则笑话。
儿:“爸爸,我要到北极去探险,所以我必须先锻炼体魄,把身体练好,你愿意帮助我吗?”
父:“哦?说来听听!”
儿:“爸爸,你只要每天买雪糕给我吃,好让我的身体适应寒冷氣候,那就没问题了。”
笑话中的小儿是童真,天马行空。
现实生活中的马来西亚内阁部长,真的是天真吗?
新闻背景:議員追問實用性 政府5億英國建運動中心
迟来的正义, 不是正义
迟来的正义,不是正义! (Justice delayed is justice denied.)
迟到十一年的公正,我们高兴得起来吗?
这十一年间,有多少不为人知的警察伤人事件被扫进地毯下?有多少正义来不及伸张?
不仅仅是警察无权伤人,任何人都无权伤人,而我们竟然要等十一年后,由法官来告诉我们!
别忘了刘天球乃政治人物,他的待遇尚且如此(虽然法律下人人平等,但政治人物被警察殴伤,所获得的媒体报道应该不少),平民呢?
倘若胜诉的是警方,同样的,警方该高兴,还是悲哀?
“迟来的正义为非正义”同样的讽刺。
我们的社会竟然容忍警察的形象继续被害群之马(还是害马之群?)诬蔑,被殴伤的平民的正义迟迟不能伸张,我们的社会--------病了!
新闻背景 : 刘天球起诉警方案已经拖延长达11年,展期六次,迟至2006年5月今才开审。
#
迟到十一年的公正,我们高兴得起来吗?
这十一年间,有多少不为人知的警察伤人事件被扫进地毯下?有多少正义来不及伸张?
不仅仅是警察无权伤人,任何人都无权伤人,而我们竟然要等十一年后,由法官来告诉我们!
别忘了刘天球乃政治人物,他的待遇尚且如此(虽然法律下人人平等,但政治人物被警察殴伤,所获得的媒体报道应该不少),平民呢?
倘若胜诉的是警方,同样的,警方该高兴,还是悲哀?
“迟来的正义为非正义”同样的讽刺。
我们的社会竟然容忍警察的形象继续被害群之马(还是害马之群?)诬蔑,被殴伤的平民的正义迟迟不能伸张,我们的社会--------病了!
新闻背景 : 刘天球起诉警方案已经拖延长达11年,展期六次,迟至2006年5月今才开审。
#
Thursday, July 06, 2006
相对
好多时候,算不上好或坏,只有相对地喜欢或与否。
整整一年的时间,居住在北方小镇购物时必须调整心态。购物回到了原有的本质,也就是买所需的。货样都以功用为主,看起来总是土里土气的,稍微带点设计但还算不上漂亮的还叫价不菲。
或许审美眼光不同。不过换个角度,这样也可以回到生活的本质。回头再看城市生活的精彩和品味,也许那只是变相的奢华。选择多的时候,买东西已从需要变成是一种纯粹想要的心理。旧东西必须让步给新的东西,才能应付永无止境的欲望。
北英格兰这小镇由于人口不多,镇上只有几家商店和一家只上映一、两部电影的电影院;商店五点钟准时打烊;小镇的娱乐设施少,镇上的人最大的消遣就是上酒馆和舞厅。住惯了大城市的同学压根儿受不了这个地方,尤其是来自人口稠密的亚洲地区子民,更是习惯了便捷、快速的公共设施和服务,以及朝气蓬勃的娱乐设施。
小镇的硬体娱乐设施或许少,却意味着人们必须采取主动的消闲方式,例如阅读、垂钓、散步、进行户外活动……一些在城市人看来是很闷的活动。然而,正是因为拥有了硬体娱乐设施,城市人的感官变得被动、变得有所依赖。一旦失去硬体,就顿时不知所措。如果有一天,狮城的所有购物商场全都消失,那不知会是多少人的噩梦。
很多时候,客观事物没变,只是所站的角度稍微移动,就能看出不同的标准。
摘自相对-阿龙
整整一年的时间,居住在北方小镇购物时必须调整心态。购物回到了原有的本质,也就是买所需的。货样都以功用为主,看起来总是土里土气的,稍微带点设计但还算不上漂亮的还叫价不菲。
或许审美眼光不同。不过换个角度,这样也可以回到生活的本质。回头再看城市生活的精彩和品味,也许那只是变相的奢华。选择多的时候,买东西已从需要变成是一种纯粹想要的心理。旧东西必须让步给新的东西,才能应付永无止境的欲望。
北英格兰这小镇由于人口不多,镇上只有几家商店和一家只上映一、两部电影的电影院;商店五点钟准时打烊;小镇的娱乐设施少,镇上的人最大的消遣就是上酒馆和舞厅。住惯了大城市的同学压根儿受不了这个地方,尤其是来自人口稠密的亚洲地区子民,更是习惯了便捷、快速的公共设施和服务,以及朝气蓬勃的娱乐设施。
小镇的硬体娱乐设施或许少,却意味着人们必须采取主动的消闲方式,例如阅读、垂钓、散步、进行户外活动……一些在城市人看来是很闷的活动。然而,正是因为拥有了硬体娱乐设施,城市人的感官变得被动、变得有所依赖。一旦失去硬体,就顿时不知所措。如果有一天,狮城的所有购物商场全都消失,那不知会是多少人的噩梦。
很多时候,客观事物没变,只是所站的角度稍微移动,就能看出不同的标准。
摘自相对-阿龙
Wednesday, July 05, 2006
互联网伦理.权利与义务
... 虽然互联网是一个平等的平台,但当我们拥有这样一个民主、平等的话语公共平台的时候、当我们因此而被赋予更多权利的时候,我们应该更加警醒与自律。权利与义务相伴相生,在大胆假设的同时更要小心求证。否则,一批少数的人发出巨大的声音,淹没了大众的声音,也伤害了公正与真理。
这是我们必须一起努力克服的。我希望作为中国的网民和网站,我们可以一起下决心:
• 每一个人在论坛上有权力报道事实,也有权力发表意见,甚至有权力做大胆的假设或猜测。但在表达的时候,一定要就事论事。如果我们做一个假设或猜测,我们就要清晰地表达,不可以把未经证实的假设当作事实,更不可以杜撰信息,误导大众。
• 谣言止于智者。如果一件消息没有根据,不要道听途说。在网上看到的信息,如果不是有权威的(尤其是那些匿名发表的),我们不要轻易听信,更不要去传播。
• 说话前请多三思,想想是否会对别人造成不必要的困扰。这样尊重别人,也会获得别人的尊重。
• 听到别人的是是非非,别急着下评论,抱着 “小心求证” 的心态,对于那些被大肆传播的信息,不妨去做一些调查工作,如果发现有可能是有意的误导或造谣,主动地把这个事实公布出来。相信自己的判断力与洞察力,不要不经思想就听信别人的话。
• 如果我们怀疑一个未经证实的新闻,在各个论坛被灌水式传播,我们要站出来,质询它的公正性,确认它不是经过恶意散播。
• 举报违反论坛规则的帖子,让论坛管理员处理。
• 少点击、回复那些明显煽动性的标题,让它们沉下去。多参与那些有意义的讨论,让它们浮上去。这样,我们可以提升整个 Web 2.0 内容的水平。
• 希望更多的记者和网站不要过分地转载那些未被证实的帖子
凡事小心求证;避免故弄玄虚
凡事客观讨论;避免损人利己
凡事就事论事;避免毁谤造谣
凡事传播信息;避免侵人隐私
摘自 中国 Web 2.0 的责任感 - 大胆假设更要小心求证
2006年6月30日 下午 02:28:00
发表者:李开复
这是我们必须一起努力克服的。我希望作为
• 每一个人在论坛上有权力报道事实,也有权力发表意见,甚至有权力做大胆的假设或猜测。但在表达的时候,一定要就事论事。如果我们做一个假设或猜测,我们就要清晰地表达,不可以把未经证实的假设当作事实,更不可以杜撰信息,误导大众。
• 谣言止于智者。如果一件消息没有根据,不要道听途说。在网上看到的信息,如果不是有权威的(尤其是那些匿名发表的),我们不要轻易听信,更不要去传播。
• 说话前请多三思,想想是否会对别人造成不必要的困扰。这样尊重别人,也会获得别人的尊重。
• 听到别人的是是非非,别急着下评论,抱着 “小心求证” 的心态,对于那些被大肆传播的信息,不妨去做一些调查工作,如果发现有可能是有意的误导或造谣,主动地把这个事实公布出来。相信自己的判断力与洞察力,不要不经思想就听信别人的话。
• 如果我们怀疑一个未经证实的新闻,在各个论坛被灌水式传播,我们要站出来,质询它的公正性,确认它不是经过恶意散播。
• 举报违反论坛规则的帖子,让论坛管理员处理。
• 少点击、回复那些明显煽动性的标题,让它们沉下去。多参与那些有意义的讨论,让它们浮上去。这样,我们可以提升整个 Web 2.0 内容的水平。
• 希望更多的记者和网站不要过分地转载那些未被证实的帖子
凡事小心求证;避免故弄玄虚
凡事客观讨论;避免损人利己
凡事就事论事;避免毁谤造谣
凡事传播信息;避免侵人隐私
摘自 中国 Web 2.0 的责任感 - 大胆假设更要小心求证
2006年6月30日 下午 02:28:00
发表者:李开复
如何确定网页和查询的相关性
数学之美 系列九 -- 如何确定网页和查询的相关性
2006年6月27日 上午 09:53:00
发表者:吴军,Google 研究员
[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]
我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询“原子能的应用”的相关性对这些网页进行排序。因此,这里的关键问题是如何度量网页和查询的相关性。
我们知道,短语“原子能的应用”可以分成三个关键词:原子能、的、应用。根据我们的直觉,我们知道,包含这三个词多的网页应该比包含它们少的网页相关。当然,这个办法有一个明显的漏洞,就是长的网页比短的网页占便宜,因为长的网页总的来讲包含的关键词要多些。因此我们需要根据网页的长度,对关键词的次数进行归一化,也就是用关键词的次数除以网页的总字数。我们把这个商称为“关键词的频率”,或者“单文本词汇频率”(Term Frequency),比如,在某个一共有一千词的网页中“原子能”、“的”和“应用”分别出现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035 和 0.005。 我们将这三个数相加,其和 0.042 就是相应网页和查询“原子能的应用”
相关性的一个简单的度量。概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。 (TF: term frequency)。 那么,这个查询和该网页的相关性就是:
TF1 + TF2 + ... + TFN。
读者可能已经发现了又一个漏洞。在上面的例子中,词“的”站了总词频的 80% 以上,而它对确定网页的主题几乎没有用。我们称这种词叫“应删除词”(Stopwords),也就是说在度量相关性是不应考虑它们的频率。在汉语中,应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后,上述网页的相似度就变成了0.007,其中“原子能”贡献了0.002,“应用”贡献了 0.005。
细心的读者可能还会发现另一个小的漏洞。在汉语中,“应用”是个很通用的词,而“原子能”是个很专业的词,后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重,这个权重的设定必须满足下面两个条件:
1. 一个词预测主题能力越强,权重就越大,反之,权重就越小。我们在网页中看到“原子能”这个词,或多或少地能了解网页的主题。我们看到“应用”一次,对主题基本上还是一无所知。因此,“原子能“的权重就应该比应用大。
2. 应删除词的权重应该是零。
我们很容易发现,如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍然不很清楚要找什么内容,因此它应该小。概括地讲,假定一个关键词 w 在 Dw 个网页中出现过,那么 Dw 越大,w 的权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频率指数” (Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数。比如,我们假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10亿/10亿)= log (1) = 0。假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500) =6.2。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF = log(2)
则只有 0.7。也就只说,在网页中找到一个“原子能”的比配相当于找到九个“应用”的匹配。利用 IDF,上述相关性计算个公式就由词频的简单求和变成了加权求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。在上面的例子中,该网页和“原子能的应用”的相关性为 0.0161,其中“原子能”贡献了 0.0126,而“应用”只贡献了0.0035。这个比例和我们的直觉比较一致了。
TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。在搜索、文献分类和其他相关领域有广泛的应用。讲起 TF/IDF 的历史蛮有意思。IDF 的概念最早是剑桥大学的斯巴克-琼斯[注:她有两个姓] (Karen Sparck Jones)提出来的。斯巴克-琼斯 1972 年在一篇题为关键词特殊性的统计解释和她在文献检索中的应用的论文中提出IDF。遗憾的是,她既没有从理论上解释为什么权重IDF 应该是对数函数 log(D/Dw)(而不是其它的函数,比如平方根),也没有在这个题目上作进一步深入研究,以至于在以后的很多文献中人们提到 TF/IDF 时没有引用她的论文,绝大多数人甚至不知道斯巴克-琼斯的贡献。同年罗宾逊写了个两页纸的解释,解释得很不好。倒是后来康乃尔大学的萨尔顿(Salton)多次写文章、写书讨论 TF/IDF 在信息检索中的用途,加上萨尔顿本人的大名(信息检索的世界大奖就是以萨尔顿的名字命名的)。很多人都引用萨尔顿的书,甚至以为这个信息检索中最重要的概念是他提出的。当然,世界并没有忘记斯巴克-琼斯的贡献,2004年,在纪念文献学学报创刊 60 周年之际,该学报重印了斯巴克-琼斯的大作。罗宾逊在同期期刊上写了篇文章,用香农的信息论解释 IDF,这回的解释是对的,但文章写的并不好、非常冗长(足足十八页),把一个简单问题搞复杂了。其实,信息论的学者们已经发现并指出,其实 IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵(Kullback-Leibler Divergence)(详见上一系列)。这样,信息检索相关性的度量,又回到了信息论。
现在的搜索引擎对 TF/IDF 进行了不少细微的优化,使得相关性的度量更加准确了。当然,对有兴趣写一个搜索引擎的爱好者来讲,使用 TF/IDF 就足够了。 如果我们结合上网页排名(Page Rank),那么给定一个查询,有关网页综合排名大致由相关性和网页排名乘积决定。
2006年6月27日 上午 09:53:00
发表者:吴军,Google 研究员
[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]
我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询“原子能的应用”的相关性对这些网页进行排序。因此,这里的关键问题是如何度量网页和查询的相关性。
我们知道,短语“原子能的应用”可以分成三个关键词:原子能、的、应用。根据我们的直觉,我们知道,包含这三个词多的网页应该比包含它们少的网页相关。当然,这个办法有一个明显的漏洞,就是长的网页比短的网页占便宜,因为长的网页总的来讲包含的关键词要多些。因此我们需要根据网页的长度,对关键词的次数进行归一化,也就是用关键词的次数除以网页的总字数。我们把这个商称为“关键词的频率”,或者“单文本词汇频率”(Term Frequency),比如,在某个一共有一千词的网页中“原子能”、“的”和“应用”分别出现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035 和 0.005。 我们将这三个数相加,其和 0.042 就是相应网页和查询“原子能的应用”
相关性的一个简单的度量。概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。 (TF: term frequency)。 那么,这个查询和该网页的相关性就是:
TF1 + TF2 + ... + TFN。
读者可能已经发现了又一个漏洞。在上面的例子中,词“的”站了总词频的 80% 以上,而它对确定网页的主题几乎没有用。我们称这种词叫“应删除词”(Stopwords),也就是说在度量相关性是不应考虑它们的频率。在汉语中,应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后,上述网页的相似度就变成了0.007,其中“原子能”贡献了0.002,“应用”贡献了 0.005。
细心的读者可能还会发现另一个小的漏洞。在汉语中,“应用”是个很通用的词,而“原子能”是个很专业的词,后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重,这个权重的设定必须满足下面两个条件:
1. 一个词预测主题能力越强,权重就越大,反之,权重就越小。我们在网页中看到“原子能”这个词,或多或少地能了解网页的主题。我们看到“应用”一次,对主题基本上还是一无所知。因此,“原子能“的权重就应该比应用大。
2. 应删除词的权重应该是零。
我们很容易发现,如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍然不很清楚要找什么内容,因此它应该小。概括地讲,假定一个关键词 w 在 Dw 个网页中出现过,那么 Dw 越大,w 的权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频率指数” (Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数。比如,我们假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10亿/10亿)= log (1) = 0。假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500) =6.2。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF = log(2)
则只有 0.7。也就只说,在网页中找到一个“原子能”的比配相当于找到九个“应用”的匹配。利用 IDF,上述相关性计算个公式就由词频的简单求和变成了加权求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。在上面的例子中,该网页和“原子能的应用”的相关性为 0.0161,其中“原子能”贡献了 0.0126,而“应用”只贡献了0.0035。这个比例和我们的直觉比较一致了。
TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。在搜索、文献分类和其他相关领域有广泛的应用。讲起 TF/IDF 的历史蛮有意思。IDF 的概念最早是剑桥大学的斯巴克-琼斯[注:她有两个姓] (Karen Sparck Jones)提出来的。斯巴克-琼斯 1972 年在一篇题为关键词特殊性的统计解释和她在文献检索中的应用的论文中提出IDF。遗憾的是,她既没有从理论上解释为什么权重IDF 应该是对数函数 log(D/Dw)(而不是其它的函数,比如平方根),也没有在这个题目上作进一步深入研究,以至于在以后的很多文献中人们提到 TF/IDF 时没有引用她的论文,绝大多数人甚至不知道斯巴克-琼斯的贡献。同年罗宾逊写了个两页纸的解释,解释得很不好。倒是后来康乃尔大学的萨尔顿(Salton)多次写文章、写书讨论 TF/IDF 在信息检索中的用途,加上萨尔顿本人的大名(信息检索的世界大奖就是以萨尔顿的名字命名的)。很多人都引用萨尔顿的书,甚至以为这个信息检索中最重要的概念是他提出的。当然,世界并没有忘记斯巴克-琼斯的贡献,2004年,在纪念文献学学报创刊 60 周年之际,该学报重印了斯巴克-琼斯的大作。罗宾逊在同期期刊上写了篇文章,用香农的信息论解释 IDF,这回的解释是对的,但文章写的并不好、非常冗长(足足十八页),把一个简单问题搞复杂了。其实,信息论的学者们已经发现并指出,其实 IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵(Kullback-Leibler Divergence)(详见上一系列)。这样,信息检索相关性的度量,又回到了信息论。
现在的搜索引擎对 TF/IDF 进行了不少细微的优化,使得相关性的度量更加准确了。当然,对有兴趣写一个搜索引擎的爱好者来讲,使用 TF/IDF 就足够了。 如果我们结合上网页排名(Page Rank),那么给定一个查询,有关网页综合排名大致由相关性和网页排名乘积决定。
Tuesday, July 04, 2006
你要怎样地老去?
...印度思想家奥修,对“老”的判断准则很有见地,他说:“如果你的性意念消失而你却变得更具有爱心,那么这个变化就不只是老年。如果你的爱的能力、质量跟着性意念一起消失,那么这个变化就是老年。”
...性意念其实是最原始也最朴素的生命力表征。奥修认为,一些老人变得唠叨、不具爱心、整天埋怨、生气、投诉,且性情压抑,总要找借口谴责他人,那就是因为自己的性意念已经逐渐干枯凋萎。正因如此,他们才变得与人不好沟通,总在生气,执著地活在他们的自我里。
世界一直是活的。而且是真正的活。流水不断淙淙,花朵盛开,万物蓬勃繁衍,假如有谁感觉自己跟这一切已经越来越远,那就是他自己气急败坏地从生命最灿烂的前线上撤退。
但是,不撤退并不等于挡在前线上做一块濒危的绊脚石。人不必怕老,但要老得更有智慧。假如生理机能真的一直延续下去,性意念也确实会跟着新陈代谢的缓慢而逐渐消失的。但那时候,人的生命能量就该方向有所转移了,凭着每个人所有过的一生历练体会,就应该将之转化为和善、爱心、慈悲和了解。有智慧的老人永远不会过时,他是一个经验透露站、一个思想发射台、一道把生命奥秘传递的桥梁。变老不是一种资格。人人到了时间都会变老,那只是一种属于生物式的自然状态。但智慧的成长和累积是一种资格,人类进化史一直在证实这点。
假如没有意外,人在生理上都会自然老去,这是一条必经之路。问题是:你要怎样地老去?
你要怎样地老去?这问题其实问得有点蹊跷,因为没人能真正在“老去”之前策划一切。人唯一能做的是,年轻时懂得如何生活,懂得生命的真意,那么只要他依循这个活着,到老年就是生命丰收等候收割的季节。
智慧老者的智慧,往往就是一生累积所得,并不是开始爬不上那道楼梯,智慧就自动补偿式地诞生的。
每一种生命欲望,都有属于它本身的季节。皱纹当然可以出现,没有皱纹时笑容是灼热的阳光,有了皱纹后笑容是慈祥的温暖。不要硬生生把年轻时来不及做完的抢修工程带入老年,德士等候站只要突然涌入一群风华盛绽的年轻人,自己那种全身上下的抢修工程就益发明显地露馅。不在残忍的衬托下,还不显得如此苍凉。那又何必硬生生把活过不再的青春痕迹带到老年呢?那种无能,其实很小丑化。
老年有老年的好看:心态健康而通情达理,脸色红润而慈祥关怀,浅色的、质料轻盈的干净衣着,款式简单。加上短发,淡古龙水,休闲通风皮鞋,暖灰色纯棉袜,风度优雅,活泼有神,谈吐有充实内容,但用词不时保持轻松幽默。
Why not ?
必经之路 ● 吴韦材
...性意念其实是最原始也最朴素的生命力表征。奥修认为,一些老人变得唠叨、不具爱心、整天埋怨、生气、投诉,且性情压抑,总要找借口谴责他人,那就是因为自己的性意念已经逐渐干枯凋萎。正因如此,他们才变得与人不好沟通,总在生气,执著地活在他们的自我里。
世界一直是活的。而且是真正的活。流水不断淙淙,花朵盛开,万物蓬勃繁衍,假如有谁感觉自己跟这一切已经越来越远,那就是他自己气急败坏地从生命最灿烂的前线上撤退。
但是,不撤退并不等于挡在前线上做一块濒危的绊脚石。人不必怕老,但要老得更有智慧。假如生理机能真的一直延续下去,性意念也确实会跟着新陈代谢的缓慢而逐渐消失的。但那时候,人的生命能量就该方向有所转移了,凭着每个人所有过的一生历练体会,就应该将之转化为和善、爱心、慈悲和了解。有智慧的老人永远不会过时,他是一个经验透露站、一个思想发射台、一道把生命奥秘传递的桥梁。变老不是一种资格。人人到了时间都会变老,那只是一种属于生物式的自然状态。但智慧的成长和累积是一种资格,人类进化史一直在证实这点。
假如没有意外,人在生理上都会自然老去,这是一条必经之路。问题是:你要怎样地老去?
你要怎样地老去?这问题其实问得有点蹊跷,因为没人能真正在“老去”之前策划一切。人唯一能做的是,年轻时懂得如何生活,懂得生命的真意,那么只要他依循这个活着,到老年就是生命丰收等候收割的季节。
智慧老者的智慧,往往就是一生累积所得,并不是开始爬不上那道楼梯,智慧就自动补偿式地诞生的。
每一种生命欲望,都有属于它本身的季节。皱纹当然可以出现,没有皱纹时笑容是灼热的阳光,有了皱纹后笑容是慈祥的温暖。不要硬生生把年轻时来不及做完的抢修工程带入老年,德士等候站只要突然涌入一群风华盛绽的年轻人,自己那种全身上下的抢修工程就益发明显地露馅。不在残忍的衬托下,还不显得如此苍凉。那又何必硬生生把活过不再的青春痕迹带到老年呢?那种无能,其实很小丑化。
老年有老年的好看:心态健康而通情达理,脸色红润而慈祥关怀,浅色的、质料轻盈的干净衣着,款式简单。加上短发,淡古龙水,休闲通风皮鞋,暖灰色纯棉袜,风度优雅,活泼有神,谈吐有充实内容,但用词不时保持轻松幽默。
Why not ?
必经之路 ● 吴韦材
Subscribe to:
Posts (Atom)