欧洲之行
朝华午拾 - 我的世界语国(四): 欧洲之行
立委《我的世界语国》入
《世运人物志》
1989年夏天,我和导师去德国慕尼黑应参加第二次国际机器翻译最高级会议。此前,我跟荷兰BSO(Buro voor
Systeemontwikkeling BV)公司的机器翻译研究组一直有联络,应约为他们的以世界语作为媒介语的多语机器翻译系统
DLT,编写了一部现代汉语依从关系的形式句法。他们听说我们要来欧洲,就邀请我和我的导师,还有中国机器翻译界知名
人物董老师,会后顺道访问他们的实验室一周,做学术交流,共同讨论汉语句法里的一些疑难问题。这次活动,他们称作
Chinese Week.
我们是应慕尼黑机器翻译峰会的召集人,西门子公司的S先生特邀,提交论文,介绍我们的JFY英汉系统。这是我第一次出国,
一切陌生而新鲜。大会在大酒店的拱圆形讲演大厅举行,气派豪华。我的导师是俄语出身,所以派我上台宣讲论文。初生牛犊
不怯场,我报告完后,回答了两个问题下场,正赶上中场休息时间。大概东方面孔的报告人很少,慕尼黑电台的记者现场采访
了我,询问我的观感,还好没有涉及64的问题(当时64刚过,风声很紧,我们办到一半的出国手续,又重新审查一遍,险些泡
汤)。
大会以后,我们乘火车沿莱茵河往阿姆斯特丹,一路风景如画,赏心悦目。河岸高地上屹立着一座座中世纪古城堡,引人遐
想。我们在大学城 Karlsruhe 停留两天,访问两个刚认识的电脑专业的留学生。德国小城的整洁优美、绿地成片和德国人
的彬彬有礼给我留下很好的印象。当时感到不解的是,为什么这样一个小城也有一条红灯街,而且就在大学生宿舍楼门前。后
来到了号称世界“性都”的阿姆斯特丹才明白,这是小巫见大巫了。当时,本室同事傅大姐正在阿姆斯特丹进修,她请了一位留
学生带领我们参观举世闻名的红灯区。这是来阿姆斯特丹的人必游项目之一,对荷兰旅游业很重要(几个月前,报载争议已久
的阿姆斯特丹红灯区终于关门大吉)。
运河边的红灯区好像台北的夜市和北京的庙会,熙熙攘攘,热闹非凡。见到有导游打着小旗,带领一队队游客。不时有骑着摩
托的警察穿过。红灯区占据了运河边纵横七八条大街,沿街的房子,有一串串布置得很讲究的橱窗,每个橱窗里面有身着三点
式的小姐坐台亮相。妓女有各种肤色和体态,有的小巧,有的肥硕,大部分都不好看,甚至倒胃口,但一律打扮得光鲜妖艳。
第一次来参观的游客,不大敢正眼看妓女,因为她们总盯着游客频抛媚眼。我们的导游同学显然是老油条了,一路跟这些妓女
打招呼,送飞吻,你来我往,但并不进门。看到一位日本人好像在门口讨价还价,等再回头时,这位买春客已经登堂入室,橱
窗的帘子也拉上了,表示正在营业。不过,多数橱窗是没有业务的,毕竟众目睽睽之下招徕买春客似乎不是好的商业模式。我
怀疑她们也许有政府旅游局的补贴,否则怎么可能经营下去。红灯区还有很多性商店和录象馆。走进一家商店,满目都是各式
各色的硕大的性器官模型,吓得我赶紧逃离。
游览阿姆斯特丹后,我们按计划去Utrecht的BSO公司访问一周。DLT 项目研究组十几个人,一半是语言学家,一半是工程
师,看得出来,这是个气氛融洽的团队。德国世界语者 Klaus Schubert 博士是系统枢纽“依存关系句法”(dependency
grammar)的设计人,在项目第二阶段继 Witkam 成为项目组长。71届大会后招进来的美国世界语者 Dan Maxwell 博士,负
责东方语言的句法项目的承包、质询和验收,是我的直接领导(十年河东,十年河西,后来我成为他的 boss,这是后话,见
《朝华午拾:水牛风云》)。Dan一看就是老实人,照顾我们客人殷勤有加。我看到他早上骑自行车来上班,笑着跟他说:
“我在北京上班跟你一样”。
研究组的骨干还有国际世界语协会的财务总监,知名英国籍世界语者 Victor Sadler 博士,我在71届国际世界语大会上跟
他认识。作为高级研究员,他刚刚完成一项研究,利用 parsed (自动语法分析)过的双语对照的语料库(BKB, or
Bilingual Knowledge Base)的统计信息,匹配大小各异的翻译单位(translation unit)进行自动翻译,这一项原
创性研究比后来流行的同类研究早了5-10年。显然,大家都看好这一新的进展,作为重点向我们推介。整个访问的中心主
题,仍然是解答他们关于汉语句法方面一些疑难问题。他们当时正在接洽欧洲和日本的可能的投资人,预备下一步大规模的商
业开发,汉语作为不同语系的重要语言,其可行性研究对于寻找投资意义重大。
期间,Victor以世界语朋友身份,请我到他家吃晚饭。他住在离公司不远的一栋公寓里,太太来开门,先跟丈夫轻吻,然后
招呼我进来。太太也是世界语者,忘了哪国人了,总之是个典型的世界语之家,家庭用语是世界语。Victor告诉我,太太实
际上会一些英语,但是用英语对她不公平啊。太太很和善,跟我说,他们俩非常平等,她做饭,Victor洗碗。我说,这跟我
家的分工一样,我最爱洗碗这种简单劳动。她笑着说,“Victor, vi havas helpanton hodiau (你今天有帮手了)”。
饭后Victor洗碗,并没有让我插手,我站在旁边陪他聊天,一边看他倒进大把的洗涤液,满是泡沫把餐具拿出来,用干布擦
干。我告诉他们,这跟我的做法不同,我们总是怀疑化学制品有毒或副作用,最后必须用清水涮净才好。太太不解地问:“洗
涤液如果有毒,厂家怎么能生产呢?” 这倒把我问住了。Victor夫妇和蔼可亲,我感觉在老朋友家一样,饭后一边吃甜点和
水果,一边闲聊,尽兴而归。
记于2006年6月21日
[DLT项目背景介绍]
BSO公司当时是荷兰第二大软件公司,总部在离阿姆斯特丹两个小时车程的 Utrecht 城。1982-1983年,由 Toon
Witkam 先生牵头,在欧洲共同体资助下,完成了一项利用世界语作为媒介语(又称“中间语言”,interlingua)的多语言
自动翻译的可行性研究报告。传统的机器翻译多采取转换式(transfer),需要针对每一对源语和目标语编制专门的规则系
统。这种转换法用于多语自动翻译,随着语言对的增加,存在一个组合爆炸的问题:n 种语言需要编制 n**2 套转换子系
统,而采用媒介语则只需要 n(n-1)/2 套子系统。以欧洲共同体常用的8种语言计算,共有28个语言对,传统的系统需要开
发出64套转换式规则系统,而采用媒介语则只需要16套子系统(8套翻译成媒介语,8套从媒介语译出)。这是简单的算术,
所以媒介语方案对于多语系统的经济性早已成为共识,学者们争论的主要是究竟采取什么样的媒介语合适。另外一项共识是,
自然语言(比如英语、汉语或俄语)作为媒介语是不合适的,因为自然语言普遍存在歧义和不规则的惯用法。理想的媒介语应
该是规则而没有歧义的,所以很多学者认为应该人造一套形式系统作为媒介语(比如当年由日本牵头的东亚各国合作的一项多
语翻译开发系统使用的就是设计者自己定义的形式系统作为媒介语)。Witkam 不同意这种看法,主要论点是形式系统作为媒
介语往往失之简陋,毕竟象语言这样复杂的系统,不是一蹴而就的形式系统能够涵括的。不仅如此,形式系统虽然适合机器处
理,可是作为中间表达,不如人类语言那样易读,不利于语言工作者调试系统。这样看来,世界语这种有了100年发展历史
的“人造语”比较合适,因为原则上它的语法是不允许有例外的。不过,跟所有实际使用的人类语言一样,世界语仍然存在歧义
现象。因此,可行性研究中,他们还是对世界语做了“控制”,尽量排除其歧义,以适应机器处理的需要。其中有一项设计很巧
妙,用来区分结构歧义。在自然语言处理领域,结构歧义的典型例子有所谓 PP attachment 的问题,即名词宾语后面的介
词短语究竟修饰前面的名词还是谓语动词。比如:I saw the girl with telescope,如果是修饰名词,应该翻译成“我
看见了带望远镜的姑娘”,如果是修饰动词,则应翻译成“我用望远镜看到了那个姑娘”。Witkam 小组提出的区别结构歧义的
表达方法是,用介词跟前面的名词的空格数来决定:如果只有一个空格,那么机器就认为是修饰名词,如果是两个空格,则认
为它修饰动词。这种表达方法的巧妙在于它用书面语的线性方式表达了需要三维的结构关系,方便了机器的还原处理。更绝的
是这种表达不影响中间语言的自然性,毕竟人眼对于一个空格和两个空格是不做区分的,读起来跟普通世界语没有不同。
上述可行性研究在1984年赢得了荷兰政府经济部的资助,BSO 公司补足另一半,开始了六年的DLT (Distributed
Language Translation) 分布式语言翻译的项目。所谓分布式,是设想该系统应用在电脑网络的环境下,源语到世界语的
系统和世界语到目标语的系统分别在两端进行:在源语输入端遇到歧义,系统会直接提问作者以确定其含义,然后翻译成中间
语言世界语,这是用所谓半自动交互式机器翻译来解决自然语言分析中最困难的歧义区分问题。(这个思路跟这几年流行的
semantic web 异曲同工,都是力求在源头上解决问题。)网络之间传输的是已经消除了歧义的世界语,各接收端根据需
要,调用从世界语翻译生成目标语的程序,即用即调(on-the-fly),这个阶段是全自动的。这种分布式应用环境的设想似
乎有点超前,如果推后五年,在网络热中寻找巨额投资是不困难的。可惜当年(1990)网络经济的概念还只是萌芽阶段。有人
和,却没有天时地利。
DLT研究组在六年期间做出了原型系统(prototype),发表了详细介绍系统的理论和实践、印制精美的系列丛书,主持召开
了一次机器翻译国际研讨会,与各国世界语者和语言学家合作,在统一的依存关系的框架下,编制了20多种主要语言的形式句
法,应该说工作是卓有成效的。迄今,这一项目由于其描述之详尽,不少教授列为计算语言学课程的辅助材料。
BSO的这个DLT项目由于有 Victor Sadler 这样的世界语元老级人物的参与和宣传,在国际世界语界影响很大,引起了各
国世界语者的关注,大家(包括笔者)对它的期许很高,希望借助世界语和世界语者的支持,为大规模解决语言问题提供一个
切实可行的技术方案。世界语在系统的轴心地位也满足了很多世界语者的心愿,自愿为这个系统服务的各国世界语者很多,如
果系统真到了大规模商业开发阶段,管理得当,这是一个不小的资源优势。记得当年听 BBC 中文广播电台,就有中国世界语
者去信询问世界语的机器翻译问题,广播节目就特别介绍了荷兰科学家正在进行的 DLT 项目。可惜,1990年前后,他们在国
际国内寻找后续资金的努力终于失败,研究组不得不解散,结束了这段世界语和机器翻译的蜜月期,令人扼腕。(不过,多年
来,一直有人主张利用世界语机做器翻译做媒介语的方案。美国有一家公司 Unikom 做类似的尝试已经多年,不过也一直没
有找到大笔资金做商业开发。其负责人跟我和Dan一直保持着联系。)
要想进一步了解媒介语和机器翻译的学术背景,可以参见我的机器翻译的介绍文章。
回
《立委日志》
回
《立委:朝华午拾》目录
Edited 13 time(s). Last edit at 2007-05-19, 09:54AM by 立委.