写在最前
冯志伟,中国最早的计算语言学和自然语言处理的科学家之一,中国中文信息学会会士,中国计算机学会“自然语言处理与中文计算杰出贡献奖”的获得者。长期从事语言学和计算机科学的跨学科研究。两次研究生分别毕业于北京大学中文系和中国科学技术大学计算机系。在中国科学技术大学读研期间公派前往法国格勒诺布尔理科医科大学留学。退休前担任国家教育部语言文字应用研究所研究员、博士生导师、学术委员会委员。曾任德国特里尔大学、韩国高等科学技术院客座教授,中国传媒大学等多所国内高校兼职教授。
1974 年,冯志伟首次测算出汉字的熵值。1981 年,他研发了世界上第一个把汉语同时翻译为多种外语的机器翻译系统 FAJRA。他是第一个出席国际计算语言学会议 (COLING,计算语言学领域世界顶级学术会议之一) 的中国学者。2015 年,他主持的汉语拼音新国际标准(ISO 7098:2015)完成修订。
2023 年 11 月,我联系到了计算语言学家冯志伟教授,提出希望向他了解中国计算语言学的早期发展历史和他个人的研究经历。冯教授很快发给我了一份他即将发表的口述史,四万多字的文章叙述了他从儿时开始一路走来的人生经历。他希望这篇长文可以给我提供帮助。
为了准备这次采访,这部口述史我读过很多遍,每次读完都对冯老师曲折的研究道路和他对计算语言学的贡献充满敬意。
尽管这部口述史写得很详尽,我还是对计算语言学的早期发展和他个人的研究经历有很多问题。带着这些问题,2024 年 2 月我在北京见到了冯志伟教授。
冯教授不仅解答了我一直以来对计算语言学发展史的很多疑问,深入了解他的工作后,也让我更具体而深刻地理解他的工作。
无论是他对汉字熵值的首次测算还是对汉语拼音 ISO 新国际标准的修订,不一而足,都是中国语言学和计算语言学基础研究中的重要贡献。
笔者注:计算语言学,也称数理语言学。是一门通过建立数学模型来分析、解决语言学问题的学科,研究更多的侧重语言学范畴。自然语言处理是与计算语言学最密切的学科,目的是让计算机像人一样正确的理解和处理人类语言,研究更多侧重于计算机科学。
计算语言学和自然语言处理都是人工智能科学中的重要方向,很多时候对这两个方向不做刻意区分。OpenAI 推出的聊天机器人 ChatGPT 以及目前效果很好的在线自动翻译软件,都是计算语言学和自然语言处理方面的应用。
童年——战乱年代的学霸
1939 年,冯志伟出生于云南昆明一个普通家庭。在那个战火纷飞的年代,他曾经历过日本飞机的轰炸,万幸得以死里逃生。
由于父母常年在外工作,冯志伟从小的大部分时间跟叔叔一起生活,因为叔叔在邮局负责处理外文邮件,所以自学了英语和法语。冯志伟在叔叔的影响下也开始学习英语和法语,小时候就能够用这两种语言进行简单的阅读和沟通。
1951 年,冯志伟以全市公立学校统考第一名的成绩考入昆明第一中学初中部。这所中学成立于 1905 年,数学家熊庆来、诺贝尔物理学奖获得者杨振宁都是昆明一中的校友。
1954 年,冯志伟又以统考第一名的成绩考入昆明第一中学高中部。高中期间,他开始阅读俄文小说,也读到了苏联地球化学家费尔斯曼的著作《趣味地球化学》,开始对地球化学产生兴趣。这本书在当时风靡全球,引导和鼓舞世界各地很多青少年走上了探索科学之路。
高中毕业时,冯志伟本来有机会留在昆明一中当老师,不过他的志向是读大学。1957 年,冯志伟参加高考并考入北京大学地球化学专业。
初入北大——邂逅机器翻译
上世纪 50 年代的北大图书馆,已经有很多外文资料。不过那个年代,图书馆的资料原则上不允许普通本科生随意查阅。因为冯志伟的英文和法文都很好,图书馆的管理人员觉得这个学生很聪明,破例允许他在图书馆查阅资料。
1957 年,冯志伟在 1954 年的《纽约时报》上了解到美国乔治城大学(Georgetown University)成功进行俄英机器翻译实验的消息。那是一个小女孩在 IBM701 计算机上表演机器翻译的报道,小女孩只输入了两个俄语句子,对应的两个翻译之后的英语句子马上就从计算机中输出出来。
冯志伟被这个奇妙的实验深深吸引,他知道人的语言是很复杂的。一个普通人经过 4-5 年的外语学习,才能用这门外语简单交流。但是机器居然这么快就实现了句子的翻译。这是他第一次对机器翻译工作产生兴趣。
差不多同一时间,冯志伟还在 1956 年的英文期刊《IRE Transactions on Information Theory》(无线电工程师协会会刊:信息论)中读到美国语言学家乔姆斯基(Avram Noam Chomsky)的文章《Three models for the description of language》(语言描述三个模型),文章中用数学方法给建立了自然语言的三种模型。这也是冯志伟第一次接触到用数学模型解决语言学问题的工作,他被乔姆斯基的创造性精神所折服。
同时他还联想到,既然翻译是语言学问题,那么数学方法也许也可以解决他之前看到的机器翻译问题。
在交谈过程中,冯教授还给我介绍了当时机器翻译技术的发展情况。上世纪五十年代,他作为一个本科生对机器翻译产生浓厚的兴趣。其实,那个年代也是世界各国开展机器翻译工作的起点。
当时信息情报工作对于每个国家都很重要,把外国资料用机器快速高效的翻译成本国文字是各国政府的主要目标,由此自动化翻译便成了各国的重要研究方向。
美国是全球第一个开展机器翻译的国家,苏联紧随其后,第三个开始机器翻译的国家是英国。中国则是世界上继英国之后第四个开展机器翻译工作的国家。
早在 1956 年,中央民族学院藏学家于道泉教授就发表了文章《谈谈翻译机械化问题》,讨论实现汉语和藏语之间的机械化翻译。虽然当时还没有计算机,不过于道泉教授已经有了对语言实现机械化翻译的思想。这也是中国机器翻译相关主题正式发表的第一篇文章。
同样是 1956 年,中共中央制定新中国第一个中长期科技规划——《1956-1967 年科学技术发展远景规划》,其中就提到了用计算机进行自动翻译工作的规划。
1957 年,当时国家已经知道苏联在进行机器翻译的相关工作,并派遣中国科学院语言学研究所刘涌泉先生到苏联科学院精密仪器和计算技术研究所做访问学者,学习机器翻译的相关技术。因为刘先生学的是俄语专业,可以在苏联很快投入工作。
1958 年 5 月,刘涌泉先生莫斯科机器翻译会议上发表了他的第一篇论文(也是中国第一篇机器翻译领域的学术论文),俄语的论文名为《вопросы о порядке слов и его решение при мп с русского языка на китайский 》,中文论文名为《俄汉机器翻译中的词序问题及其解决办法》(《语言研究》1959 年第 4 期)。
顾名思义,同一句话中,俄语和汉语的表述词序可能是不一样的,这篇文章讨论了机器翻译过程中解决词序不同问题的方法。刘涌泉先生后来也成为了冯志伟第二次读研究生的导师。
1959 年国庆节前,刘涌泉先生主持的俄汉机器翻译系统在计算技术研究所的 104 机上试验成功,由于当时没有汉字系统,输出的还是电报码。
这是中国最早的机器翻译系统,由中国科学院语言研究所和计算技术研究所共同研发,语言所的工作由刘涌泉先生负责,计算技术研究所的工作由吴逊先生负责。
之所以由这两个研究所合作,也是在学习苏联机器翻译的研发架构。因为苏联的机器翻译系统由苏联科学院精密仪器和计算技术研究所和语言研究所合作研发,我国的计算所和语言所对标苏联的两个研究所。
进入中文系——兴趣和专业的结合
冯志伟在北大就读的地球化学专业培养的是发现新矿产、新矿藏的从业人员,在课程学习过程中要做很多地质化学相关的实验。
在一次光谱分析实验中,冯志伟发现虽然他能准确的计算出化学谱线的位置,但是在计算的位置中却观察不到相应的谱线。
他把这个现象跟专业课老师汇报,后来老师发现他有轻度的色弱,对黄色光谱的分析能力差。对于这一情况,老师觉得他毕业后很难从事地质化学相关的一线工程工作,也许只能留在大学中教书。
冯志伟知道了自己学习地球化学的从业局限,再加上他对机器翻译有着浓厚兴趣,他决定向学校提出申请转到机器翻译工作相关的专业学习。
1958 年,读地球化学专业大三的冯志伟向北京大学时任教务长崔雄崑说了自己的想法,当时崔先生觉得机器翻译这个事情很奇怪,但还是愿意尊重冯志伟的意愿。于是问题就变成了应该转到哪个专业。
当时北大计算机相关的专业叫计算数学专业,是后来计算机科学与技术专业的前身。跟现在的计算机专业大不相同,当时的计算数学专业不学习高级语言,更多的是研究枯燥的符号化程序设计语言,当然更不会研究机器翻译这个方向。
崔雄崑先生建议,既然冯志伟想研究语言学相关的方向,就应该转到中文系去就读。
北京大学中文系一直以来是全国最好的中文系,而冯志伟又没有文科基础。向中文系提交申请后,系里认为,转系可以,但是冯志伟必须从大一开始读起。
与现在的大环境不同,那个时代的大学生很少会考虑专业的就业去向和经济收入等现实情况,凭着对机器翻译工作的热爱和向往,冯志伟同意降级到大一就读中文专业。
当时在中文系授课的老师很多都是中国的著名语言学家,其中包括中国现代语言学奠基人之一王力、“汉语拼音之父”周有光、汉语语法学家朱德熙、理论语言学家岑麒祥等,冯志伟在本科阶段听他们的课,学习语言学的基础知识。
同时,因为记得乔姆斯基的那篇让他启蒙的论文,他一直希望用数学模型解决语言学问题,这一时期他也自学了数学分析、概率论等很多数学课程。
1959 年,中科院语言所的语言学家吕叔湘先生受邀到北大中文系兼职讲课,冯志伟跟吕先生表达了自己对机器翻译的兴趣,吕先生很喜欢这个充满学术激情的大学生,并告诉他自己单位的刘涌泉就是从事机器翻译的相关研究,还把冯志伟介绍给刘先生认识。
当时刘涌泉先生也在寻找希望从事机器翻译工作的年轻人,本来想在冯志伟本科毕业后把他引进到语言所,而冯志伟希望先读研究生,毕业后再去工作。因为后来发生了文化大革命,这个想法只好搁置。
1960 年 11 月 25 日,著名思想家陈望道、语言文字学家吴文祺等在上海《文汇报》发表文章,提出了“文法学科定名”的建议,建议把 Grammar 译为“文法”。当时读大二的冯志伟觉得这个词翻译成“语法”更合适,并与 1961 年 1 月 22 日在《文汇报》发表文章《“文法”不如“语法”好》。
陈望道是著名的教育家,时任复旦大学校长,也是《共产党宣言》的中文译者。吴文祺是辞书编纂领域的专家,参与过《辞海》的修订。《文汇报》能够接收冯志伟的论文,刊登一个大学生跟学界泰斗不一样的建议,也反映了当时良好的学术民主氛围。
1961 年,冯志伟又在中国语言学顶级刊物《中国语文》发表文章《“语法”定名胜于“文法”》。他的想法得到了著名语言学家吕叔湘、朱德熙的支持,他们在《语法修辞讲话》中写道:“与其管它叫‘文法’,就不如管它叫‘语法’了”。“语法”这个术语逐渐取代了“文法”。
因为对语言学中的数学研究方法充满热爱,冯志伟在学校阅读了大量数学教科书和外文资料。在上世纪 60 年代,尤其是在中文系,这个做法不免会被身边的很多老师和同学质疑。中学时候还担任团支部书记的他,在大学里居然变成了一个“落后分子”。
1961 年,共青团中央的领导人要跟青年人交朋友,时任共青团中央第一书记的胡耀邦到北大访问,他选择了跟冯志伟交朋友。
同年 11 月,冯志伟与另外四个年轻人一起去胡耀邦书记家做客,他给胡书记讲了机器翻译这个研究方向,没想到胡耀邦书记觉得这个方向很新奇,也很看好,非但没有批评他,还特别支持他继续钻研,并对他说:“历史将证明你是正确的。”
得到了胡耀邦书记的支持,冯志伟备受鼓舞,在这之后老师和同学的质疑声音也越来越少。后来有段时间,冯志伟又去他家里做过几次客。
1964 年,在叶蜚声老师的指导下,冯志伟完成了毕业论文《特鲁别茨柯依的音位学理论》。这是一个纯粹的语言学研究,音位学的研究内容是分析语言的语音系统以及语音在历史中的变化。
同年,冯志伟通过了北京大学研究生入学考试。俄语成绩 98 分,这是北大中文系创系以来研究生入学外语考试的最高分。他攻读的方向为理论语言学,导师是岑麒祥教授。
1965 年,冯志伟在北大图书馆查阅资料时了解到,美国学术杂志《Machine Translation》(机器翻译)更名为《Machine Translation and Computational Linguistics》(机器翻译与计算语言学),这是他第一次看到“Computational Linguistics”(计算语言学)这个术语,当时他的心情兴奋不已。
1966 年,在著名语言学家王力教授和岑麒祥教授的指导下,他确定了研究生毕业的论文题目《数学方法在语言学中的应用》。
从 1957 年第一次接触机器翻译时算起,时间已经过去了 9 年,冯志伟终于名正言顺地开始了他一直心心念念的计算语言学研究。
1966 年 5 月 15 日,冯志伟在学术期刊《语言学资料》(《当代语言学》的前身)上发表论文《福克斯公式》一文。这篇论文首次在中国的语言学刊物上用复杂的数学公式描述语言的规律。
5 月 25 日,冯志伟的论文发表后 10 天,文化大革命开始了。
中学教师生涯——离开计算语言学的日子
1967 年,冯志伟研究生毕业,在那个特殊的时期,他无法找到合适的语言学工作。也不可能留在北京继续工作,更不可能留在北京大学。
当时唯一的选择是服从分配,到天津市的唐口三中做一名中学英语老师。在北大读书的十年间,他购买了将近 1000 本图书,他把这些书也都搬到了天津的学校。
到了天津才发现,唐口三中的青年教师住宿条件很差。房间里无法放得下他的书,为了不影响其他老师生活,冯志伟只好把他的书都扔进了垃圾箱。
挥别了他热爱的计算语言学工作,又惜别了积攒了十年的图书。顶着内心巨大的压力与委屈,冯志伟走进了他生活中的“至暗时刻”。
1970 年,天津市动员大城市员工搞“三线建设”,冯志伟看到这个机会,第一个报名到云南支边,报名当天就得到了上级的批准。在天津工作了三年后,他回到了阔别 13 年的故乡昆明。
回到昆明后,他希望到母校昆明一中教书,但是当时昆明一中已经不需要新老师了。
昆明一中是云南省最好的高中,在考入北大前,他本来有机会留在昆明一中做一名老师,不过他选择了高考。
如今,高考已经过去了 13 年,他已经从北大研究生毕业,却只能到教学质量不如昆明一中的昆明五中当一名物理老师。
在昆明五中,冯志伟带学生实践物理学原理,通过教学生学骑自行车来学习力学,通过教学生组装矿石收音机来学习无线电学。
他参与了云南省物理教材的编写,为了贯彻当时“教育与劳动生产相结合”的方针,他在学校办起了校办工厂,生产硫酸亚铁为学校盈利。冯志伟成为了一名优秀的物理老师。
徒手计算——汉语信息熵的首次测定
不过,冯志伟心中一直都没放弃对计算语言学的追求。在昆明五中期间,他经常去云南省图书馆查阅外文资料,了解计算机和机器翻译的最新发展情况。
在这个时候,他学习了美国科学家香农的信息论基础,了解了“熵”的概念。“熵”本来是一个物理学术语,用来描述一种物理状态出现的不确定性,物理状态出现的不确定性越大,熵值就越大,如果一个状态一定会出现,熵值就为 0。
这个概念被移植到了信息科学中,称为“信息熵”,单位为比特。信息熵可以描述一种语言符号表达的信息量多少。一个语言符号能表达的信息越多,信息熵就越大。
通常情况下,同一个含义用两种语言表示,字符长度越短的语言信息熵越大,因为长度短的语言表示了更多的信息量。
一种语言的信息熵,可以通过这种语言的每个符号在语言中的分布情况计算出来。
也就是说,想要计算一种语言的信息熵,需要有很大规模的文本,并且需要计算每种字符(英语对应的是字母,汉语对应的就是汉字)在文本中出现的频度。
那么信息熵到底有什么用处呢?根据香农的信道编码定理,在计算机底层的编码中,一种语言符号的编码长度不能小于这种语言符号的信息熵。因此,一种语言符号的计算机编码长度也取决于这种语言的信息熵的大小。
那个年代,国外已经普遍使用计算机了。香农通过计算得出英语的熵值 4.03 比特。因此,英语可以使用单字节编码。
通过查阅资料,冯志伟查到了法语、意大利语、德语、俄语等语言当时已经被计算出了信息熵。
当时计算机在中国还很少见,冯志伟意识到,如果计算机以后在中国普及,中国人大量用计算机处理中文,就要把对汉字进行计算机编码。想要正确编码,就必须知道汉字的信息熵。
1973 年,汉字的信息熵还是一个未知数,国内外也查不到有人做相关的计算工作,冯志伟决定计算出汉字的信息熵。
计算一种语言的信息熵,就要计算语言中每种符号在大量文本中频度分布。英语中只有 26 个字母,可是中文中有 6 万多个汉字,计算量的天壤之别可想而知。
冯志伟通过复杂的计算,得出一个结论,只要统计 12,368 种常见汉字的频度就可以计算出汉字熵,而不用必须统计所有 6 万多个汉字的频度。
可是,在那个没有计算机,所有文字都是纸质形式的年代,统计 1 万多个汉字的频度也是巨大的工作量。
冯志伟想到了找当地的中学老师们帮忙统计汉字频度。当时,大部分工作都已经停止,很多人都靠读书来消磨时间。
冯志伟找来了 10 个关系很好的朋友,他们都是当地的中学老师。他跟朋友们说了这个工作的意义,希望他们在读书的时候能查出每种汉字出现的频度,并记录下来。
幸运的是,他的朋友们都很理解和支持这个工作,答应帮忙统计汉字的频度。冯志伟随即买了 10 箱纸发给大家,1973 年,汉字信息熵的计算研究团队就这样开工了。
为了尽可能计算出更加准确的汉字信息熵,他尝试丰富文本内容,他收集了《本草纲目》、《天工开物》等古汉语著作进行汉字频度统计。
大家的工作都很认真和努力,冯志伟收集朋友们统计的频度结果,由他进行统一的信息熵计算。这依然是一项工作量很大的任务。
那时候没有计算机,计算完全依靠手工。冯志伟的岳父郑天普先生看到他工作繁重,就帮助他一起计算,郑先生时任云南省粮食厅干部,数学很好,算法打得非常娴熟。郑先生其实当时并不了解这个工作的意义,但是对冯志伟非常支持。
汇总朋友们统计的结果后,郑先生用算盘计算,冯志伟用计算尺计算。终于在 1974 年初,他们计算出汉字的信息熵为 9.65 比特。汉字的熵大于一个字节(8 比特),因此,汉字不能采用单字节编码,而应当采用多八位的双字节编码。
这是中国人第一次知道了自己文字的信息熵。汉字信息熵的测定对于汉字编码、通信计算、自然语言处理技术具有重要意义,也是中文信息处理中的一项基础性研究。
冯志伟随即撰写论文《汉字的熵》。遗憾的是,当时大部分学术期刊处于停刊状态,少数运行的期刊不能理解这篇文章的意义,他的文章无处可投。这篇论文推迟到 1984 年才在《文字改革》中发表。
计算出汉字信息熵的这一年,离他离开北大已经过去了六年,这是他六年来做的唯一的计算语言学工作,可能也是唯一可以做的计算语言学工作。
1975 年,国家意识到应该适度恢复各单位的生产研究工作。中国科学技术情报所就是这一年开始恢复机器翻译的研究工作,具体工作由蒋映鹏先生主持。由于涉及到情报工作,航天部、农业部等国家部委对这个工作都很重视。
同年,很多学术期刊复刊,其中包括编辑部位于重庆的《计算机应用与应用数学》。冯志伟得知消息后,马上撰写论文《数理语言学简介》。这篇论文很快被接收,并刊登于期刊的 1975 年第 4 期。这篇论文在国内首次全面地、系统地介绍国外数理语言学的研究。
第二次读研——如愿进行机器翻译研究
1976 年,中国的特殊时期结束,中华大地上迎来万象更新的春天。冯志伟也迎来了继续从事计算语言学研究的机会。
1977 年,语言研究所从中国科学院归属到中国社会科学院。吕叔湘先生给冯志伟写信,希望把他调回语言所,在跟昆明五中领导请示后,校领导不同意调动。
同年,北京大学中文系叶蜚声老师和徐通锵老师与云南省教育厅沟通,希望把冯志伟调回北大。不沟通还好,沟通后云南省才发现原来自己有个北大研究生毕业的高材生,更不同意调动了。
调动工作的路走不通,刘涌泉教授建议冯志伟通过考研的方法回来。1978 年,国家的文科研究生还没有开始招生。刘涌泉教授当时在中国科学技术大学研究生院做兼职研究生导师,他建议冯志伟报考中科大的研究生。
冯志伟的数理基础很好,很轻松就通过了研究生入学考试。1978 年,冯志伟进入中科大第二次读研,研究方向为机器翻译,导师为刘涌泉教授和刘倬教授。这一年冯志伟 39 岁。
二十年前在北大中文系,冯志伟听过很多语言学泰斗的课。这时作为理科生在中科大学习,他又进入很多科学泰斗的课堂。其中包括数学家华罗庚、物理学家严济慈、计算机科学家仲萃豪等。
研究生入学同年,冯志伟《计算机科学》的创刊号中发表论文《形式语言理论》(1978 年投稿,1979 年刊登)。这篇文章介绍了乔姆斯基的形式语言理论,文章的发表意味着冯志伟正式实现了文科与理科之间的跨越。
因为论文内容是在云南教书时候做的研究,这篇论文的署名单位是昆明五中。
这一年,他还在《国外语言学》上发表了论文《国外主要机器翻译单位工作情况简述》,论文总结了当时国外机器翻译工作的进展情况。这个工作是他多年来在云南省图书馆收集资料的归纳总结。这篇论文也是文化大革命之后中国的第一篇机器翻译学术论文。
论文发表后,中科大认定冯志伟是很难得的优秀学生,决定资助他出国访问学习。
1978 年末,冯志伟出发前往法国格勒诺布尔理科医科大学应用数学研究所自动翻译中心学习自然语言处理,师从著名数学家和计算机专家沃古瓦(Bernard Vauquois)教授学习。沃古瓦教授是国际计算语言学会(ICCL,International Committee on Computational Linguistics)的创立者之一。并于 1969 年 -1984 年担任学会主席。
在法国,冯志伟的研究是研发汉语到多国语言的机器翻译系统。在研究中,他发现利用乔姆斯基的短语结构语法分析汉语很困难。因为这种方法只标记了短语在句子中的语法特征,然而在汉语中,语法特征相同的短语,语义的差别往往很大,很难依靠单一的语法特征对短语进行分析。
在沃古瓦教授的指导下,冯志伟提出了“多叉多标记树模型”(Multiple-branched and Multiple-labeled Tree Model,简称 MMT 模型)。这种模型改进了乔姆斯基模型中标记短语语法单一特征的局限,可以同时标记汉语中的短语语法、短语语义等多个特征,更适合汉语短语的分析。
这个模型的提出,攻克了冯志伟研发机器翻译系统的核心难题。
1981 年 11 月 4 日,冯志伟的自动翻译系统“法吉拉”(FAJRA)研制成功。FAJRA 是法语(Français)、英语(Anglais)、日语(Japonais)、俄语(Russe)和德语(Allmand)的法文首字母缩写。这是世界上第一个把汉语翻译成多国语言的机器翻译系统。
同年 12 月,冯志伟结束法国的访问学习,满载而归。
回国后,冯志伟通过中国科学技术大学的硕士学位答辩,毕业论文题目为:《论语言的数学面貌》(On Mathematical Aspects of Language)。
毕业后,他被分配到中国科学技术信息研究所(ISTIC)计算中心做软件工程师,担任机器翻译研究组的组长。
1982 年 7 月 5-10 日,冯志伟到捷克首都布拉格参加国际顶级学术会议 COLING(国际计算语言学会议)。他是第一个参加这个会议的中国学者。
因为在法国生活了三年,习惯了用法文沟通和工作。所以他的论文《Memoire pour une tentative de traduction automatique multilangue de chinois en français, anglais, japonais, russe et allemande》(汉——法 / 英 / 日 / 俄 / 德多语言自动翻译试验)用法语完成。当时法语在国际上地位很高,大会接收了他的法语论文。在大会报告环节,他用法语报告他的研究,在座的机器翻译专家也都能听懂。
同年秋天,受北京大学邀请,冯志伟在北大中文系汉语专业开设选修课《语言学中的数学问题》,这是国内高校第一个全面系统的数理语言学课程。
1983 年至 1984 年间,冯志伟作为计算机专业背景的学者,与语言学家吕叔湘、朱德熙、陆俭明、叶蜚声和马希文等组织“语言学沙龙”,沙龙的目的是开拓计算语言学新的研究思路,地点在北京大学。开创了中国语言学界的跨学科讨论。
术语数据库研发——以文科从业者身份研发计算机领域的国际项目
1985 年,中国社会科学院成立了语言文字应用研究所(简称“语用所”),用国家语言文字工作委员会直接领导(简称“语委”)。冯志伟受邀加入语用所,担任计算语言学研究室主任。
从 1978 年考入中科大研究生算起,经过 7 年的理科生涯,冯志伟又重新回到了文科。
刚进入语用所,冯志伟就接到了一项任务。
这时,中国科学院与德国签订协定,需要派遣一名学者到德国进行科技术语自动处理的相关研究,同时要求这名学者有计算机专业背景,并且掌握德语和法语。
在当时这样的人才很难找到,那时中国科学院软件研究所刚刚成立,计算机软件学家许孔时教授是软件所的首任所长,许教授也是华罗庚教授的学生。他提出邀请冯志伟在软件所兼职,并去德国完成这项任务。
语用所的领导知道这件事情后开始难以理解,一是觉得文科的人不应该去做计算机的研究,再一个这个项目也跟语委没有关系。
后来经过许孔时教授跟国家语委协商,语用所才同意让冯志伟到德国参加研究,这个项目也算中国科学院和国家语委的合作项目。
1985 年 9 月至 1986 年 9 月,冯志伟在德国夫琅和费应用研究促进协会(Fraunhofer Gesellschaft,FhG)担任客座研究员,参与科技术语数据库的研究。德国夫琅和费应用研究促进协会是欧洲最大的应用科学研究机构。
德国的多国科技术语数据库在他们的 VAX-11-750 计算机运行,冯志伟负责的中文术语数据库系统当然也必须对接到这种计算机上。
当时,国内计算机的汉字系统还不完善,而德国的 VAX-11-750 计算机上根本就没有汉字系统。为了完成术语数据处理的工作,冯志伟硬是在德国的计算机上输出了汉字,再加上科技术语中的字有的本身就很生僻,当时的工作条件非常艰苦。
经过一年的努力,冯志伟终于在德国研发出中文术语数据库 GLOT-C,这是世界上第一个使用汉字的中文术语数据库。
在德国,冯志伟还提出了“术语形成的经济律”,这个定律用数学理论解释了为什么语言中词组型术语的数量远远多于单词型术语的数量。这项研究后来在 1988 年在中国社会科学顶级刊物《中国社会科学》英文版(Social Science in China)中发表。
1986 年 9 月,冯志伟在德国的任务圆满完成,回到北京。
语用所工作——研发更多的机器翻译系统
1986 年,冯志伟作为编辑委员会成员,还参加了《中国大百科全书》(语言文字卷)第一版的编制工作,撰写了有关数理语言学和计算语言学的大约 30 个条目。当时语言文字编辑委员会的主编是季羡林教授。
1987 年,冯志伟的专著《现代语言学流派》由陕西人民出版社出版。这是中国第一本现代语言学流派的相关专著,书中介绍了现代语言学中的主要流派和新兴学科。
在语用所,冯志伟一直在进行计算机和语言学的跨学科研究。也是在 1987 年,他的专著《数理语言学》由上海知识出版社出版。这是中国第一本数理语言学专著。
1987 年起,为了进一步验证在法国学习时提出的“多叉多标记树模型”。冯志伟继“汉语到多国语言”的机器翻译系统的研发之后,反过来又研发了多个“外语到汉语”的翻译系统。
其中包括法汉翻译系统、德汉翻译系统和日汉翻译系统。
另外,当时日本互联网发展处于初期阶段,把英文资料翻译成日文的需求日渐迫切。受日本 NEC 公司委托,他还研发了英日翻译系统,并在日本正式投入使用。
聊到这些“外语到汉语”的翻译系统,冯教授笑着对我说:“当时我们都是用基于规则的方法(不同于现在的机器学习、大语言模型技术)做机器翻译,准确率大概也就 60% 左右。再想提高就很难了,不如差不多就停下,这样可以多做几种语言的翻译系统。”
1990 年 9 月至 1993 年 4 月,冯志伟应邀到德国特里尔大学担任客座教授。为德国学生开设课程《汉语拼音正词法》、《中国古代诗文选(汉魏、唐宋)》和《汉字的历史和现状》。
1994 年,冯志伟在德国讲课的教材《Chinesische Schriftzeichen - Verganggenheit und Gegenwart》(汉字的历史与现状)在德国用德语出版。2017 年,这本教材的希腊文版本在《Τα κινεζικα συμβολα γραφη:Μια αναλυση στο χρονο》在雅典出版。
聊起冯教授这些年培养的学生,除了之前在语用所的研究生之外,退休后的 2000 年起,他开始担任中国传媒大学计算语言学方向的博士生导师。
多年来,他已经培养了 20 多位博士生。他的学生们如今遍布世界各地,大多数都从事着语言学和计算语言学的研究工作。
他培养的第一位博士是北京师范大学国际中文教育学院的博士生导师杨泉教授。
他培养的第二位博士是浙江大学外国语学院的刘海涛教授,刘教授是国际世界语学院院士,教育部“长江学者”特聘教授,刘教授连续 7 年入选世界著名学术出版公司 Elsevier 发布的人文学科”中国高被引学者“榜单。
1998 年 5 月,冯志伟在语言文字应用研究所退休。
2010 年,国际生成语法会议(GLOW)在北京召开,冯志伟在北京见到了从美国来开会的语言学家乔姆斯基。这一年,冯志伟 71 岁,乔姆斯基比他大 11 岁。
50 多年前,受乔姆斯基影响,冯志伟开始了计算语言学的探索。50 多年后,两位语言学家一起在北京探讨机器翻译,探讨科学研究的本质。
退而不休——让世界更加理解汉语
2011 年,冯志伟接到了国家委托了一项艰巨任务,修订新的汉语拼音国际标准。
早在 1982 年,中国“汉语拼音之父”周有光先生就推动和制定了汉语拼音的国际标准(ISO7098)。在这个版本中,汉语的注音是以音节(单字)为单位的。
转眼间,29 年过去了,汉语拼音的使用情况有了太多的改变,最大的改变就是汉语中词的变化。
2011 年,中国早已进入了信息化时代,人们在计算机和手机上习惯了连词输入。比如”北京“就是一个最小单位是词,而不是“北”字和“京”字的组合,后者没有任何意义。国家希望把这种汉语拼音正词法修订到新的汉语拼音国际标准中。让世界更加理解汉语。
然而,在中国之外其他国家的信息系统中,汉语依然在以音节为单位注音。这种方案对外国人来说简单且成本低,
原因很简单,英文文本中有空格作为分词符号,而汉语没有这样的分词符号。对于外国人而言,他们很难辨别哪些字的组合是词语,而哪些不是,他们把汉字正确组成词语的难度很大,按照音节注音既简单又不会出错。
2011 年,周有光先生已经 105 岁高龄了,不可能再去推动国际标准的制定。受国家和周有光先生的委托,这个任务就落在了冯志伟身上。
冯志伟在国外生活多年,外语水平高,了解国外的情况。当然更能理解完成这个工作的难度。经过慎重考虑,他采取了循序渐进的方法来完成这个任务。
2011 年 5 月 6 日,国际标准化组织第 46 技术委员会(ISO/TC46)第 38 届会议在澳大利亚悉尼召开。
冯志伟在大会上发言,从多个理由陈述 ISO7098 标准重新修订的必要性,这些理由包括语法的改变、词表的陈旧等。
不过冯志伟绝口不提汉语拼音正词法的事情,因为他知道,这个时候一旦提起,肯定会遭到各位专家的反对。
经过冯志伟的陈述,这次会议的最后专家全票通过了 ISO7098 重新修订的提议。
2012-2014 年,专家组又分别在德国柏林、法国巴黎和美国华盛顿召开了三次国际标准修订会议。这些会议都讨论了 ISO7098 的修订方案。
2015 年 6 月,ISO/TC 46 第 42 届全会在北京召开。冯志伟在大会上用英语做了主旨报告 ISO 7098 Chinese Romanization Standard and Its Application in HCI(ISO 7098 国际标准及其在人机交互中的应用)。
大会全票通过了包括汉语拼音正词法在内的汉语拼音国际标准修订方案(ISO 7098:2015)
经过五年时间的逐渐渗透和漫长的磨合,冯志伟教授光荣的为国家完成了这个任务。冯教授对我说:
“不要小看这个事情。你想,假如国外的一家图书馆有 70 万本中文书籍,改变一本书在信息系统内的注音规则成本如果需要 1 美元的话,这家图书馆就需要花费 70 万美元去更新他们的信息系统。这是外国人在用真金白银支持我们。”
2018 年,冯志伟荣获中国计算机学会“自然语言处理与中文计算杰出贡献奖”。
2021 年,冯志伟当选为中国中文信息学会会士(Fellow)。这是中国中文信息处理领域的最高荣誉。
近年的专著——专业思想的持续输出
如今,冯志伟教授已经 85 岁高龄,他说自己近几年把时间都花在了学术总结的工作上。主要还是希望多输出好的学术思想和著作,包括写书和翻译国外的优秀教材。
2005 年,冯志伟与孙乐合译的《自然语言处理综论》由电子工业出版社出版。这是一本非常经典的教材,这本紫色封面的书影响了中国很多自然语言处理从业者。2010 年,我博士入学考试复习期间,为了更好的了解自然语言处理方向,就曾经读过这本书。
2009 年,冯志伟的专著《自然语言处理的形式模型》由中国科学技术大学出版社出版。
2012 年,他的专著《自然语言处理简明教程》由上海外语教育出版社出版。
2017 年,他的专著《自然语言计算机形式分析的理论与方法》由中国科学技术大学出版社出版。2023 年,这本书的英文版《Formal Analysis for Natural Language Processing: A Handbook》由德国施普林格出版社和中国科学技术大学出版社联合翻译出版。
2023 年,他的最新专著《计算语言学方法研究》由上海外语教育出版社出版。
他很看好大模型时代的技术,他说现在的机器翻译已经解决了过去很多技术上的经典难题。自然语言处理任务的效果已经非常理想,随着模型的迭代,自然语言处理算法的效果会进一步得到更好的提升。
专访后记
此次访谈大约与冯教授聊了将近两个小时,访谈后的敬佩和兴奋让我的心情很久都不能平静。
这是一个到处都在谈交叉学科的年代,尤其在大模型时代,人工智能很快就会跟大部分学科产生密不可分的关联。
站在今天的时间锚点回望过去,可以看到冯教授这样的前辈在将近 60 多年前就开始从事优秀的学科交叉工作。
从在北大中文系读书时对数学的痴迷,到当中学老师时坚定的进行汉字信息熵计算工作和机器翻译系统的研发,再到中文术语数据库和汉语拼音 ISO 国际标准的修订。文科或理科的定位对于冯志伟教授来说也许已经不再那么重要,真正重要的是他对计算语言学的坚持和热爱。
这种坚持促使他完成一个又一个有价值的研究,这些工作扎实而重要,基础而又富有很大的社会意义。这种坚韧的态度和务实的精神是后辈们做交叉学科和基础研究的一盏明灯。
作者简介:
秦海龙,InfoQ 特约作者,香港科技大学社会科学部博士后研究员,中国中文信息学会社会媒体处理专业委会委员。主要研究方向为中国人工智能发展史、中国人工智能科学家口述史、计算社会学。博士毕业于哈尔滨工业大学社会计算与信息检索研究中心,前自然语言处理研发工程师,曾就职于小米科技和三角兽科技。
评论