正在阅读:

《牛津英语词典》探秘:世界上最大的词典能否活过互联网的冲击?

扫一扫下载界面新闻APP

《牛津英语词典》探秘:世界上最大的词典能否活过互联网的冲击?

数个世纪来,词典编纂者一直试图完整地将英语这门语言捕捉到词典之中,如今他们的梦想即将被科技实现。但这是否同时也意味着,词典的末日已经到来?

2009年2月,某推特用户公然向一个名叫科林(Colin)的人发起了一项具有历史意义的挑战:她询问他能否就某一概念给她一个“男性解释”(mansplain,女权用来讽刺男性偏见的词——译注)。这个男人后来究竟有没有给出这个解释已无稽可考,不过词典学家伯纳德特·佩顿(Bernadette Paton)2017年夏天把这一记录给挖了出来,据信这是有确切记载的某人使用该词的案例。“这条推之前被删了,不过我们捕捉到了它,”佩顿不无得意地告诉我说。

在牛津大学出版社的办公室里,佩顿正在为《牛津英语词典》撰写一条全新的条目。我(指本文作者Andrew Dickson)到访后,还在她的资料架里找到了千禧一代特别爱用的“雪片”(snowflake)这个词条,据她考证,该词可追溯到1983年的某条基督教箴言(“你是一块雪片,没有任何人与你完全一样”),而另一个新兴的复合词“自我造就的女性”(self-made woman)也在其中。类似的词有30,000多个,都在《牛津英语词典》的核心单词表上;每年还会新增7000多个类似的新条目。“大家都觉得我们有点跟不上时代,但事实上我们相当超前,”佩顿说,“尽管通常来说,修订一个‘go’这样的词,都会花上我同事一年的时间。”

花一整年时间来追溯一个只有两个字母的单词的历史,看起来似乎荒唐无比。但诸如《牛津英语词典》这样的历史性词典,正是将此种雕琢视为自己理应承担的天职。一名负责牛津词典编纂的词典学家或许需要在十年前的推特条目中仔细翻找;此外,他们还得花极大的功夫去理清世界上最古老的动词的前世今生(例如修订后的“go”词条,包含了千余年来这个词在演变中所包含的537种意思)。“总之,我们必须把这一切都安排得井井有条,”词典现任主编迈克尔·普洛菲特(Michael Proffitt)说道。

从一个方面看,几乎没什么东西比一部词典更简单:把人们平常用的或者曾经使用过的字词列出来,就其意义或此前曾经有过的意义给出相应解释。但从另一个更加要紧的方面看——它把词典学家们搞得焦头烂额、苦不堪言——词典又是极为复杂的。谁用了这些词?在何种具体的时间和地点中?你又如何知道这些?哪些词需要收录进去?根据什么来做取舍?如何将某一含义与其它含义区分开来?归根结底,究竟才什么算是“英语”?

对一部类似于《牛津英语词典》这样的词典来讲——它声称能为公元1000年至今英语中的每一个单词提供“定义性”(definitive)的记录文字——问题的口径还要大一些:究竟能否对一种仍然活着的语言进行全方位的图绘、调查和描述?一个人在跟词典学家交谈的时候,需要很小心地运用“字面上讲”(literally)这个词,但一部定义性的词典,从字面上讲,确实不可能做到以上提到的这几点。打个比方,就好像你还没来得及爬到山顶,山就又变高了100来英尺。接下来你还会意识到,高山根本不止一座,它们遍布全球、形态各异而且还彼此关联(在一个“全球英语”的时代,这个隐喻是比较恰当的)。

即便如此,把握“万物的意义”这项任务——此话出自作家西蒙·温彻斯特(Simon Winchester),他曾写过一本专著来探讨牛津英语词典的历史——也仍然吸引着一代又一代的词典学家为之殚精竭虑:从维多利亚时代创立“一个负责收集英语中各种未受认可的词的委员会”的那些杰出人士,再到《牛津英语词典》的第一位专属编辑,也就是那位百折不挠的詹姆斯·穆雷(James Murray),他花费了36年心血来推动第一版牛津词典的问世(直到为此耗尽精力而逝世)。追求一部完美词典的梦想,源自于启蒙运动的一个信念:通过为语言分门别类、制定规则,一个人就能——只是一种可能性——提炼出人类思想的精华。1747年,在其即将启动的编写一部英语词典的“计划”中,萨缪尔·约翰逊(Samuel Johnson)声称,他将不打一丝折扣地完成“一部能够用来纠正发音,协助语言习得;保留其纯洁性,澄清其用法,并使其能历久弥新的英语词典”。英语将不再是单纯按照字母顺序而被列举出来的,它以此将能长存于世。

如今,距离《牛津英语词典》第一版问世已有90余年——这部词典乃是约翰逊的词典的后继者,其内容要丰富得多——它目前正在紧锣密鼓地准备出第三版,这项浩大的工程包括每一个条目的精细修订(许多词自维多利亚时代后期以来便少人问津),在3万多个遗漏的词里选取一部分加入到词典中,此外也会将整部词典进行数位化。按原先的计划,这项工作应于2000年完成,后来又推到2005年,接着再推到2010年。目前,牛津大学出版社已经有意不去谈论完工日期了。我向普洛菲特询问具体的工作进度。“大约完成了48%,”他答道。

在它所要——事实上是必须——达到的篇幅方面,牛津词典也保有一份低调的骄傲。1980年代后期的某个时候,上一任主编约翰·辛普森(John Simpson)曾向诗人本杰明·泽法尼亚(Benjamin Zephaniah)询问“skanking”这个词的起源。泽法尼亚思索再三,最后决定前往牛津英语词典的总编辑部,一对一地在主编面前亲自表演一番这种舞蹈,这是解释这个词的唯一办法。这个词后来自然被收录到了词典中,其定义为“一种与雷鬼音乐(reggae music)相搭配的西印度群岛舞蹈,舞者的身体需要前倾、弯腰,抬起膝盖,双手在空中作抓取状并适时跟随节奏拍掌”。

这个故事道出了一些重要的东西:通过捕捉某个单词,我们能从中窥见某些鲜活的生活经验,为其给出一个界定。假如你真可以捕捉到一切单词,也许你就能给什么是“存在”下一个定义了。

第一代英语词典的编纂者们从没幻想过把握全人类的所有文化。就汉语和古希腊语这样的语言而言,系统性的、词典式的工作已经存在了千年有余,但早期的英语词汇直到16世纪才初步成型。这是一件循序渐进的事情,与英语所传承的文化多样性是相互匹配的——英语就好比是“一锅乱炖”,它汇集了古代盎格鲁-日耳曼语言、北欧语言、拉丁语和希腊语,以及法国的诺曼人语言。

这门语言已经很令人费解了,然而16世纪中叶以后的发展却比这还要复杂百倍,因为政治动荡和殖民贸易又带来了一波又一波的移民,这才形成了如今的一整套“英语化的”词汇大厦:如“酒精”(alcohol,来自拉丁语,1543年前后)以及“废止”(abandonment,来自法语,1593年前后)等。科学与医药的发展进一步强化了这种混乱性。1582年,一位名叫理查德·莫卡斯特(Richard Mulcaster)的校长发起了一项近乎“疯狂”的倡议,希望有人能“收集我们所用到的所有英语词汇……编成一部词典”。这部词典能够整顿一下混乱的拼写,那是各种严重分歧的源头之一。此外,它最终还将为何谓“正确用法”立定规则。

1604年,一个名叫罗伯特·考德雷(Robert Cawdrey)的教士想出了一套权宜性的解决办法:他出了一本很薄的小册子,名为《字母总表》(A Table Alphabeticall)。小册子的目标读者群体为“淑女、贵妇与其它不熟练的人员”,它列出了大约2500个“最为常用的词”,这在当时的词汇总量里占了5%不到。单词的定义是十分模糊的,例如“饮食习惯”(diet)这个词就被界定为“餐饮的风尚”——不包含生动形象的例句,也没做什么词源学方面的考证。《字母总表》还远远谈不上完备,因为字母W开头的词条它一个也没收录进去。

罗伯特·考德雷1604年出版的《字母总表》

词典学家们一直在努力做到更好,但大多数时候也在遭逢挫折。约翰·布洛卡(John Bullokar)编纂的一部新“字典”于1616年问世,收录了5000个词;亨利·柯克拉姆(Henry Cockeram)1623年又出版了另一部词典,它包含8000个词,并且是首次以“dictionary(词典)”命名;托马斯·布鲁恩特(Thomas Blount)1656年又再接再厉,所收入的词汇量达到了1.1万个。不过,看起来没人能收入英语里的“所有词汇”,关于这些词汇的确切含义那就更是聚讼纷纭。这门语言的发展速度达到了前所未有的地步。你打算把哪里当成起点?

这种无所不包的词典也在法国、意大利和西班牙存在过,英国人没能占到先机,逐渐变成了一件在国际上比较尴尬的事情。1664年,皇家学会成立了一个22人委员会,旨在“提升英语语言”,但开了几次会之后就解散了。1712年,乔纳森·斯威夫特(Jonathan Swift)出了一本这方面的小册子,对英语用语当中的乱象大肆嘲讽,竭力主张要“想出一种方法,用来对我们的语言进行不断的澄清和修正”——他认为全方位地收集各种语料是不够的,英语的使用者一定得遵循某些规则才行。这项任务照旧把所有人都折磨得惨不忍睹。不到1746年,出版商联合会就开始想方设法说服萨缪尔·约翰逊来接手这项“伟大而又艰巨的工作”,它看上去几乎没有完成的可能性。

1755年,约翰逊终于把词典编了出来,这是一桩英雄般的壮举。他总共收录了43,500多个词,占到了当时英语词汇量的80%左右。不过,在某些人眼里,包括在编者自己眼里,这本词典同时也算是一个英雄般的败局。与他在1747年时秉持启蒙运动式的乐观主义所制定的计划相反,那时他还想要对英语实施“修正”和“保养”,而成书后的词典序言里,则多了些老成持重的现实主义色彩。约翰逊解释说,要“驯服”英语这么一个成长过于迅速的造物,不仅是不可能的,而且简直要让人笑掉大牙:“我们平时爱嘲笑那些声称可以让人活上一千年的长生不老药;这种嘲讽用在这样一个词典学家身上也是毫无问题的:他根本没法找到一个可以把自家的字词与语句保护得完好无比、使其免遭混乱之苦的民族,但又幻想自己的词典可以让本民族的语言永垂不朽,免于任何腐化与衰落。”

词典学家们越是幻想自己能捕捉意义并将其确定下来——如同约翰逊一度幻想的那般——鲜活生动的语言就越会跑在他们前头。

不过,做这种梦的人仍然层出不穷。想象一下,要是有人能百分百地——从有文字记载的那一刻开始,直到今天——把握住英语作为一个整体的全部面貌,那将会怎样?约翰逊本人就收到很多修订乃至批评的意见,但没几个人自己真的动手去编出一本新词典来。1828年,来自美国康涅狄格州的教师诺亚·韦伯斯特(Noah Webster)出版了《美国英语字典》,收入7万词,英国人的傲气由此再一次面临严峻挑战。

1857年11月,伦敦语文学会的成员召开会议,听取威斯敏斯特学院院长理查德·切尼维克斯·特伦奇(Richard Chenevix Trench)的论文报告,题目为“论英语词典的某些缺陷”。此举不啻是一枚重磅炸弹:特伦奇指出,英语词汇库过于不可靠,需要全方位的清理工作。在会场上,他简要勾勒了“一部词典的真正理念”。这个柏拉图式的方法,要求在编纂词典时详细追溯某个词的历史演变,从古代词汇学的角度出发,对一门语言进行深度挖掘。描述比规定更重要,需要用不偏不倚的眼光来审视一切,从盎格鲁-撒克逊人的单音节词一直到最新的专业“黑话”,概莫能外。最重要的是,它必须无所不包,尊崇特伦奇所谓的——他十分钦佩德国的格林兄弟当时致力于编纂德语词典的工作——“我们的民族语言”。

从整体上把握一门语言的任务需要长时间的努力,跟修铁路或者大桥类似,但这部新词典将会完全采纳维多利亚式的风格:讲究科学性,不顾禁忌,追求一种史诗般的效果,且价格不菲。从事这项工作几近于一桩爱国主义的义务,特伦奇坚持认为:“一部词典就好比是一座历史性的纪念碑,它象征着一个民族的历史。”

在《新英语词典》推出的头20年里,它的遭遇看起来跟之前的那些工作十分类似。第一任编辑没多久就去世了,留下了生前没能搞定的烂摊子。第二任编辑似乎对年轻女人、社会主义、民歌和脚踏车更有兴趣,基本是不务正业。直到牛津大学出版社1879年接下这项工作,安排当时还不知名的苏格兰教师、语文学家詹姆斯·穆雷担任总编辑,情况才慢慢有了一些起色。

詹姆斯·穆雷与同事们正在编辑第一版的《新英语词典》,后于1928年出版。图片来源:Alamy

穆雷取得的最大成果是:在报纸和图书馆的书籍上发布“求助”信息,招募有意愿的读者来协助选取例句,这将能描绘出一个词随着时光流逝所发生的各种变化——由此,这种超大规模的“语料库”便能令词典做到尽可能地准确。来自世界各地、出自各行各业的2000余名热心人士总共为穆雷领衔的词典学家团队贡献了500多万条例句,使他们能够根据字母顺序依次排列这些例句,与每个单词的定义一一对应。即便后来情况表明,这项工作需要的时间比预期要长很多很多——他们花了5年功夫才做完字母A这个部分的一半——穆雷仍然继续推进着词典的编纂。“这一切没有他的参与是不可能完成的,”词典学家、研究《牛津英语词典》的历史学家彼得·基利维(Peter Gilliver)说。

词典的第一部分于1884年正式出版,范围涵盖首字母A到“蚂蚁”(ant)这个词,其余部分在后来的40余年里以连载形式定期推出。虽然穆雷1915年去世了——当时的编纂进度大概在“Turndun”和“Tzirid”这两个词之间——但工作仍然有条不紊地继续着。1928年,完整版词典也得以出版:收录的单词和短语达到41.48万条,装订为10册,每个词条都附有定义和词源学考证,配有180万条例句以呈现单词用法的历时性变化。

放到任何一门语言来看,这套书都算得上是一部鸿篇巨著:如果你试着把印制它所用到的金属活字一个接一个地排起来,那能从伦敦一直延伸到曼彻斯特。它也许“迟到”了60年,但仍得到出版商的高度评价,他们称“牛津词典的权威性无可匹敌”。

话说回来,只要你眼尖,很多瑕疵还是相当明显的。在其1928年出版时,这部维多利亚式的巨著已经令人绝望地过时了。首字母A-C的部分已经是50多年前编成的了;其它部分所依据的学术传承也早已不堪大用,这一点在技术与科学方面表现得尤其明显。就其内部而言,一般认为后半部分(首字母M-Z)的质量比前半部分(首字母A-L)要好;而首字母E这一部分则相当薄弱。论起其它一些异数,穆雷曾力主把杏仁糖的拼写由“marzipan”改为“marchpane”,并要求词典不能包含形容词“非洲的”(African),理由是它不算一个真正的单词。但“美国的”(American)这个词则得到保留,表现出这部词典所秉持的不无傲慢的英美中心主义世界观。

对此,唯一的解决办法就是不停“打补丁”。《牛津英语词典》的首部增补版于1933年问世,加入了一些编辑们此后有注意到或是在上一个版本中忽略掉的词。第二部增补版则于1957年出版,在1972-1986年间,增补内容渐渐累积到了第四版——补充进去的总共有69300个单词。不过,这是场注定要打输的战争,或者也可以看成是一个形式比较特别的芝诺悖论(Zeno's Paradox,芝诺为古希腊著名哲学家,辩证法开创者之一,曾提出“飞矢不动”等多组悖论,涉及时空可分割性问题,对后世影响极大——译注):词典学家们越是接近终点,这个终点看起来反倒离他们越来越远。

与此同时,他们脚下的地基也开始崩坏了。到1960年代后期,在电脑的辅助下,“语料库语言学”开始流行起来,这迫使词典学家们重新检视其关于语言运作方式的最深层假定。语料库语言学不再采用传统方式来编纂词典——即参照业已编成的单词表和定义,并四处找人们寻求有关单词意义的证据——它完全把方法颠倒了过来:你可以运用数位科技,把现实中人们所说所写的一切都记录下来,然后依据这些材料来编纂词典。首个现代语料库是《布朗标准美国英语语料库》(Brown Corpus of Standard American English),1964年编成,收录单词100余万个,其例句来源有500多种,包括浪漫派小说、宗教手册和各种“民间传说”类书籍等——这些当代的、日常的资源是传统的词典作者很少去借鉴的,事实上这类东西也从无可能得到全面的考察。为当代的各种词典提供原材料的普通语料库所包含的单词量可达数十亿,已经远超想象力最为丰富的老一辈词典学家的水准了。

语料库原则上是没有数量限制的:2017年有场语料库语言学的会议在伯明翰召开,我观看了研究者监听大学生推特用户的过程(emoji显然让某些表示大笑的缩写过时了,例如LOL或ROFL等,前者是大笑,后者是捶地大笑),此外也有梳理英国法官的刑事判决词的,以寻找其中的性别偏见证据(这已经很常见了)。

对词典学家来说,语料库语言学对他们所形成的最大冲击,还是在于它监听日常生活语言的方式。对照一个单词曾经在其中出现过的各种不同的句子,能够揭示出丰富多彩的意义变化。探讨一个单词如何被“误用”,则可以提示我们某个单词的核心含义可能会发生转移。在各种有代表性的语料库之间进行比较,你便能发现特朗普的支持者会频繁地使用“自由权”(liberty)这个词,而该词在“黑命重”(Black Lives Matter)运动中又有不同的用法。“它完全改变了我们的行事方式,”词典学家迈克尔·兰德尔(Michael Rundell)说,“这是颠覆性的。你必须重新思考几乎一切事物。”

不过,尽管很多词典出版商都开始转向语料库语言学,《牛津英语词典》的编辑们仍在坚持自己的一套方法,他们拒绝电脑化,继续仰赖着一条一条的例句和大学图书馆里的研究人员。在1970至1980年代间,并没有多少人想要去修订这套卷帙浩繁的历史性词典系列,更不用说让它时刻保持最新了:几乎没人有能力填满这个无底洞了。《牛津英语词典》于1989年3月正式推出第二版,分为20册,词条超过29.15万,例句则有240多万——有人抱怨说这根本算不上一个新的版本,无非是重新排过一下版的旧版而已。其中,“电脑”这个词条的定义是“一种实施计算的机器;尤其指一种能够实施数学或逻辑运算的自动化、电子化装置”,而描绘该词的例句当中竟然还有一条来自1897年的某本杂志。

祸不单行,另一场烈度更大的“巨震”再度袭来,时间点正好撞上《牛津英语词典》第二版的发行日期:一个名叫蒂姆·伯讷斯-李(Tim Berners-Lee)的英国计算机科学家发起了一项倡议,主张建立“具有分类链接的大型超文本数据库”。正如万维网(world wide web,牛津词典将这个词的最初使用追溯到了1990年)这个称谓所提示的,它为词典编纂学的未来开辟了一条康庄大道。数据库可以被广泛地分享,彼此连接起来。一整个图书馆的书籍都可以被检索到,内容也能在搜索引擎上找到。只要你拥有一台可以联网的电脑,人类文本的总和就是向你开放的。

种种可能性令人头晕目眩。《纽约客》1989年曾发表了一篇来自牛津大学出版社某管理人员的文章,其中充满了兴奋之情,他认为如果词典能够恰当地整合语料库语言学的资源的话,将能达成某些非常特别的目标:“一个柏拉图式的概念——理念中的数据库”。这个理想正是理查德·切尼维克斯·特伦奇在132年前所提到的:一千多年以来乃至源自更为久远的年代的每一个英语单词,都有望被整理得井然有序。

一个事实是,目前线上可以取得的文本已经浩如烟海,这是极为重大的变化。之前人们嘴里说的那些字词如今全部被记录在了社交媒体上。研究俚语的词典学家们一直以来都梦想着能够追踪到特定某条俚语的不同变体,“打个比方,这种细致程度就好比去追踪伦敦塔上每一块砖的变化,”俚语专家、《牛津英语词典》顾问乔纳森·格林(Jonathan Green)说道。如今,通过脸书或是Instagram等应用,这将会成为现实。词典学家们将可以亲临每一个单词的诞生现场:譬如,“男性解释”这个词的诞生将能被纳入某种可持续的、白纸黑字的纪录,而研究者则可将此当作这个词的存在证明,眼下这对每一个人而言几乎都达到了唾手可得的地步。

任何人,在任何地方——当1850年牛津词典的编者们初次接触到这个梦想时,英语的使用范围还仅限于不列颠群岛、北美的大部分地区以及一些零星的殖民地。如今,世界上有四分之一的人口,也就是大约15亿人都在说着某种类型的英语,大部分视其为第二语言——当然英语本来就不是一门单一的语言。它的地方变种不计其数,从西印度群岛的方言,到西非的某种混合形式,再到与各类地方性语言整合而成的威尔士英语、印度英语以及香港澳门等地区的中式英语,不一而足。所有这些英语分支目前都比以前要更加显而易见,各分支更以越来越快的速度交融、丰富着彼此。

“英语语言的圈子有个颇为确定的中心,但没有清晰可辨的边界,”詹姆斯·穆雷曾经写道,但现代的词典学家们并不这么看。与其说只有一个中心,不如说有不同的群体处于相互交融之中,每个群体都使用具备特定风格的一种英语,其内容受到地理环境、文化遗产、价值观、其它的语言以及别的不可胜数的诸多变量的影响。英语圈子的范围也在以前所未有的速度扩张着。即便词典学家们的说法是正确的,即每年会新增7000多个英语单词——这还没有计算那些全新的自造词和之前被词典漏掉了的词——那么我们便可以说,当你在读到这句话的时候,就又有两个新的英语单词诞生了。

当然,大部分人如今基本不会去碰词典,他们只需借助维基百科(研究表明,人们更多地把维基百科当词典而不是百科全书用)或依赖谷歌——它跟牛津词典有合作——由此来取得精确的定义、正确发音的语音、词源学考证、历史上的各种用法以及翻译工具。如果你想知道某个词的意思,只要对着Siri或者Alexa说出来就行了。

语音助手可以轻易查到词汇的含义

来自线上词典网站Dictionary.com的简·所罗门(Jane Solomon)表示,各种词典的更新速度有点跟不上脚步了。“信息提取的方式正在急速变化,”她说,“为何词典不能智能地响应语义学或者用户的语境呢?例如判断出你在搜寻有关食物的单词之后,便会为你给出一些相关的其它词汇或是菜单之类的。”而且不仅是单词,“我希望能一并把emoji也涵括进来。人们的表情包太有创意了,它们已经构成了一整套自成一体的语言。有时候人们需要详细的解释,如果你直接给女儿发个茄子表情,对方可能会觉得这有点诡异。”

一些更具想象力的人甚至提出了比那个具有多重意义的茄子(polysemous aubergines)更加宏大的筹划。2013年,来自罗马大学的计算机专家罗伯托·纳维利(Roberto Navigli)创办了一个网站“巴别塔网”(Babelnet),旨在开发一种能够击败其它所有词典的超级词典——它很像个词典但并不是真正的词典。这项工作的名称是“语义学网络”,它汇集了维基百科、维基词典、微软术语等等15个现有的资源库,试图打造一个无所不包的层级化地图,同时涵括包括英语在内的271种语言,是目前规模最大的线上词典/百科/近义词/索引。纳维利告诉我说,他真正的目标是使用“语义学技术”,来为世界各地的软件工程师打造一个“圣杯”(holy grail):使他们能够对文本进行全自动化的机器阅读。“这个梦想很厉害,对不对?”他说,“机器可以阅读文本并理解我们所说的一切。”

当然,机器已经理解了不少东西了。有人曾经谈到过“文化经济学”(culturomics)这个概念,它是一种计算机词汇学(computational lexicology)的形式,使用语料库工具来分析及预测人类行为的趋势。一项持续31个月的推特研究试图测量英国民众对勤俭节约(austerity)的情感变化,甚至还有人声称——多少有些争议——一项被动式的众包(crowd-sourced,亦即广泛地从大众那里获取数据来源——译注)研究,预言了阿拉伯之春的来临。至少就宏观层面来看,比起我们单凭一己之力,计算机以及各大拥有并出租海量数据的IT巨头们或许能更好地理解语言。

对词典学家以及类似于谷歌这样的公司而言,在语言学方面仍有一道不易突破的难关。目前而言,把书面文本的语料库整合起来,并借此探讨语言在特定环境下的各种功能,是不太困难的,然而放到口头语言上面就很麻烦了。理由很明显:记录言辞(speech)、将其转为文本并构造一个可用的数据库,耗时将会极为巨大,且成本不菲。基于言辞的语料库不是没有,但体量甚小且缺乏代表性(法庭上的论辩记录很容易处理,但律师们私下喝酒的时候说了些什么就很难监听到了)。

在词典学家眼里,言辞乃是最珍贵的语料资源,也是最难以捕捉的。如果你能够收集到足够大的样本——人们在我们能够想到的一切语境里所说的话,从游乐场到公司餐厅再到超市——那你就能更加准确地观察人们在日常生活中是如何使用语言的。“假如我们能够在日常对话转文字方面取得技术突破的话,”迈克尔·兰德尔说,“它将能改变整个业界生态。”

对牛津词典的编者们来讲,这个世界既令人振奋,但从某种意义上看,也略有些让人摸不着头脑。数位时代的来临令牛津的词典学家们能够更加深度地收集各种语料,但同时也有颠倒工作重心的危险。当你正在做一部历史性词典、需要检查所有以及每一项来源并且还要复查,此时某个17世纪的手写信件语料库却忽然上线了,那么保持词典不落后于时代便会成为一个梦魇般的工作环节。为词典增补新单词——其数目已经是前所未有地大,而且新词涌现的速度也越来越快——则进一步地强化了这场梦魇。“在数位技术发展的早期,我们就已经有一点失控了的感觉,”彼得·基利维告诉我说。“这是没有尽头的,”一名参与《牛津英语词典》编纂的词典学家附和道,“你会觉得自己就好像掉进了一个虫洞一般。”

此外,还有一项人们耳熟能详的挑战在于:尽管人们越来越多地使用词典式资源来查询资料,但没多少人愿意为此付费。精装本的词典早就卖不出去了,其生存处境比别的纸质书要恶劣得多(牛津大学出版社以“商业机密”为由,拒绝向我透露具体的数据。“我并不觉得有出版商会情愿跟你谈论这类问题,”迈克尔·兰德尔对我说)。工具书出版商要么被收购,要么就直接垮台了,但诸如谷歌和苹果这样的信息巨头则借助搜索引擎中的植入式广告赚得盆满钵满。如果你在手机屏幕上长按某个单词,它的定义就会自动跳出来,那动动手指买本书又有什么困难呢?

“如今去参加词典业界的会议,你会发现人们的脸色很不好看,”兰德尔说。尽管他是专业的词典编纂学训练出身,但目前的主业是做咨询,就出版商如何运用基于语料库的资源提出各种建议。“编词典当然是一项事业,”他接着说道,“但具体工作的方式和三十年前相比已经迥然不同了。”他指着自己的书架——上面已经没几本书了——说道:“但现在我并不同情纸质书的衰落,我手里的大部分词典都拿来送人了。”

即便词典编纂学的基本工作方法已完全过时或是彻底地更新了,其中的某些东西也可喜地保持着稳定。每一个我曾与之交谈的词典学家,都明确表达了对“背单词爱好者”(word-lovers)的厌恶之情,在词典的世界里,这类人大概类似于那种看到超市里少量购物通道牌子上的“10件或更少”(10 items or less,但此处item可数,故应为fewer)写错了就一心想把它改回来的人,或者那些逢人就开口背“反政教分离主义者”(antidisestablishmentarianism)这个词的人。一向待人和蔼的前主编约翰·辛普森对此也有辛辣的讽刺,称“我坚持认为,语言不是现成地拿来‘享受’的”,不如这么讲,它需要得到良好的运用。

《新英语词典》第一版论历史原则的部分。1928年出版。图片来源:Alamy Stock Photo

然而,爱——即便你不情愿也得承认——才是吸引人们穷尽毕生精力去探究和分析语言的最大力量。它造就了一类名为“单词侦探”(word detective)的人:这种人游走于语言学家、档案历史学家、新闻工作者与老式的私人侦探这几种角色之间。尽管其间有一些内在的张力——语料库语言学家对决老牌词典编纂者,“大数据流”对决“学院考据流”——但词典编纂学作为一门专业技艺而言似乎仍拥有着一些挥之不去的共享目的:我们要与那头疯狂生长的多头怪(hydra),也即英语这门语言“战斗到底”。“我们对此几乎有某种发自内心的强迫症,”简·所罗门说道。

在大部分词典学家看来,打造一个完美无缺的语言资料库的想法乃是十分荒唐的,她继续说道:“之前不少编词典的人在私底下都抱有这样的目的。”但放到现在来看,身为词典学家则需要有一项必不可少的信念,那就是明白此类工作根本不可能完成。英语总是在不断地转型、演变和发展,这种不留情面的动态性才是让它如此具有吸引力的关键。“它永远处于变动中,”所罗门说,“你必须爱上这一点。”

其它方面的乐趣也是为数不少的:捕捉到一个新意义,或锤炼出一条尽管并非完美但基本正确的定义,都是令人振奋的。“这看起来很累人,但也可以非常有诗意,”迈克尔·兰德尔回忆道,“编写一部词典与工匠从事工艺品制作相比并没有什么两样。”

尽管对业界的未来颇为悲观,但他在谈到自己即将加入的某个项目时仍然兴味十足,该项目将与来自戈德菲尔德原住民语言中心(Goldfield Aboriginal Language Centre)的专家合作,对澳洲原住民的语言进行研究,词典学家目前在这方面着力还不多。“词典确实能够改变世界,”他说,“它能为各种过去甚少受到重视的语言赋权,且有利于语言的保存和共享。我对此深信不疑。”

无论如何,《牛津英语词典》的编纂工作仍会继续下去,力求比过去做到更好,哪怕只有一点轻微的改进也是如此。词典编纂团队目前更倾向于称其为“移动的文档”:单词只会不断地新增;收录进去之后就永远不会被删掉。当我向迈克尔·普洛菲特表示,这部词典就好比是一艘维多利亚时代的战舰,雄伟壮丽但容易漏水,船员们夜以继日地查缺补漏,同时还要保持正确的航向的时候,他看起来若有所思。“我之前曾说过,编词典好比是给第四大桥刷漆,永远刷不完。但接下来他们的工作便戛然而止——因为刷法本身在翻新,我想大概是这样的,”他停了停,“现在又轮到我们这一代了。”

目前,《牛津英语词典》的线上版本每年会有四次更新。尽管从官方来说,它尚未放弃出版下一个纸质本的想法,但这个构想也在逐渐式微。距离首次询问第三版词典的工作进度过去了7个月,我又找他们问了一遍进度,答复是48.7%。“我们会想办法让它完工的,”普洛菲特坚定地说道。尽管我离开牛津之后心想:詹姆斯·穆雷想必会对此报以一丝轻蔑的微笑。如果第三版真的要等到2037年才问世的话,那将会打破第一版耗时49年这项纪录,而如此一来的话,它显然又需要全方位地进行修订了。

好些天之前,我曾发邮件去询问“男性解释”这个词最后有没有被收到词典里。收倒是收进去了,不过其间经历了一些小插曲——因为后续的研究将该词诞生的时间再往前推了6个月,也就是2008年8月到2009年2月之间。随后,这个由佩顿负责的词条还没来得及上线,就又有人发来邮件指出上述结论仍然有不准确之处:他们在2008年5月的一篇博文里就发现了“男性解释”这个词,这个时间点正好在作家瑞贝卡·索尔尼特(Rebecca Solnit)发表其著名杂文《男人向我作解释》(Men Explain Things to Me)的一个月之后。普洛菲特向我作出保证:修订过的定义很快会再度上线的。

(翻译:林达)

……………………………………

欢迎你来微博找我们,请点这里

也可以关注我们的微信公众号“界面文化”【ID:BooksAndFun】

来源:卫报

原标题:Inside the OED: can the world’s biggest dictionary survive the internet?

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

《牛津英语词典》探秘:世界上最大的词典能否活过互联网的冲击?

数个世纪来,词典编纂者一直试图完整地将英语这门语言捕捉到词典之中,如今他们的梦想即将被科技实现。但这是否同时也意味着,词典的末日已经到来?

2009年2月,某推特用户公然向一个名叫科林(Colin)的人发起了一项具有历史意义的挑战:她询问他能否就某一概念给她一个“男性解释”(mansplain,女权用来讽刺男性偏见的词——译注)。这个男人后来究竟有没有给出这个解释已无稽可考,不过词典学家伯纳德特·佩顿(Bernadette Paton)2017年夏天把这一记录给挖了出来,据信这是有确切记载的某人使用该词的案例。“这条推之前被删了,不过我们捕捉到了它,”佩顿不无得意地告诉我说。

在牛津大学出版社的办公室里,佩顿正在为《牛津英语词典》撰写一条全新的条目。我(指本文作者Andrew Dickson)到访后,还在她的资料架里找到了千禧一代特别爱用的“雪片”(snowflake)这个词条,据她考证,该词可追溯到1983年的某条基督教箴言(“你是一块雪片,没有任何人与你完全一样”),而另一个新兴的复合词“自我造就的女性”(self-made woman)也在其中。类似的词有30,000多个,都在《牛津英语词典》的核心单词表上;每年还会新增7000多个类似的新条目。“大家都觉得我们有点跟不上时代,但事实上我们相当超前,”佩顿说,“尽管通常来说,修订一个‘go’这样的词,都会花上我同事一年的时间。”

花一整年时间来追溯一个只有两个字母的单词的历史,看起来似乎荒唐无比。但诸如《牛津英语词典》这样的历史性词典,正是将此种雕琢视为自己理应承担的天职。一名负责牛津词典编纂的词典学家或许需要在十年前的推特条目中仔细翻找;此外,他们还得花极大的功夫去理清世界上最古老的动词的前世今生(例如修订后的“go”词条,包含了千余年来这个词在演变中所包含的537种意思)。“总之,我们必须把这一切都安排得井井有条,”词典现任主编迈克尔·普洛菲特(Michael Proffitt)说道。

从一个方面看,几乎没什么东西比一部词典更简单:把人们平常用的或者曾经使用过的字词列出来,就其意义或此前曾经有过的意义给出相应解释。但从另一个更加要紧的方面看——它把词典学家们搞得焦头烂额、苦不堪言——词典又是极为复杂的。谁用了这些词?在何种具体的时间和地点中?你又如何知道这些?哪些词需要收录进去?根据什么来做取舍?如何将某一含义与其它含义区分开来?归根结底,究竟才什么算是“英语”?

对一部类似于《牛津英语词典》这样的词典来讲——它声称能为公元1000年至今英语中的每一个单词提供“定义性”(definitive)的记录文字——问题的口径还要大一些:究竟能否对一种仍然活着的语言进行全方位的图绘、调查和描述?一个人在跟词典学家交谈的时候,需要很小心地运用“字面上讲”(literally)这个词,但一部定义性的词典,从字面上讲,确实不可能做到以上提到的这几点。打个比方,就好像你还没来得及爬到山顶,山就又变高了100来英尺。接下来你还会意识到,高山根本不止一座,它们遍布全球、形态各异而且还彼此关联(在一个“全球英语”的时代,这个隐喻是比较恰当的)。

即便如此,把握“万物的意义”这项任务——此话出自作家西蒙·温彻斯特(Simon Winchester),他曾写过一本专著来探讨牛津英语词典的历史——也仍然吸引着一代又一代的词典学家为之殚精竭虑:从维多利亚时代创立“一个负责收集英语中各种未受认可的词的委员会”的那些杰出人士,再到《牛津英语词典》的第一位专属编辑,也就是那位百折不挠的詹姆斯·穆雷(James Murray),他花费了36年心血来推动第一版牛津词典的问世(直到为此耗尽精力而逝世)。追求一部完美词典的梦想,源自于启蒙运动的一个信念:通过为语言分门别类、制定规则,一个人就能——只是一种可能性——提炼出人类思想的精华。1747年,在其即将启动的编写一部英语词典的“计划”中,萨缪尔·约翰逊(Samuel Johnson)声称,他将不打一丝折扣地完成“一部能够用来纠正发音,协助语言习得;保留其纯洁性,澄清其用法,并使其能历久弥新的英语词典”。英语将不再是单纯按照字母顺序而被列举出来的,它以此将能长存于世。

如今,距离《牛津英语词典》第一版问世已有90余年——这部词典乃是约翰逊的词典的后继者,其内容要丰富得多——它目前正在紧锣密鼓地准备出第三版,这项浩大的工程包括每一个条目的精细修订(许多词自维多利亚时代后期以来便少人问津),在3万多个遗漏的词里选取一部分加入到词典中,此外也会将整部词典进行数位化。按原先的计划,这项工作应于2000年完成,后来又推到2005年,接着再推到2010年。目前,牛津大学出版社已经有意不去谈论完工日期了。我向普洛菲特询问具体的工作进度。“大约完成了48%,”他答道。

在它所要——事实上是必须——达到的篇幅方面,牛津词典也保有一份低调的骄傲。1980年代后期的某个时候,上一任主编约翰·辛普森(John Simpson)曾向诗人本杰明·泽法尼亚(Benjamin Zephaniah)询问“skanking”这个词的起源。泽法尼亚思索再三,最后决定前往牛津英语词典的总编辑部,一对一地在主编面前亲自表演一番这种舞蹈,这是解释这个词的唯一办法。这个词后来自然被收录到了词典中,其定义为“一种与雷鬼音乐(reggae music)相搭配的西印度群岛舞蹈,舞者的身体需要前倾、弯腰,抬起膝盖,双手在空中作抓取状并适时跟随节奏拍掌”。

这个故事道出了一些重要的东西:通过捕捉某个单词,我们能从中窥见某些鲜活的生活经验,为其给出一个界定。假如你真可以捕捉到一切单词,也许你就能给什么是“存在”下一个定义了。

第一代英语词典的编纂者们从没幻想过把握全人类的所有文化。就汉语和古希腊语这样的语言而言,系统性的、词典式的工作已经存在了千年有余,但早期的英语词汇直到16世纪才初步成型。这是一件循序渐进的事情,与英语所传承的文化多样性是相互匹配的——英语就好比是“一锅乱炖”,它汇集了古代盎格鲁-日耳曼语言、北欧语言、拉丁语和希腊语,以及法国的诺曼人语言。

这门语言已经很令人费解了,然而16世纪中叶以后的发展却比这还要复杂百倍,因为政治动荡和殖民贸易又带来了一波又一波的移民,这才形成了如今的一整套“英语化的”词汇大厦:如“酒精”(alcohol,来自拉丁语,1543年前后)以及“废止”(abandonment,来自法语,1593年前后)等。科学与医药的发展进一步强化了这种混乱性。1582年,一位名叫理查德·莫卡斯特(Richard Mulcaster)的校长发起了一项近乎“疯狂”的倡议,希望有人能“收集我们所用到的所有英语词汇……编成一部词典”。这部词典能够整顿一下混乱的拼写,那是各种严重分歧的源头之一。此外,它最终还将为何谓“正确用法”立定规则。

1604年,一个名叫罗伯特·考德雷(Robert Cawdrey)的教士想出了一套权宜性的解决办法:他出了一本很薄的小册子,名为《字母总表》(A Table Alphabeticall)。小册子的目标读者群体为“淑女、贵妇与其它不熟练的人员”,它列出了大约2500个“最为常用的词”,这在当时的词汇总量里占了5%不到。单词的定义是十分模糊的,例如“饮食习惯”(diet)这个词就被界定为“餐饮的风尚”——不包含生动形象的例句,也没做什么词源学方面的考证。《字母总表》还远远谈不上完备,因为字母W开头的词条它一个也没收录进去。

罗伯特·考德雷1604年出版的《字母总表》

词典学家们一直在努力做到更好,但大多数时候也在遭逢挫折。约翰·布洛卡(John Bullokar)编纂的一部新“字典”于1616年问世,收录了5000个词;亨利·柯克拉姆(Henry Cockeram)1623年又出版了另一部词典,它包含8000个词,并且是首次以“dictionary(词典)”命名;托马斯·布鲁恩特(Thomas Blount)1656年又再接再厉,所收入的词汇量达到了1.1万个。不过,看起来没人能收入英语里的“所有词汇”,关于这些词汇的确切含义那就更是聚讼纷纭。这门语言的发展速度达到了前所未有的地步。你打算把哪里当成起点?

这种无所不包的词典也在法国、意大利和西班牙存在过,英国人没能占到先机,逐渐变成了一件在国际上比较尴尬的事情。1664年,皇家学会成立了一个22人委员会,旨在“提升英语语言”,但开了几次会之后就解散了。1712年,乔纳森·斯威夫特(Jonathan Swift)出了一本这方面的小册子,对英语用语当中的乱象大肆嘲讽,竭力主张要“想出一种方法,用来对我们的语言进行不断的澄清和修正”——他认为全方位地收集各种语料是不够的,英语的使用者一定得遵循某些规则才行。这项任务照旧把所有人都折磨得惨不忍睹。不到1746年,出版商联合会就开始想方设法说服萨缪尔·约翰逊来接手这项“伟大而又艰巨的工作”,它看上去几乎没有完成的可能性。

1755年,约翰逊终于把词典编了出来,这是一桩英雄般的壮举。他总共收录了43,500多个词,占到了当时英语词汇量的80%左右。不过,在某些人眼里,包括在编者自己眼里,这本词典同时也算是一个英雄般的败局。与他在1747年时秉持启蒙运动式的乐观主义所制定的计划相反,那时他还想要对英语实施“修正”和“保养”,而成书后的词典序言里,则多了些老成持重的现实主义色彩。约翰逊解释说,要“驯服”英语这么一个成长过于迅速的造物,不仅是不可能的,而且简直要让人笑掉大牙:“我们平时爱嘲笑那些声称可以让人活上一千年的长生不老药;这种嘲讽用在这样一个词典学家身上也是毫无问题的:他根本没法找到一个可以把自家的字词与语句保护得完好无比、使其免遭混乱之苦的民族,但又幻想自己的词典可以让本民族的语言永垂不朽,免于任何腐化与衰落。”

词典学家们越是幻想自己能捕捉意义并将其确定下来——如同约翰逊一度幻想的那般——鲜活生动的语言就越会跑在他们前头。

不过,做这种梦的人仍然层出不穷。想象一下,要是有人能百分百地——从有文字记载的那一刻开始,直到今天——把握住英语作为一个整体的全部面貌,那将会怎样?约翰逊本人就收到很多修订乃至批评的意见,但没几个人自己真的动手去编出一本新词典来。1828年,来自美国康涅狄格州的教师诺亚·韦伯斯特(Noah Webster)出版了《美国英语字典》,收入7万词,英国人的傲气由此再一次面临严峻挑战。

1857年11月,伦敦语文学会的成员召开会议,听取威斯敏斯特学院院长理查德·切尼维克斯·特伦奇(Richard Chenevix Trench)的论文报告,题目为“论英语词典的某些缺陷”。此举不啻是一枚重磅炸弹:特伦奇指出,英语词汇库过于不可靠,需要全方位的清理工作。在会场上,他简要勾勒了“一部词典的真正理念”。这个柏拉图式的方法,要求在编纂词典时详细追溯某个词的历史演变,从古代词汇学的角度出发,对一门语言进行深度挖掘。描述比规定更重要,需要用不偏不倚的眼光来审视一切,从盎格鲁-撒克逊人的单音节词一直到最新的专业“黑话”,概莫能外。最重要的是,它必须无所不包,尊崇特伦奇所谓的——他十分钦佩德国的格林兄弟当时致力于编纂德语词典的工作——“我们的民族语言”。

从整体上把握一门语言的任务需要长时间的努力,跟修铁路或者大桥类似,但这部新词典将会完全采纳维多利亚式的风格:讲究科学性,不顾禁忌,追求一种史诗般的效果,且价格不菲。从事这项工作几近于一桩爱国主义的义务,特伦奇坚持认为:“一部词典就好比是一座历史性的纪念碑,它象征着一个民族的历史。”

在《新英语词典》推出的头20年里,它的遭遇看起来跟之前的那些工作十分类似。第一任编辑没多久就去世了,留下了生前没能搞定的烂摊子。第二任编辑似乎对年轻女人、社会主义、民歌和脚踏车更有兴趣,基本是不务正业。直到牛津大学出版社1879年接下这项工作,安排当时还不知名的苏格兰教师、语文学家詹姆斯·穆雷担任总编辑,情况才慢慢有了一些起色。

詹姆斯·穆雷与同事们正在编辑第一版的《新英语词典》,后于1928年出版。图片来源:Alamy

穆雷取得的最大成果是:在报纸和图书馆的书籍上发布“求助”信息,招募有意愿的读者来协助选取例句,这将能描绘出一个词随着时光流逝所发生的各种变化——由此,这种超大规模的“语料库”便能令词典做到尽可能地准确。来自世界各地、出自各行各业的2000余名热心人士总共为穆雷领衔的词典学家团队贡献了500多万条例句,使他们能够根据字母顺序依次排列这些例句,与每个单词的定义一一对应。即便后来情况表明,这项工作需要的时间比预期要长很多很多——他们花了5年功夫才做完字母A这个部分的一半——穆雷仍然继续推进着词典的编纂。“这一切没有他的参与是不可能完成的,”词典学家、研究《牛津英语词典》的历史学家彼得·基利维(Peter Gilliver)说。

词典的第一部分于1884年正式出版,范围涵盖首字母A到“蚂蚁”(ant)这个词,其余部分在后来的40余年里以连载形式定期推出。虽然穆雷1915年去世了——当时的编纂进度大概在“Turndun”和“Tzirid”这两个词之间——但工作仍然有条不紊地继续着。1928年,完整版词典也得以出版:收录的单词和短语达到41.48万条,装订为10册,每个词条都附有定义和词源学考证,配有180万条例句以呈现单词用法的历时性变化。

放到任何一门语言来看,这套书都算得上是一部鸿篇巨著:如果你试着把印制它所用到的金属活字一个接一个地排起来,那能从伦敦一直延伸到曼彻斯特。它也许“迟到”了60年,但仍得到出版商的高度评价,他们称“牛津词典的权威性无可匹敌”。

话说回来,只要你眼尖,很多瑕疵还是相当明显的。在其1928年出版时,这部维多利亚式的巨著已经令人绝望地过时了。首字母A-C的部分已经是50多年前编成的了;其它部分所依据的学术传承也早已不堪大用,这一点在技术与科学方面表现得尤其明显。就其内部而言,一般认为后半部分(首字母M-Z)的质量比前半部分(首字母A-L)要好;而首字母E这一部分则相当薄弱。论起其它一些异数,穆雷曾力主把杏仁糖的拼写由“marzipan”改为“marchpane”,并要求词典不能包含形容词“非洲的”(African),理由是它不算一个真正的单词。但“美国的”(American)这个词则得到保留,表现出这部词典所秉持的不无傲慢的英美中心主义世界观。

对此,唯一的解决办法就是不停“打补丁”。《牛津英语词典》的首部增补版于1933年问世,加入了一些编辑们此后有注意到或是在上一个版本中忽略掉的词。第二部增补版则于1957年出版,在1972-1986年间,增补内容渐渐累积到了第四版——补充进去的总共有69300个单词。不过,这是场注定要打输的战争,或者也可以看成是一个形式比较特别的芝诺悖论(Zeno's Paradox,芝诺为古希腊著名哲学家,辩证法开创者之一,曾提出“飞矢不动”等多组悖论,涉及时空可分割性问题,对后世影响极大——译注):词典学家们越是接近终点,这个终点看起来反倒离他们越来越远。

与此同时,他们脚下的地基也开始崩坏了。到1960年代后期,在电脑的辅助下,“语料库语言学”开始流行起来,这迫使词典学家们重新检视其关于语言运作方式的最深层假定。语料库语言学不再采用传统方式来编纂词典——即参照业已编成的单词表和定义,并四处找人们寻求有关单词意义的证据——它完全把方法颠倒了过来:你可以运用数位科技,把现实中人们所说所写的一切都记录下来,然后依据这些材料来编纂词典。首个现代语料库是《布朗标准美国英语语料库》(Brown Corpus of Standard American English),1964年编成,收录单词100余万个,其例句来源有500多种,包括浪漫派小说、宗教手册和各种“民间传说”类书籍等——这些当代的、日常的资源是传统的词典作者很少去借鉴的,事实上这类东西也从无可能得到全面的考察。为当代的各种词典提供原材料的普通语料库所包含的单词量可达数十亿,已经远超想象力最为丰富的老一辈词典学家的水准了。

语料库原则上是没有数量限制的:2017年有场语料库语言学的会议在伯明翰召开,我观看了研究者监听大学生推特用户的过程(emoji显然让某些表示大笑的缩写过时了,例如LOL或ROFL等,前者是大笑,后者是捶地大笑),此外也有梳理英国法官的刑事判决词的,以寻找其中的性别偏见证据(这已经很常见了)。

对词典学家来说,语料库语言学对他们所形成的最大冲击,还是在于它监听日常生活语言的方式。对照一个单词曾经在其中出现过的各种不同的句子,能够揭示出丰富多彩的意义变化。探讨一个单词如何被“误用”,则可以提示我们某个单词的核心含义可能会发生转移。在各种有代表性的语料库之间进行比较,你便能发现特朗普的支持者会频繁地使用“自由权”(liberty)这个词,而该词在“黑命重”(Black Lives Matter)运动中又有不同的用法。“它完全改变了我们的行事方式,”词典学家迈克尔·兰德尔(Michael Rundell)说,“这是颠覆性的。你必须重新思考几乎一切事物。”

不过,尽管很多词典出版商都开始转向语料库语言学,《牛津英语词典》的编辑们仍在坚持自己的一套方法,他们拒绝电脑化,继续仰赖着一条一条的例句和大学图书馆里的研究人员。在1970至1980年代间,并没有多少人想要去修订这套卷帙浩繁的历史性词典系列,更不用说让它时刻保持最新了:几乎没人有能力填满这个无底洞了。《牛津英语词典》于1989年3月正式推出第二版,分为20册,词条超过29.15万,例句则有240多万——有人抱怨说这根本算不上一个新的版本,无非是重新排过一下版的旧版而已。其中,“电脑”这个词条的定义是“一种实施计算的机器;尤其指一种能够实施数学或逻辑运算的自动化、电子化装置”,而描绘该词的例句当中竟然还有一条来自1897年的某本杂志。

祸不单行,另一场烈度更大的“巨震”再度袭来,时间点正好撞上《牛津英语词典》第二版的发行日期:一个名叫蒂姆·伯讷斯-李(Tim Berners-Lee)的英国计算机科学家发起了一项倡议,主张建立“具有分类链接的大型超文本数据库”。正如万维网(world wide web,牛津词典将这个词的最初使用追溯到了1990年)这个称谓所提示的,它为词典编纂学的未来开辟了一条康庄大道。数据库可以被广泛地分享,彼此连接起来。一整个图书馆的书籍都可以被检索到,内容也能在搜索引擎上找到。只要你拥有一台可以联网的电脑,人类文本的总和就是向你开放的。

种种可能性令人头晕目眩。《纽约客》1989年曾发表了一篇来自牛津大学出版社某管理人员的文章,其中充满了兴奋之情,他认为如果词典能够恰当地整合语料库语言学的资源的话,将能达成某些非常特别的目标:“一个柏拉图式的概念——理念中的数据库”。这个理想正是理查德·切尼维克斯·特伦奇在132年前所提到的:一千多年以来乃至源自更为久远的年代的每一个英语单词,都有望被整理得井然有序。

一个事实是,目前线上可以取得的文本已经浩如烟海,这是极为重大的变化。之前人们嘴里说的那些字词如今全部被记录在了社交媒体上。研究俚语的词典学家们一直以来都梦想着能够追踪到特定某条俚语的不同变体,“打个比方,这种细致程度就好比去追踪伦敦塔上每一块砖的变化,”俚语专家、《牛津英语词典》顾问乔纳森·格林(Jonathan Green)说道。如今,通过脸书或是Instagram等应用,这将会成为现实。词典学家们将可以亲临每一个单词的诞生现场:譬如,“男性解释”这个词的诞生将能被纳入某种可持续的、白纸黑字的纪录,而研究者则可将此当作这个词的存在证明,眼下这对每一个人而言几乎都达到了唾手可得的地步。

任何人,在任何地方——当1850年牛津词典的编者们初次接触到这个梦想时,英语的使用范围还仅限于不列颠群岛、北美的大部分地区以及一些零星的殖民地。如今,世界上有四分之一的人口,也就是大约15亿人都在说着某种类型的英语,大部分视其为第二语言——当然英语本来就不是一门单一的语言。它的地方变种不计其数,从西印度群岛的方言,到西非的某种混合形式,再到与各类地方性语言整合而成的威尔士英语、印度英语以及香港澳门等地区的中式英语,不一而足。所有这些英语分支目前都比以前要更加显而易见,各分支更以越来越快的速度交融、丰富着彼此。

“英语语言的圈子有个颇为确定的中心,但没有清晰可辨的边界,”詹姆斯·穆雷曾经写道,但现代的词典学家们并不这么看。与其说只有一个中心,不如说有不同的群体处于相互交融之中,每个群体都使用具备特定风格的一种英语,其内容受到地理环境、文化遗产、价值观、其它的语言以及别的不可胜数的诸多变量的影响。英语圈子的范围也在以前所未有的速度扩张着。即便词典学家们的说法是正确的,即每年会新增7000多个英语单词——这还没有计算那些全新的自造词和之前被词典漏掉了的词——那么我们便可以说,当你在读到这句话的时候,就又有两个新的英语单词诞生了。

当然,大部分人如今基本不会去碰词典,他们只需借助维基百科(研究表明,人们更多地把维基百科当词典而不是百科全书用)或依赖谷歌——它跟牛津词典有合作——由此来取得精确的定义、正确发音的语音、词源学考证、历史上的各种用法以及翻译工具。如果你想知道某个词的意思,只要对着Siri或者Alexa说出来就行了。

语音助手可以轻易查到词汇的含义

来自线上词典网站Dictionary.com的简·所罗门(Jane Solomon)表示,各种词典的更新速度有点跟不上脚步了。“信息提取的方式正在急速变化,”她说,“为何词典不能智能地响应语义学或者用户的语境呢?例如判断出你在搜寻有关食物的单词之后,便会为你给出一些相关的其它词汇或是菜单之类的。”而且不仅是单词,“我希望能一并把emoji也涵括进来。人们的表情包太有创意了,它们已经构成了一整套自成一体的语言。有时候人们需要详细的解释,如果你直接给女儿发个茄子表情,对方可能会觉得这有点诡异。”

一些更具想象力的人甚至提出了比那个具有多重意义的茄子(polysemous aubergines)更加宏大的筹划。2013年,来自罗马大学的计算机专家罗伯托·纳维利(Roberto Navigli)创办了一个网站“巴别塔网”(Babelnet),旨在开发一种能够击败其它所有词典的超级词典——它很像个词典但并不是真正的词典。这项工作的名称是“语义学网络”,它汇集了维基百科、维基词典、微软术语等等15个现有的资源库,试图打造一个无所不包的层级化地图,同时涵括包括英语在内的271种语言,是目前规模最大的线上词典/百科/近义词/索引。纳维利告诉我说,他真正的目标是使用“语义学技术”,来为世界各地的软件工程师打造一个“圣杯”(holy grail):使他们能够对文本进行全自动化的机器阅读。“这个梦想很厉害,对不对?”他说,“机器可以阅读文本并理解我们所说的一切。”

当然,机器已经理解了不少东西了。有人曾经谈到过“文化经济学”(culturomics)这个概念,它是一种计算机词汇学(computational lexicology)的形式,使用语料库工具来分析及预测人类行为的趋势。一项持续31个月的推特研究试图测量英国民众对勤俭节约(austerity)的情感变化,甚至还有人声称——多少有些争议——一项被动式的众包(crowd-sourced,亦即广泛地从大众那里获取数据来源——译注)研究,预言了阿拉伯之春的来临。至少就宏观层面来看,比起我们单凭一己之力,计算机以及各大拥有并出租海量数据的IT巨头们或许能更好地理解语言。

对词典学家以及类似于谷歌这样的公司而言,在语言学方面仍有一道不易突破的难关。目前而言,把书面文本的语料库整合起来,并借此探讨语言在特定环境下的各种功能,是不太困难的,然而放到口头语言上面就很麻烦了。理由很明显:记录言辞(speech)、将其转为文本并构造一个可用的数据库,耗时将会极为巨大,且成本不菲。基于言辞的语料库不是没有,但体量甚小且缺乏代表性(法庭上的论辩记录很容易处理,但律师们私下喝酒的时候说了些什么就很难监听到了)。

在词典学家眼里,言辞乃是最珍贵的语料资源,也是最难以捕捉的。如果你能够收集到足够大的样本——人们在我们能够想到的一切语境里所说的话,从游乐场到公司餐厅再到超市——那你就能更加准确地观察人们在日常生活中是如何使用语言的。“假如我们能够在日常对话转文字方面取得技术突破的话,”迈克尔·兰德尔说,“它将能改变整个业界生态。”

对牛津词典的编者们来讲,这个世界既令人振奋,但从某种意义上看,也略有些让人摸不着头脑。数位时代的来临令牛津的词典学家们能够更加深度地收集各种语料,但同时也有颠倒工作重心的危险。当你正在做一部历史性词典、需要检查所有以及每一项来源并且还要复查,此时某个17世纪的手写信件语料库却忽然上线了,那么保持词典不落后于时代便会成为一个梦魇般的工作环节。为词典增补新单词——其数目已经是前所未有地大,而且新词涌现的速度也越来越快——则进一步地强化了这场梦魇。“在数位技术发展的早期,我们就已经有一点失控了的感觉,”彼得·基利维告诉我说。“这是没有尽头的,”一名参与《牛津英语词典》编纂的词典学家附和道,“你会觉得自己就好像掉进了一个虫洞一般。”

此外,还有一项人们耳熟能详的挑战在于:尽管人们越来越多地使用词典式资源来查询资料,但没多少人愿意为此付费。精装本的词典早就卖不出去了,其生存处境比别的纸质书要恶劣得多(牛津大学出版社以“商业机密”为由,拒绝向我透露具体的数据。“我并不觉得有出版商会情愿跟你谈论这类问题,”迈克尔·兰德尔对我说)。工具书出版商要么被收购,要么就直接垮台了,但诸如谷歌和苹果这样的信息巨头则借助搜索引擎中的植入式广告赚得盆满钵满。如果你在手机屏幕上长按某个单词,它的定义就会自动跳出来,那动动手指买本书又有什么困难呢?

“如今去参加词典业界的会议,你会发现人们的脸色很不好看,”兰德尔说。尽管他是专业的词典编纂学训练出身,但目前的主业是做咨询,就出版商如何运用基于语料库的资源提出各种建议。“编词典当然是一项事业,”他接着说道,“但具体工作的方式和三十年前相比已经迥然不同了。”他指着自己的书架——上面已经没几本书了——说道:“但现在我并不同情纸质书的衰落,我手里的大部分词典都拿来送人了。”

即便词典编纂学的基本工作方法已完全过时或是彻底地更新了,其中的某些东西也可喜地保持着稳定。每一个我曾与之交谈的词典学家,都明确表达了对“背单词爱好者”(word-lovers)的厌恶之情,在词典的世界里,这类人大概类似于那种看到超市里少量购物通道牌子上的“10件或更少”(10 items or less,但此处item可数,故应为fewer)写错了就一心想把它改回来的人,或者那些逢人就开口背“反政教分离主义者”(antidisestablishmentarianism)这个词的人。一向待人和蔼的前主编约翰·辛普森对此也有辛辣的讽刺,称“我坚持认为,语言不是现成地拿来‘享受’的”,不如这么讲,它需要得到良好的运用。

《新英语词典》第一版论历史原则的部分。1928年出版。图片来源:Alamy Stock Photo

然而,爱——即便你不情愿也得承认——才是吸引人们穷尽毕生精力去探究和分析语言的最大力量。它造就了一类名为“单词侦探”(word detective)的人:这种人游走于语言学家、档案历史学家、新闻工作者与老式的私人侦探这几种角色之间。尽管其间有一些内在的张力——语料库语言学家对决老牌词典编纂者,“大数据流”对决“学院考据流”——但词典编纂学作为一门专业技艺而言似乎仍拥有着一些挥之不去的共享目的:我们要与那头疯狂生长的多头怪(hydra),也即英语这门语言“战斗到底”。“我们对此几乎有某种发自内心的强迫症,”简·所罗门说道。

在大部分词典学家看来,打造一个完美无缺的语言资料库的想法乃是十分荒唐的,她继续说道:“之前不少编词典的人在私底下都抱有这样的目的。”但放到现在来看,身为词典学家则需要有一项必不可少的信念,那就是明白此类工作根本不可能完成。英语总是在不断地转型、演变和发展,这种不留情面的动态性才是让它如此具有吸引力的关键。“它永远处于变动中,”所罗门说,“你必须爱上这一点。”

其它方面的乐趣也是为数不少的:捕捉到一个新意义,或锤炼出一条尽管并非完美但基本正确的定义,都是令人振奋的。“这看起来很累人,但也可以非常有诗意,”迈克尔·兰德尔回忆道,“编写一部词典与工匠从事工艺品制作相比并没有什么两样。”

尽管对业界的未来颇为悲观,但他在谈到自己即将加入的某个项目时仍然兴味十足,该项目将与来自戈德菲尔德原住民语言中心(Goldfield Aboriginal Language Centre)的专家合作,对澳洲原住民的语言进行研究,词典学家目前在这方面着力还不多。“词典确实能够改变世界,”他说,“它能为各种过去甚少受到重视的语言赋权,且有利于语言的保存和共享。我对此深信不疑。”

无论如何,《牛津英语词典》的编纂工作仍会继续下去,力求比过去做到更好,哪怕只有一点轻微的改进也是如此。词典编纂团队目前更倾向于称其为“移动的文档”:单词只会不断地新增;收录进去之后就永远不会被删掉。当我向迈克尔·普洛菲特表示,这部词典就好比是一艘维多利亚时代的战舰,雄伟壮丽但容易漏水,船员们夜以继日地查缺补漏,同时还要保持正确的航向的时候,他看起来若有所思。“我之前曾说过,编词典好比是给第四大桥刷漆,永远刷不完。但接下来他们的工作便戛然而止——因为刷法本身在翻新,我想大概是这样的,”他停了停,“现在又轮到我们这一代了。”

目前,《牛津英语词典》的线上版本每年会有四次更新。尽管从官方来说,它尚未放弃出版下一个纸质本的想法,但这个构想也在逐渐式微。距离首次询问第三版词典的工作进度过去了7个月,我又找他们问了一遍进度,答复是48.7%。“我们会想办法让它完工的,”普洛菲特坚定地说道。尽管我离开牛津之后心想:詹姆斯·穆雷想必会对此报以一丝轻蔑的微笑。如果第三版真的要等到2037年才问世的话,那将会打破第一版耗时49年这项纪录,而如此一来的话,它显然又需要全方位地进行修订了。

好些天之前,我曾发邮件去询问“男性解释”这个词最后有没有被收到词典里。收倒是收进去了,不过其间经历了一些小插曲——因为后续的研究将该词诞生的时间再往前推了6个月,也就是2008年8月到2009年2月之间。随后,这个由佩顿负责的词条还没来得及上线,就又有人发来邮件指出上述结论仍然有不准确之处:他们在2008年5月的一篇博文里就发现了“男性解释”这个词,这个时间点正好在作家瑞贝卡·索尔尼特(Rebecca Solnit)发表其著名杂文《男人向我作解释》(Men Explain Things to Me)的一个月之后。普洛菲特向我作出保证:修订过的定义很快会再度上线的。

(翻译:林达)

……………………………………

欢迎你来微博找我们,请点这里

也可以关注我们的微信公众号“界面文化”【ID:BooksAndFun】

来源:卫报

原标题:Inside the OED: can the world’s biggest dictionary survive the internet?

本文为转载内容,授权事宜请联系原著作权人。