Friday, March 9, 2012

苏杰:《三重门》作者身份的语言学分析

戴按:我对韩方之战毫无兴趣,但苏杰此文介绍的文本鉴定方法,颇有意思。

(来源:新思想网站)

韩寒被质疑有人代笔,到现在已经快两个月了。其间断断续续,我大致看了两方的主要论辩文字。方舟子是我一直很敬佩的人。与方舟子一起质疑韩寒的麦田、彭晓芸等人,他们的理性和克制,也给我留下了很深的印象。质疑者有不少分析论证,有相当强的说服力。相比之下,韩寒的表现却令人大跌眼镜。由于手头的工作比较忙,一直没时间看韩寒父子的相关作品,不过,我心中的天平,已经向质疑者一方倾斜了。

新的学期开始了。这学期我有一门课是“西方校勘学概论”。“校勘学”英语是textual criticism,也可以译为“文本鉴别学”。我打算把质疑韩寒事件作为一个个案与同学们分析讨论,于是找来《三重门》和韩仁均的有关作品,从质疑者的立场出发,进行比对分析。结果出乎我的意料。我心中的天平,开始向韩寒一方倾斜。

谁都无法证明?

面对代笔质疑,韩寒晒出手稿。质疑方说,手稿太干净了,不像创作稿;所以,即使笔迹是韩寒的,也不能证明文字是他撰写的。这种说法也不是没有道理。

最近,韩寒在接受《中国新闻周刊》采访时说,这是“谁都无法证明的东西”,“如果这个事情可以成立的话,那这就意味着,全中国只要看哪个作家不顺眼,然后就可以说,你的文章不是你写的,那这个作家就百口莫辩。作家这个行业很特殊,因为他们都是在家里写,对于一个作家来说,这种质疑成立的话,那这个作家就不用混了,我觉得他就直接完蛋了,他的职业生涯就不用继续了”。

这未免有点危言耸听。文本的作者身份,真的没有办法证明吗?

当然不是。近几十年,欧美各国有一个方兴未艾的边缘学科,叫“司法语言学”( Forensic Linguistics)。司法语言学家的主要工作之一,就是通过语言分析、文本鉴别,确定文本的作者身份。下面我先参考马尔科姆·库尔撒德(Malcolm Coulthard)的经典论文《个人语言特点和作者身份认定》(Author Identification,Idiolect and Linguistic Uniqueness),对这一方面的理论和实践作一简单的介绍。

语言指纹

语言学家解决作者归属问题的理论出发点是,在操同一种语言的庞大人群中,每一个个体的言说和写作,都有其独一无二的特点,英语叫idiolect。

每一个人都有自己多年建立起来的一个常用词汇集合(或者叫常用词表)。这个词表,与其他人所建立起来的常用词表可加以区分。这种区分,不仅表现为每个人的词表所包含的词语项不相一致,还表现为每个人对不同词语项有着不同的偏好。

打个比方。大卖场里的货物不下几万种,理论上我们都是可以选购的,也就是说,这是open selection;但我们经常买的,也就不满一百种吧。这每一种选择(selection),都是出于我们的偏好和习惯,体现了一定的个性。单一的“选择”(selection),譬如有人每个月都会买雀巢咖啡,区分度不是很大,因为有不少人也会有同样的“选择”。可是,如果多个“选择”形成一个集合(co-selection),那么区分度就会很大,甚至是独一无二的。譬如经常买雀巢咖啡+涪陵榨菜+中华牙膏+绍兴黄酒+弥猴桃+喜跃猫粮的,整个大卖场记录里,恐怕就只有一个家庭。

“因而虽然从理论上讲,任意说话者/书写者在任意时间可以使用任意的词语,但在实际上会有典型性的个人化的好尚拣择。这意味着应该有可能设计出一种‘语言指纹’的识别方法,换句话说,特定说话者/书写者在语言上所形成的印象是可以用来进行身份辨认的,就像签名一样。”

把基于co-selction的个人语言的独一无二的特点(idiolect)称作“语言指纹”,这很形象。但是,我们也应注意“语言指纹”与生理指纹之间的重要不同。

“生理指纹的价值在于,每个样品都是可以通过比对进行同一认定的,也是穷尽性的,也就是说,包含了对于个体身份进行同一认定所需要的所有信息。相比之下,语言样本,即使是很大的语言样本,也只能提供相关个人语言特点的非常局部的信息。”因而我们目前还不可能建立一个“语言指纹库”,并在此基础上对争议文本进行比对检测。

虽说如此,但“语言指纹”的识别方法也不是全无作为。因为实际案例中常常有一些线索,可以将所要比对的文本样本局限在几个人(通常是两个人)之间,从而大大地简化了问题。实践中有一些通过“语言指纹”对作者身份做出同一认定的著名案例。

UNA炸弹客案

美国有一个人,在1978年至1995年之间,每年一次,向多个地方邮寄炸弹,先后炸死3人,炸伤23人。最初看不出有什么规律,几年后FBI注意到,受害人都是在大学或者航空公司工作,因而取“大学”(University)和“航空”(Airline)的首字母,称神秘人为UNA炸弹客。

1995年,6家报刊机构同时收到自称是UNA炸弹客的人寄来的一个35000词的文章,题目是“工业社会及其未来”。该人提出,如果文章可以发表,就停止邮寄炸弹。

1995年8月,《华盛顿邮报》增刊发表了这一文章。三个月后,有一个人联系FBI说,从文章中的一处特别措辞来看,这个文章像是他十多年未见过的兄弟写的。他以前注意到这一措辞,印象深刻。FBI通过搜索,在蒙大拿州荒野中的一个小木屋里找到并逮捕了这个人的兄弟。

这个嫌疑人叫泰德·卡茨斯基(Ted Kaczynski),1942年生于芝加哥,极端环保分子。幼称神童,16岁考入哈佛大学,后获得数学博士学位。25岁被加州大学伯克莱分校聘为助理教授,两年后辞职,在蒙大拿州的荒野中的一个没有电没有自来水的小木屋里,过着野人一般的生活。

FBI在小木屋里发现了卡茨斯基所写的几篇文章,其中一篇是十年前在报纸就同一主题发表的大约300词的文章。FBI分析专家认为35000词的文章和300词的文章存在语言上存在重大相似性,有相同的常用实词、虚词以及固定短语共12个:at any rate(无论如何);clearly(显然);gotten(得到);in practice(实际上);moreover(再者);more or less(或多或少);on the other hand(另一方面); presumably(大概);propaganda(宣传);thereabouts(所在);以及由词根argu(“论-”)和propos(“指-”)所派生的一些词语。于是专家认定,这两篇文章的作者是同一个人。

被告律师也请了一个语言学专家,这个语言学专家反驳道,这些相同的词语不说明任何问题,因为任何人在任何时候都有可能使用任何词语,所以词汇的重叠不具有甄别意义。

FBI专家用互联网搜索进行了检验。当时互联网的规模比现在要小得多,但即便如此,他们也发现了有三百万个网页包含这十二个词语中的有一个或者多个。不过,当他们搜索包含所有这十二个词语的网页,却只得到69个;经过仔细考察,这69个网页都是《华盛顿邮报》那篇35000词文章的网络版!

这一事实充分说明个人词汇选择集合的独一无二性,证明了利用这一个人语言特点对文本的作者归属问题进行司法鉴定的可行性。

这方面的案例还有不少,不过我觉得仅此一例已能说明问题。

下面我以《三重门》和韩仁君作品作为文本样本,对其常用词汇集合进行初步的调查和分析。

材料与调查

关于《三重门》的质疑,可以概括为两句话:一,韩寒可能不是《三重门》正真的作者;二,韩仁均是嫌疑最大的代笔者。我们先来检验第二句话。我们尽量多地搜集韩仁君公开发表的文字,将其作为文本样本,与《三重门》进行比对,看两者常用词汇是否一致。

这里列出我们所用的材料,并尽可能附上网络资源,以便大家检核。

《三重门》,16万字。来源:http://ishare.iask.sina.com.cn/f/6938109.html?from=like

韩仁君作品,约11万字。包括以下:
《说说我自己》,来源:http://blog.sina.com.cn/s/blog_4701280b0102e0eu.html
《儿子韩寒》,来源:http://msn.qidian.com/ReadBook.aspx?bookid=1338594
《捉鸟记》、《黄主任的担心》、《暗号照旧》,来源:http://www.douban.com/group/topic/27264737/
《难成着属》(上),来源:http://club.kdnet.net/dispbbs.asp?boardid=1&id=8107705&page=1&1=1#8107705
《潇洒走一回》、《小康村里好事多》、《排队奇闻》、《难得糊涂》、《巧熄鞭炮声》,来源:http://www.tianya.cn/publicforum/content/free/1/2369122.shtml
《抢夺冠名权》、《拿不出》、《笨贼》,来源:http://www.tianya.cn/publicforum/content/free/1/2368869.shtml
《临时爸爸》、《争取》,来源:http://blog.sina.com.cn/s/blog_56e2963a010111up.html
《从留级到休学》、《长在肚子上的西瓜秧》,来源:学术期刊网
《压在箱底的花棉袄》、《养猪难卖》、《罚款》、《心灵感应》、《两家人和一群鸡》(即韩仁均微博所谓“鸡不可失”),来源:期刊《故事会》、《现代农村》。

通过对以上材料的调查比对,我们发现,《三重门》和韩仁均作品在常用词语的使用频率有着非常明显的差异。以下是几个例子。

【没想到】《三重门》13例,韩仁均作品3例(其中1例是引用韩寒的话)。

《三重门》
1.没想到林雨翔天生——应该是后天因素居多——对书没有好感。
2.万没想到这位语文教师早雨翔一步失了节,临开学了不翼而飞。
3.雨翔发自肺腑地“啊”一声,问:“梁梓君,没想到没想到!你现在在哪里?”
4.雨翔望着星空, 说: “其实我不想来这里, 我也没想到会来这里。”
5.万没想到被林雨翔先用掉,只好拼了老命跑。
6.雨翔道:“没想到人这么少,而且虫那么多——”
7.学生都为之一振,万没想到钱校长道:“但是,我还要强调几点……”
8.雨翔大大地窘迫,没想到自己已经酸到这个地步。
9.钱荣没想到 “哭妹” 真哭了。
10.(社长)说:“好!没想到!你太行了。你比我行!”
11.没想到万山大惊失色。
12.我做得一点兴趣都没有,睡了一个钟头,没想到还能及格!
13.钱荣说:“没想到啊,一个男的深情起来这么……”

韩仁均作品
1.《儿子韩寒》:“韩寒说,我只是看到它很好玩,没想到它会拉屎,要是它不拉屎多好。”
2.《难得糊涂》:“他更没想到,通过这次照相,自己又学到了文化馆摄影老师没有传授的本事。”
3.《小康村里好事多》:“没想到村民们怎么也不答应。”

【谁知】《三重门》1例,韩仁均作品15例。

《三重门》
1.“谁知谢景渊道:‘老师凶点也是为我们好……’”

韩仁均作品
1.《儿子韩寒》:“谁知这天韩寒正好丢了钥匙,结果这天他在房门外的楼梯上蜷缩了一夜。”
2.《儿子韩寒》:“谁知他倒是一样东西都没有丢失。”
3.《儿子韩寒》:“谁知‘好好吃’太不易了,第二回重蹈覆辙。”
4.《儿子韩寒》:“谁知韩寒中午放学到我的办公室时挺高兴,似乎不计‘前嫌’了。”
5.《儿子韩寒》:“谁知护士见状说,手掌跟部会更痛。”
6.《儿子韩寒》:“谁知韩寒竟奇迹般地走了过来,居然会走路了。”
7.《儿子韩寒》:“谁知,韩寒向老师借来笔和纸,马上画了一幅画。”
8.《黄主任的担心》:“谁知刚伸出一半,里面就‘呼’地窜出个什么来,差点撞上黄主任的头。”
9.《难成眷属》:“谁知那小手用劲往回一缩,传来‘哇’地一声哭叫。”
10.《难成眷属》:“谁知今天因为小珊失散而又和肖丽意外地想见了。”
11.《难成眷属》:“谁知老太太好事做到底,实行一条龙服务。”
12.《排队奇闻》:“谁知道小伙子一个转身又回到女同胞的队伍里。”
13.《难得糊涂》:“谁知这时从人群中挤出一个人来。”
14.《养猪难卖》:“谁知收猪的汉子突然蹦出一句话来:‘这猪不收!’”
15.《小康村里好事多》:“谁知市里这回却认真了起来。”

副词【光】《三重门》11例,韩仁均作品0例(有1例,是引用他人作品)。

《三重门》
1.光专家头衔就有两个。
2.梁梓君说这种信纸不用写字,光寄一张就会十拿九稳泡定。
3.林父光家教就请掉五千多元钱,更将雨翔推上绝路。
4.市南三中旁光明目张胆的电脑房就有五家。
5.光上课下课就十来万字。
6.可见思念之情不光是存在于头脑之中还存在于脚上,心有所属脚有所去。
7.人不能光靠爱活下去。
8.雨翔笑道:“光你挤出的汗也够我洗个淋浴!你受得了?”
9.雨翔听了暗笑,道:“他们光身上的衣服都要二三百块钱一件呢。”
10.钱荣说:“光读书不能称鸿儒……”
11.光凭这点,它应该在中国文学史中占一席之地!

韩仁均作品
1.《儿子韩寒》:“你可别光盯着黑板,考虑什么中心呀选材呀,你得仔细打量一下讲台上的语文老师。”
(备注:这是引用2000年第8期《少年文艺》载广东兴宁一中林苑宁同学写的《教你作文——有感于应试作文》。)

【不幸】《三重门》22例。韩仁君作品0例。

《三重门》
1.后来不幸收到出版社的退稿信函。
2.不幸财力有限,搬不远。
3.不幸坏马吃回头草这类事情和精神恋爱一样,讲究双方面的意愿。
4.不幸估计不足,差点跳水里,踉跄了一下。
5.不幸被一个国家先用了。
6.那才女收到雨翔表哥的文约,又和雨翔表哥共进一顿晚餐,不幸怀春,半夜煮文烹字,终于熬出了成品。
7.梁梓君硬是加快速度,终于有了临产的感觉,却不幸生下一个怪胎。
8.梁梓君不幸误以为林雨翔是个晦迹韬光的人,当林雨翔还有才华可掘。
9.不幸掷艺不精,扔得离目标相去甚远,颇有国家足球队射门的英姿。
10.不幸老K平日树敌太多,后排两个被他揍过的学生也虎视眈眈着。
11.不幸“丰富生活”的口号仿佛一条蛔虫,无法独立生存,一定要依附在爱国主义教育上。
12.不幸随着时间的推移,这笑脸变成不稳定结构,肌肉乱跳。
13.林雨翔握紧拳,刚要张口,终于不幸,大坏气氛的事情发生了,Susan早雨翔一步,说:“有什么事么?没有的话我回家了?”
14.不幸忙中出错,原来空出一块地方准备插一幅图,事后遗忘。
15.不幸的是慕名来靠这座山的人也越来越多。
16.不幸的是雨翔误入歧途。
17.两节数学课还算是数学老师慈悲为怀,隔壁二班,抽签不幸,碰上一个数学班主任……
18.雨翔始料未及,不幸考了个鲜红,四十五分。
19.免得说起来是不幸被动被甩。
20.不幸的是对钱荣垂涎的女孩子大多都骚。
21.钱姚斗得正凶时,林雨翔不幸生了在市南三中的第一场病。
22.林雨翔天生不会嘲讽人,说:“你的英语真的很不错啊。”理想的语言是抑扬顿挫的挖苦,很不幸的,情感抒发不当,这话纯粹变成赞扬。

【这人】《三重门》26例,韩仁君作品0例。

《三重门》
1.林雨翔这人与生具有抗议的功能,什么都想批判。
2.林父这人爱书如命。
3.说雨翔这人“正复为奇,善复为妖”。
4.林雨翔觉得罗天诚这人的性格很有研究价值。
5.林雨翔心里在恣声大笑,想这人装得像真的一样。
6.林雨翔暗吃一惊,想难怪这人不是大雅不是大俗,原来乃是大笨。
7.你这人也太自私了。
8.卡夫卡这人不仅病态,而且白痴。
9.说牛炯这人文章不好就借什么“东日”“一波”“豪月”来掩饰。
10.牛炯这人凶悍得很。
11.你这人脑子是不是抽筋了!
12.背后骂林雨翔这人自私小气。
13.林雨翔突然想这人也许正是“鲁迅文学院”里“走出”的可以引以骄傲的校友。
14.林雨翔拍手说:“好!这人的下场就是这样的!活该!”
15.这人是学校副校长兼政教处主任。
16.第二个讲话的是体育组教研组长刘知章,这人不善言谈。
17.使钱荣这人更显神秘。
18.不相信林雨翔这人如此多灾多难。
19.还有一派前卫的文笔,如“这人真是坏得太可以了,弄得我很受伤”。
20.谭伟栋这人似乎被一号室的感化改造了。
21.雨翔对这人早已好感全无。
22.万山这人虽然学识博雅。
23.雨翔“哇”了一声,说这人写的情书和大学教授写的散文一样。
24.雨翔深知钱荣这人到结账时定会说没带钱。
25.而且钱荣这人比美国政府还会赖债。
26.为了让学生了解Bell这人,无谓把Bell拼了一遍。

分析与结论

【没想到】和【谁知】在语义上有交叠。《三重门》和韩仁均对于这两个词语的使用,此长彼消,在一定程度上互为补充,显示出不同的词语偏好。

副词【光】、【不幸】、【这人】,《三重门》用得很多甚至有点滥。比如有几例“不幸”,改为“怎奈”可能更恰当;有几例“这人”,完全是冗辞。相比之下,韩仁均作品中这三个词语用得极少甚至几乎不用(现有材料未见用例)。这应当是韩仁均与《三重门》作者在常用词表方面的显著差异。

两点说明。一,韩仁均作品和《三重门》都是叙事文字,所叙述的内容、所反映的生活有相当大的重叠面,语言具有很强的可比性。

二,《三重门》和韩仁均作品都是公开发表的文字,中间都有编辑过手。编辑的影响(如果有的话),主要是减少文本语言的个性而不是相反。我们可以对编辑因素不予考虑。

从韩仁君作品与《三重门》在常用词表上的不同和偏好,我们可以初步得出结论,排除韩仁君代写《三重门》的可能性。

当然,我们调查的范围绝不仅限于这几个词。之所以列出这几个词语,是出于以下三点考虑:一,这几个词语比较典型;二,我有其它的用意,这个后面会谈到;三,这几个词语已足以说明问题。在司法鉴定中,排除比认定同一要容易的多。用DNA(区分度很高)进行同一认定,也只是表述为99.99%,但血型(区分度很低)的不同,就可以直接排除嫌疑。

在对《三重门》和韩仁均的不同用语习惯进行局步的揭示之后,我们用备受争议的韩寒新概念作文做个检验,看看更接近哪一个。

如前所说,【没想到】、副词【光】、【不幸】、【这人】,这四个词语在《三重门》中频频出现,在韩仁均作品中极少甚至几乎不出现。而经过检索,我们发现,这四个词语在篇幅不长的韩寒“新概念”作文中却出现了三个,具体如下:

《书店(一)》:“光介绍什么叫‘猪’就用了六七页。”
《书店(一)》:“光画面质量就让人心寒——齐天大圣非人非猴。”
《书店(一)》:“也有专门研究称谓的,告诉你女人无论老少,一律‘小姐’,佩服自己怎么没想到,‘小姐’、‘大姐’乱叫。”
《杯中窥人》:“作为一个中国人,很不幸得先学会谦虚。”
《书店(二)》:“领头签名的人比较不幸。”

前几天,最早质疑韩寒的麦田在微博中说:“《杯中窥人》和《三重门》是同一作者,并且,不是韩仁均。”我们的调查分析,印证了麦田的感觉。

那么,《三重门》的作者是不是现在写博客的韩寒?要在语言上进行同一认定,还要做进一步的调查分析。不过,经过初步的考查,我觉得,很有可能。这里仅举一例,以逗其绪。

【杀戮】
韩寒《我的2011》:“我逐渐觉得,一个好的写作者在杀戮权贵的时候,也应该杀戮群众。”

关于“杀戮”这一措辞,网上的评论,有说“霸气外露”(《南方人物周刊》),有说“重口味”,总之,不同寻常。

百度了一下,用“杀戮”表示严厉批判的意思,似乎始于韩寒,也大致仅限于韩寒。

网络上使用“杀戮”一词人也有一些,比如电子游戏“打怪”,比如微博“拉黑”,都有人用“杀戮”,表示“灭”掉,使其不再在眼前出现。虽然被“杀戮”的对象是虚幻的东西,但是“杀戮”一词仍然是用其词典义项。用“杀戮”表示严厉批判,比起词典义项,则是拐了个不小的弯儿,非常特别。

《三重门》:“林父一时愤怒,把整个出版界给杀戮了,说:‘现在这种什么世道,出来的书都是害人的!’”

《杯中窥人》:“李敖尚好,国民党暂时磨不平他,他对他看不顺眼的一一戮杀,对国民党也照戮不误。”

另有网络校园小说缪歌《多种元素》:“慢慢地读了这些人的书,让我感触最大的是李敖。他对自己看不惯的一一杀戮,就连国民党也在所难免。可谓前无古人后无来者。”但这显然是在韩寒《杯中窥人》相应文字的基础上进行的改写。

尽管搜集到的韩仁君的作品大概已占其所发表文字的80%以上,但这毕竟还不是穷尽性的调查。我的例证和结论,欢迎大家核对,质疑。随着材料的增多,我的例证有可能需要修正,甚至结论也需要重写。但是我相信,用这种语言学的分析方法,是可以对《三重门》以及相关作品的作者身份做出认定的。

结束语

方舟子不计成败利钝,对真相近乎偏执地追求,对于学术腐败造假流行的中国社会而言,有着十分重要的意义。因为方舟子,多少人如芒刺在背,悄悄改回自己的简历。“设使国家无有孤,不知当几人称帝,几人称王”。

韩寒以前曾公开表示对方舟子的支持和赞赏,并开玩笑说,如果方舟子质疑自己,自己就什么都承认。可是,当方舟子的矛头指向自己时,还真的就成了严峻的考验。

方舟子跟薛涌有过几次交锋,“新语丝”网站“立此存照”栏目有几十篇批评、声讨薛涌的帖子。可是薛涌却在很多问题上声援方舟子,为方舟子呐喊。方舟子的峭直,薛涌的雅量,都让我感佩。

麦田、方舟子等人质疑韩寒,是合理的,并不是构陷,是在追求真相,而不是要搞臭谁。这一事件走到今天这个地步,跟韩寒的应对不当有很大的关系。作为一个影响力巨大,享受了名声和利益的公众人物,面对质疑,应当诚恳认真地应对(Honesty is the best policy)。然而韩寒却悬赏用钱砸人,尖刻轻薄地嘲笑谩骂,或者用韩寒的话叫“杀戮”。几年前的网络骂战,韩寒一支健笔,曾横扫江湖;然而——

这人光杀戮,没想到不幸……

我从《三重门》中找出这十个字,求证真相。这十个字算是韩寒的文字胎记,也是暗示着这场文运劫数的谶语。我愿以此讽劝韩寒,请韩寒三思。

另外,听说韩寒再次起诉至法院,我颇不以为然,为之踌躇良久。江湖事,江湖了。名满天下,纵横江湖的大侠,今日被人质疑武功,却到县衙大堂击鼓鸣冤,请青天大老爷作主。用韩寒自己的话来说,真的很不“酷”。

高晓松微博说,韩寒最近也意识到自己的膨胀,有许多反省。那我就再进一言:

救寒莫如重裘,止谤莫如自修。