梦晨 发自 凹非寺
量子位 报道 | 公众号 QbitAI
Colossal Information(巨型信息)、Counterfeit Consciousness*(伪意识)”、Elite Figuring(精英盘算)……
这些看起来比机翻都不如的学术名词,竟然都是从计算机类SCI期刊上找到的。
法国图卢兹大学一位副教授Cabanac,从4月份开始注意到这个现象。
他先是发现30篇左右用词实在别扭的论文,去文献搜索平台搜一下这些词又发现更多同类论文。
再把新论文中出现的词汇收集起来挨个去搜索,又能找出更多论文……
这么滚雪球下来,Cabanac搜集到了一大堆辣眼睛词汇,再结合上下文挨个把本来的意思推测出来,做成一张对照表:
原来“巨型信息”就是大数据,“伪意识”指的是人工智能,“深刻神经组织”其实是深度神经网络……
就像是把英语名词机翻成其他语言,经过多道翻译后再翻回英语弄出来的。
到这里Cabanac实在看不下去了,决定带领团队动手查一下到底是谁在搞事。
60%来自同一期刊,大部分来自中国
他利用Dimension文献搜索引擎查询深度神经网络的替代词“profound neural organization”。
发现这个词在《微处理器与微系统》(Microprocessors and Microsystems)这个期刊上出现次数最多。
《微处理器与微系统》是SCI期刊,由爱思唯尔发行,主要关注计算机软件、硬件与架构、网络与通讯和AI这4个领域。
△《微处理器与微系统》的影响因子
这本期刊成了重点研究对象,最后统计结果860篇至少包含一个辣眼词汇的论文里有500多篇都来自这里。
为了深入调查,Cabanac团队下载了2018-2021年间发表在《微处理器与微系统》上的所有论文。
对论文的提交日期、接受日期等数据进行分析,发现2021年的论文的评审时间缩短了5倍,只有平均只有42天。
甚至一部分出现在特刊(Special Issues)上的论文,提交、修订和接受日期都相同。
然后,最离谱的来了。
在404篇评审时间少于30天的论文中,有394篇的作者来自中国研究机构,占比97.5%。
而615篇评审时间大于40天的论文中,只有58篇的作者与中国相关,占比只有9.5%。
面对这个接近10倍的差距,研究人员只能推测在中国有着非常规的论文评审过程。
但是为什么从2021年开始?
Cabanac猜测与以GPT-3为代表的语言模型逐渐成熟有关。
为了验证这一想法,他们找来了检测工具GPT Detector给论文摘要部分打分,分数高代表文本更有可能是通过GPT系列模型生成的。
最终实验结果是,《微处理器与微系统》389篇评审时间少于30天的论文得分显著高于其他控制组。
生成后的论文为了规避查重,才把专业名词都换成经过多道机翻出来的。再配合上不规范的评审流程,这些论文得以大量发表在SCI期刊上。
除了《微处理器与微系统》之外,团队还在其他35种计算机学科期刊上发现带辣眼机翻的论文。
Cabanac的研究结果一经发布,很多计算机学科之外的学者表示:啊这,我也见过这种辣眼机翻。
一位教授怀疑他学生的论文都是在网上找人把维基百科内容替换名词搞出来的:
在化学上,用“瘦电影”代替“薄膜”就太奇怪了:
为了规避抄袭检查
7月中旬,《微处理器与微系统》的出版商爱思唯尔对这一现象展开调查,对6期特刊上的400多篇论文进行逐一重新评审。
爱思唯尔发言人表示,这些论文使用反向翻译进行名词替换很可能是为了规避抄袭检查,也找出了流程中负责论文的编辑不按规定操作的现象。
调查还发现有49篇论文最初被提交给特刊并被特邀编辑接受,但随后应作者的要求,以定期刊物的形式发表。
看到这里我嗅到了一丝熟悉的味道,毕竟刚才在搜索《微处理器与微系统》期刊的基本情况时,跳出来的广告就是这个。
论文地址:
https://arxiv.org/abs/2107.06751
参考链接:
[1]https://www.nature.com/articles/d41586-021-02134-0
[2]https://retractionwatch.com/2021/07/19/tortured-phrases-lost-in-translation-sleuths-find-even-more-problems-at-journal-that-just-flagged-400-papers/