虽然各校针对 AIGC 使用的政策内容不一,但内容背后折射出一个相似的价值观:人工智能的使用不仅关乎学生,也关乎教师,同时,教师承担着引导学生正确使用人工智能的角色。
从改写的论文来看,AI 确实非常了解论文的谋篇布局,它甚至掌握各个专业的术语和研究方法,这意味着研究目标、研究方法这类可以依靠大数据“旧壶装新酒”的内容是 AI 的舒适区,同时也意味着 AI 很难提出新颖的思路和观点。
第一次修改时,她学着小红书教的方法,尽量多加介词和连接词,结果无效。于是,她改变策略,请朋友按照自己的写作习惯来改写高风险文段,但直至她检测到了第四次,文段依旧保持高风险。
随着 AI 技术的发展,国内的论文检测系统陆续上线 AIGC 检测服务,为高校学术不端检测提供了新选项。从部分高校公开发布的毕业论文通知可以看出,高校对 AIGC 检测率的规范方式大致分为三种:影响考评、自主披露和限定占比。无论是高校公开发布的通知,抑或是流传在学生之间的学校文件,都可以感知到 AIGC 检测是毕业论文学术不端检测的大势所趋。“学校虽然没有明文规定 AIGC 检测率,但学院要求需要小于 20%,我的导师要求我们降到 5%以下”,在湖南上大学的陈慧敏如是说道。
正一筹莫展时,她想起另一位和她吐槽过相同经历的同学,彼时同学已经成功通关,同学给她支了个招——用 AI 改写 AI,这一版 AI 辅助的修改文段最终通过了 AIGC 检测。
m6米乐四月底,在完成导师指导下的三轮修改后,她按照要求将论文提交至知网查重,AIGC 检测结果显示她的论文有一段 AIGC 低风险和一段高风险,“那段高风险内容我是自己写的,这个结果让我非常震惊”,那时的她还以为修改会比较简单,没想到后来“降 AI”的拉锯战竟会持续十天。
鉴于人工智能的诸多局限性,一篇内容单纯依靠 AI 生成的论文,在答辩过程中也大概率难以过关,和论文相比,AI 写的论文更像一篇有“论文味”的文章。
但在部分国内高校的实践中,AIGC 检测率却成为比答辩还难应对的合格门槛。“AI 应该作为辅助工具,为人类创作赋能”,这是人们提起 AI 时常提的立场,当高校将 AIGC 检测结果作为评估毕业论文的硬性指标时,是否夺走了学生的解释权?这种将数据简单化为标准的方式是否也是对工具的滥用?
相比于其他两校,波士顿大学的 AIGC 使用政策内容更为细致,该校政策认为“诚实和公平是在学业中使用人工智能的核心”,因此规定使用 AIGC 的学生需要提交一份附录详细说明作业过程中与 AIGC 的完整交流,同时,政策也对不同程度使用人工智能的学生划分了对等的赋分规范。值得提及的是,波士顿大学的 AIGC 使用政策由 47 名学生制定,政策在获得批准后应用在了整个计算和数据科学系。
另一款 AI 检测产品 GPTZero 在 2023 年初刚上线时,获得了超乎意料的关注;同时,也受到了来自学生群体的攻击。然而,用检测结果来“为难”学生,并不是这款产品的初衷,创始人 Edward Tian 在推特中表示道,“任何学生都不应该因为使用 AI 而受到老师的惩罚……直到政策得到全面制定前”。因此,在 GPTZero 的检测结果页面可以看到一行字,上面写道,“这个结果不应该用来直接惩罚学生”。
困惑度可以理解为可预测性。当检测器可以准确猜测出文本的下一个词、下一句话时,文本的困惑度就越低,文章越可能被判定为 AI 生成。但这种判定方式也不一定准确,比如“我想吃一个(睡觉)”与“我想吃一个(苹果)”这种不合常理的胡言乱语,相比更有可能被判定人类所写,只因为 AI 也猜不出你接下来要说什么。
2023 年 3 月 16 日,Turnitin 在官网文章中提出,“鉴于我们的假阳性率不是零,您作为讲师需要应用您的专业判断、学生的知识以及围绕作业的具体背景”,在 Turnitin 看来,检测结果应该被视为一种指示,而不是指控,“我们的工作是创造方向正确的信息,供老师开启对话”,Turnitin 的首席产品官 Annie Chechitelli 在接受华盛顿邮报的采访时说道。
在国内,知网、维普、万方等服务于大部分高校的论文检测系统,在 AI 的发展潮流下陆续上线 AIGC 检测服务,并于 2024 年论文季开始广泛实践。但无论是知网、维普、万方还是其它检测系统,其官网都很难找到关于其 AIGC 检测产品的详细介绍。在 AIGC 检测技术发展尚不成熟的阶段,部分国内高校将检测结果作为毕业论文合格的硬性门槛,对检测结果体感最强的学生被无奈地困在了迷茫的“降率”中。
AI 检测到底有多玄学?为了体验易肖竹和刘鑫宇检测过程中的同款迷惑,澎湃新闻记者将一篇完全由 AI 生成的论文提交到四个高校常用的 AIGC 检测系统进行检测,发现这些平台由于模型差异,对于论文中 AI 生成占比的认定差异较大。同一篇论文,AI 占比最多能相差 32%,尽管这四个结果放在高校的毕业论文要求里都是不合格的水平。
虽然高校会为学生分配毕业论文指导老师,但是对于部分毫无论文写作经验的本科生而言,基础问题不好意思提问,专业的表达很难临时抱佛脚。这时,永远在线,永远有问有答的 AI,成为他们最好的指导老师。
根据国外一款 AI 检测器 GPTZero 的创始人 Edward Tian 介绍,GPTZero 的检测主要依靠于“困惑度”(Perplexity)和“爆发度”(Burstiness)两项关键指标。
爆发度可以理解为句子长度与复杂性的变化。AI 生成的句子长度与结构趋向统一,而人类作文随心所欲,动态性更强,这也是“降 AI”教程中常提的加标点符号、长句变短句的意旨。
澎湃新闻记者以澎湃美数课发布的稿件为样本(《114 万条招聘数据:考研,真的能带来好工作吗?》),请 AI 将其改写成一篇本科毕业论文。AI 拟定的标题就很有论文的派头:《考研与就业:基于招聘数据分析的研究生教育价值探究》,再往下,论文必要的引言、文献综述、研究方法等五脏俱全。难道,AI 写论文,没问题吗?
在“降 AI”这项工作中,刘鑫宇比易肖竹踩了更多的雷。她总共做了 9 次 AIGC 检测,问题五花八门:在格子达小程序里检测出无风险的文段,到格子达网页端又有风险了;本是“中风险”的论文,时隔九日重新提交检测时,疑似片段居然从 16 段上升至 28 段,论文重新变成了“高风险”。
在翟天临学术不端事件后,高校加大了对学生论文重复率的检查力度。然而,AI 检测成为毕业论文的“新杀手”:从前,在“降重”时只需要将重复率高的文本替换写法,重复与否容易区分,降重目标很明确;现在,“降 AI”却如同面对黑箱,需要反复猜测 AIGC 检测的标准是什么,目标变得抽象。
今年年初,福州大学、中国传媒大学等高校陆续发布了毕业论文(设计)AIGC 检测的通知,2024 届毕业生成为 AIGC 检测元年的第一批探路者。
在写论文的所有环节中,引用文献是 AI“幻觉”频发的重灾区。在这篇 AI 改写的论文中,引用文献共五篇,但根据记者核实,其中有三篇论文并不存在。所以,如果想让 AI 帮你搜索参考文献,要小心有胡编乱造的风险。
例如,麻省理工学院邀请了四位对 AIGC 使用有所研究的本校教师发表观点,希望为其他教师提供参考。四位老师对 AIGC 的态度整体分为了支持和限制两个阵营,在文章的开头,学校保守地表示“这并不代表麻省理工学院对此的官方看法”,麻省理工学院将选择权交给了老师。
这五次修改,易肖竹在 AI 检测上用了 10 天,花费了 171.5 元。但是,如何应对 AI 检测,她仍然没摸出什么门道。
在小红书搜索“如何让 AI 帮你写论文”,可以得到上至框架下至致谢的所有指令,灵感枯竭时,AI 可以分点分行快速给出回答;不会措辞?把思路丢给 AI 就能得到一段表述完整的文本——在 AI 的帮助下,学生可以大大提升写论文的效率。
2023 年 7 月 20 日,OpenAI 低调关停仅上线半年的 AIGC 检测器“AI Text Classifier”,原因是“准确度较低”,但 AIGC 检测的发展步伐并未放缓。
除了类似“AI 检测率”这样的硬指标划定,国内一些高校也在探索其他规范使用 AI 的方式,比如中国传媒大学继续教育学部设计了《本科毕业论文(设计)生成式人工智能使用情况说明表》,由学生自主披露论文中的 AI 使用情况。
与麻省理工学院相似,杜克大学鼓励教师起草自己的 AIGC 政策。除此之外,杜克大学在面向教师发表的《人工智能政策:指导方针和注意事项》中指出,AIGC 检测软件存在系统不可靠、对部分群体存在偏见、无法跟上人工智能发展脚步的弊端,因此学校明确表示“不建议教师将 AIGC 检测器作为 AI 政策的一部分”,即使教师决定使用检测软件,也不应将检测结果作为衡量学生是否作弊的唯一标准。