研究人员有一个神奇的工具来理解人工智能:哈利波特


20多年前,JK?罗琳(JK Rowling)向世界介绍了一个充满神奇生物、禁林和少年巫师的世界。如今,《哈利?波特》(Harry Potter)在一个截然不同的文学领域重新找到了相关性:人工智能研究。
越来越多的研究人员正在利用最畅销的《哈利波特》(Harry Potter)系列小说进行生成式人工智能技术的实验,理由是该系列小说对流行文化的持久影响,以及书中广泛的语言数据和复杂的文字游戏。回顾一系列与《哈利波特》相关的研究和学术论文,可以让我们对尖端的人工智能研究有一个大致了解,同时也能看到人工智能技术面临的一些最棘手的问题。
也许最近最引人注目的例子是,哈利、赫敏和罗恩在一篇名为《谁是哈利·波特?》这揭示了一种帮助大型语言模型选择性遗忘信息的新技术。对于这个行业来说,这是一项高风险的任务:驱动人工智能聊天机器人的大型语言模型是建立在大量在线数据之上的,包括受版权保护的材料和其他有问题的内容。这导致了一些人工智能公司的诉讼和公众监督。
该论文的作者,微软研究员Mark Russinovich和Ronen Eldan表示,他们已经证明,人工智能模型可以被修改或编辑,以删除哈利波特书中存在的任何知识,包括人物和情节,而不会牺牲人工智能系统的整体决策和分析能力。
两人表示,他们选择这两本书是因为它们在全世界都很熟悉。微软Azure的首席技术官Russinovich说:“我们相信,研究界的人可以更容易地评估由我们的技术产生的模型,并自己确认内容确实是‘未学习的’。”“几乎任何人都可以为这个模型提出提示,来探测它是否‘了解’这些书。即使没有读过原著的人也会知道其中的情节元素和人物。”
在另一项研究中,来自西雅图华盛顿大学、加州大学伯克利分校和艾伦人工智能研究所的研究人员开发了一种名为Silo的新语言模型,可以删除数据以降低法律风险。然而,他们在今年早些时候发表的一篇论文中说,如果只对低风险文本进行训练,比如版权过期的书籍或政府文件,该模型的表现就会显著下降。
为了更深入地研究,研究人员使用《哈利波特》系列书籍来观察单个文本片段是否会影响人工智能系统的表现。他们创建了两个数据存储库,即网站和文档的集合。第一个包括除了第一部《哈利·波特》以外的所有出版的书;另一个包括该系列的所有书,但第二部除外,以此类推。研究人员在谈到人工智能模型的准确性时表示:“当《哈利波特》丛书从数据存储中删除时,困惑会变得更糟。”
人工智能研究引用《哈利波特》至少有十年了,但随着学者和技术专家专注于能够处理自然语言并给出相关答案的人工智能工具,这种情况变得越来越普遍。
卡内基梅隆大学(Carnegie Mellon)的研究人员莱拉·韦贝(Leila Wehbe)在2014年进行了一系列实验,收集阅读《哈利·波特》故事的人的大脑核磁共振数据,以更好地理解语言机制。韦贝说,《哈利·波特》中“丰富的场景、对话和情感时刻,使其与自然语言处理的特定领域非常相关。”
在arXiv(一个开放访问的科学研究资源库)上,最近的论文包括《霍格沃茨药水开发的机器学习》、《遇见哈利波特的大型语言模型》和《用基于变形金刚的人工智能检测幻想文学中的咒语》。
即使它不是研究的中心,哈利波特也是研究人员最喜欢的文学参考。
例如,一项研究使用罗琳的作品来测试人工智能系统的智能,比如那些产生聊天机器人ChatGPT的系统,这个话题在最近的辩论中引起了很大的热议。
索尔克生物研究所计算神经生物学实验室主任Terrence Sejnowski在论文中指出,聊天机器人只是反映了用户的智力和偏见,就像《哈利波特》第一部中的厄里斯魔镜一样,它反映了一个人的欲望。
“《哈利波特》很受年轻研究人员的欢迎,”韦比说。“他们会在儿童或青少年时期阅读这些书籍,因此在选择书面或口语文本语料库时会考虑这些书籍。——彭博社
×
相关文章

最新评论