大型语言模型使用一种非常简单的机制来检索一些存储的知识 研究人员发现真菌的进化临界点 为组合优化问题的高质量解决方案提出的新型量子算法 研究记录了大西洋洋流的减慢 催化突破产生自洁墙面涂料 在阳光照射下可分解空气污染物 白点癫风能彻底治好吗(白癜风能治愈吗) 睾丸囊肿是什么原因引起(睾丸囊肿怎么回事) 月经期怎丰胸(月经期间丰胸的办法) 怎么能够快速怀孕呢(怎样才能快速怀孕呢) 八岁儿童喝什么牛奶(8岁儿童喝什么牛奶好) 喘息性支气管炎用什么药效果好(喘息性支气管炎怎么办) 女性绝经后的保养措施(女性绝经后的保养) 胎盘吃了对孩子命运影响吗(吃胎盘的功效与作用) 玫瑰花的作用和功效(桂花的作用) 静脉曲张的最快消除方法(静脉曲张怎么治最好) 激光祛斑多少钱一次?(激光祛斑多少钱) 避孕套应该怎么戴才正确(避孕套应该怎么戴) 眼睑是哪个部位示意图(眼睑是哪) 去黑头的药品有哪些(去黑头的药物有哪些) 髓母细胞瘤是先天性的吗严重吗(髓母细胞瘤是先天性的吗) 补肝的中成药有哪些药(补肝的中成药有哪些) 男人睾丸疝气怎么治疗(疝气怎么治疗) 补精最好的食物(补精子最有效的食物) 孕早期症状像感冒(孕早期症状) 上火嘴起泡怎么快速消除掉(上火嘴起泡怎么快速消除) 经常吃紫薯有什么好处(吃紫薯有什么好处) 增强免疫力食物与食疗方(增强免疫力食物) 枣花蜜的作用和功效(枣花蜜的功效是什么) 早搏是啥意思啊(早搏是什么概念) 孕前检查查什么科(孕前检查都是查什么) 血糖低的症状或表现和处理(血糖低的症状) 宝宝溢奶与吐奶区别(婴儿溢奶和吐奶的区别) 手上长瘊子怎样治疗(手上长瘊子治疗的方法) 桑葚干可以泡酒吗?要用什么白酒呢(桑葚干可以泡酒吗) 桑叶的功效与作用是什么?(桑叶的功效与作用是什么) 伤口感染化脓用什么药好得快(伤口化脓怎么处理) 热痉挛的急救措施(热痉挛怎么治疗) 刚出生的婴儿呛奶怎么办(婴儿呛奶怎么办) 来月经期可以吃西瓜吗?(来月经期间能吃西瓜吗) 脚一热就发痒是怎么回事(脚发痒怎么办) 脚底长水泡是什么原因引起的很痒(脚底长水泡是什么原因) 藿香正气水功效与作用说明书(藿香正气水功效与作用) 茴香的作用与效果(茴香的功效是什么) 踝振挛检查方法(踝震挛的症状) 喝酒皮肤过敏图片大全(喝酒皮肤过敏如何处理) 每天喝绿茶能瘦吗(每天喝绿茶能减肥吗) 吃附片后要注意什么不能喝水(吃附片后要注意什么) 饭后多长时间可以运动跑步(饭后多长时间可以运动) 当归功效与作用是什么药(当归功效与作用是什么) 夏天吃桃子有什么好处啊(夏天吃桃子有什么好处)
您的位置:首页 >行业动态 >

大型语言模型使用一种非常简单的机制来检索一些存储的知识

导读 大型语言模型(例如为 ChatGPT 等流行人工智能聊天机器人提供支持的语言模型)非常复杂。尽管这些模型在许多领域被用作工具,例如客户支持...

大型语言模型(例如为 ChatGPT 等流行人工智能聊天机器人提供支持的语言模型)非常复杂。尽管这些模型在许多领域被用作工具,例如客户支持、代码生成和语言翻译,但科学家们仍然没有完全掌握它们的工作原理。

为了更好地了解幕后发生的事情,麻省理工学院和其他地方的研究人员研究了这些巨大的机器学习模型检索存储的知识时的工作机制。

他们发现了一个令人惊讶的结果:大型语言模型(LLM)通常使用非常简单的线性函数来恢复和解码存储的事实。此外,该模型对相似类型的事实使用相同的解码函数。线性函数是只有两个变量且没有指数的方程,捕获两个变量之间简单的直线关系。

研究人员表明,通过识别不同事实的线性函数,他们可以探索模型以了解它对新主题的了解,以及知识存储在模型中的位置。

研究人员使用他们开发的技术来估计这些简单的函数,发现即使模型错误地回答了提示,它通常也存储了正确的信息。将来,科学家可以使用这种方法来查找并纠正模型内部的错误,这可以减少模型有时给出错误或无意义答案的倾向。

“尽管这些模型非常复杂,非线性函数需要接受大量数据的训练,并且很难理解,但有时它们内部的工作机制非常简单。这就是一个例子,”电气工程师埃文·埃尔南德斯 (Evan Hernandez) 说计算机科学 (EECS) 研究生,也是论文的共同主要作者,该论文详细介绍了发布到arXiv预印本服务器上的这些发现。

埃尔南德斯与东北大学计算机科学研究生 Arnab Sharma 共同撰写了这篇论文。他的导师 Jacob Andreas,EECS 副教授,计算机科学与人工智能实验室 (CSAIL) 成员;资深作者 David Bau,东北大学计算机科学助理教授;以及麻省理工学院、哈佛大学和以色列理工学院的其他人。该研究将于 5 月 7 日至 11 日在维也纳举行的国际学习表征会议 ( ICLR 2024)上发表。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!