大型语言模型使用一种非常简单的机制来检索一些存储的知识
大型语言模型(例如为 ChatGPT 等流行人工智能聊天机器人提供支持的语言模型)非常复杂。尽管这些模型在许多领域被用作工具,例如客户支持、代码生成和语言翻译,但科学家们仍然没有完全掌握它们的工作原理。
为了更好地了解幕后发生的事情,麻省理工学院和其他地方的研究人员研究了这些巨大的机器学习模型检索存储的知识时的工作机制。
他们发现了一个令人惊讶的结果:大型语言模型(LLM)通常使用非常简单的线性函数来恢复和解码存储的事实。此外,该模型对相似类型的事实使用相同的解码函数。线性函数是只有两个变量且没有指数的方程,捕获两个变量之间简单的直线关系。
研究人员表明,通过识别不同事实的线性函数,他们可以探索模型以了解它对新主题的了解,以及知识存储在模型中的位置。
研究人员使用他们开发的技术来估计这些简单的函数,发现即使模型错误地回答了提示,它通常也存储了正确的信息。将来,科学家可以使用这种方法来查找并纠正模型内部的错误,这可以减少模型有时给出错误或无意义答案的倾向。
“尽管这些模型非常复杂,非线性函数需要接受大量数据的训练,并且很难理解,但有时它们内部的工作机制非常简单。这就是一个例子,”电气工程师埃文·埃尔南德斯 (Evan Hernandez) 说计算机科学 (EECS) 研究生,也是论文的共同主要作者,该论文详细介绍了发布到arXiv预印本服务器上的这些发现。
埃尔南德斯与东北大学计算机科学研究生 Arnab Sharma 共同撰写了这篇论文。他的导师 Jacob Andreas,EECS 副教授,计算机科学与人工智能实验室 (CSAIL) 成员;资深作者 David Bau,东北大学计算机科学助理教授;以及麻省理工学院、哈佛大学和以色列理工学院的其他人。该研究将于 5 月 7 日至 11 日在维也纳举行的国际学习表征会议 ( ICLR 2024)上发表。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
6月25-28日,由中国进出境生物安全研究会、中国国际旅行卫生保健协会主办,中国青年创业就业基金会支持,中国出入...浏览全文>>
-
胃肠镜检查,听起来可能有些令人不安,但实际上,它可能是生活中的救命稻草。对于一些人来说,定期进行胃肠镜...浏览全文>>
-
6月16日-20日,2025年优秀博士后研究人员(绍兴)研学活动顺利举行。本次活动汇聚了来自全国各地的百余名博士后,...浏览全文>>
-
近日,天津松果生物医疗科技有限公司自主研发的牛跟腱来源去端肽I型胶原蛋白原材料成功通过国家药品监督管理局...浏览全文>>
-
在数字化产业转型的浪潮奔涌之际,病理学正经历着前所未有的革新机遇。奥伟登(Evident)凭借百年光学技术积淀,以...浏览全文>>
-
6月6-8日,CHINAGUT 2025中国肠道大会在宁波国际会议中心隆重举办。大会由南京医科大学第二附属医院、国家消化...浏览全文>>
-
在第28届北京国际口腔展这一行业风向标级盛会上,北京易岭生物科技有限公司(下面简称易岭生物)凭借重磅新品发...浏览全文>>
-
2025款上汽大众ID 4 X在安徽阜阳地区的售价会根据配置和选装包有所不同。基础版车型的厂商指导价大约在20万...浏览全文>>
-
岚图FREE,作为一款集豪华与智能于一体的新能源SUV,正以全新的姿态迎接每一位渴望高品质出行的用户。现在,岚...浏览全文>>
-
安徽阜阳的大众ARTEON 2022新款现已到店,最低售价从34 80万元起,无疑是近期购车的最佳时机。这款车型以其...浏览全文>>