新的人工智能将自然语言处理的力量带到非洲语言中
研究人员开发了一种人工智能模型,以帮助计算机更有效地使用更广泛的语言。
非洲语言很少受到计算机科学家的关注,因此非洲的大片地区几乎没有自然语言处理能力。滑铁卢大学 David R. Cheriton 计算机科学学院的研究人员开发的新语言模型开始填补这一空白,使计算机能够分析非洲语言文本以执行许多有用的任务。
研究人员称之为 AfriBERTa 的新神经网络模型使用深度学习技术为低资源语言实现了最先进的结果。
该神经语言模型专门用于 11 种非洲语言,例如阿姆哈拉语、豪萨语和斯瓦希里语,这些语言的总人数超过 4 亿。尽管仅从 1 GB 的文本中学习,但它实现了与现有最佳模型相媲美的输出质量,而其他模型需要数千倍的数据。
滑铁卢大学计算机科学硕士生 Kelechi Ogueji 说:“预训练的语言模型已经改变了计算机处理和分析从机器翻译到问答等任务的文本数据的方式。”“可悲的是,非洲语言几乎没有受到研究界的关注。”
“其中一个挑战是神经网络的构建需要大量的文本和计算机。与拥有大量可用文本的英语不同,全世界使用的大约 7,000 种语言中的大多数都可以归为资源匮乏的特征,因为缺乏可用的数据来馈送数据饥渴的神经网络。”
大多数这些模型使用称为预训练的技术工作。为了实现这一点,研究人员向模型展示了一些文字被掩盖或掩盖的文本。然后模型必须猜测被屏蔽的词。通过重复这个过程数十亿次,该模型学习了单词之间的统计关联,这模仿了人类的语言知识。
“能够对某些下游任务同样准确的模型进行预训练,但使用极少的数据有很多优势,”计算机科学 Cheriton 主席兼 Ogueji 的顾问 Jimmy Lin 说。“需要更少的数据来训练语言模型意味着需要更少的计算,从而降低与运营海量数据中心相关的碳排放。较小的数据集也使数据管理更实用,这是减少模型中存在的偏差的一种方法。”
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
6月25-28日,由中国进出境生物安全研究会、中国国际旅行卫生保健协会主办,中国青年创业就业基金会支持,中国出入...浏览全文>>
-
胃肠镜检查,听起来可能有些令人不安,但实际上,它可能是生活中的救命稻草。对于一些人来说,定期进行胃肠镜...浏览全文>>
-
6月16日-20日,2025年优秀博士后研究人员(绍兴)研学活动顺利举行。本次活动汇聚了来自全国各地的百余名博士后,...浏览全文>>
-
近日,天津松果生物医疗科技有限公司自主研发的牛跟腱来源去端肽I型胶原蛋白原材料成功通过国家药品监督管理局...浏览全文>>
-
在数字化产业转型的浪潮奔涌之际,病理学正经历着前所未有的革新机遇。奥伟登(Evident)凭借百年光学技术积淀,以...浏览全文>>
-
6月6-8日,CHINAGUT 2025中国肠道大会在宁波国际会议中心隆重举办。大会由南京医科大学第二附属医院、国家消化...浏览全文>>
-
在第28届北京国际口腔展这一行业风向标级盛会上,北京易岭生物科技有限公司(下面简称易岭生物)凭借重磅新品发...浏览全文>>
-
2025款上汽大众ID 4 X在安徽阜阳地区的售价会根据配置和选装包有所不同。基础版车型的厂商指导价大约在20万...浏览全文>>
-
岚图FREE,作为一款集豪华与智能于一体的新能源SUV,正以全新的姿态迎接每一位渴望高品质出行的用户。现在,岚...浏览全文>>
-
安徽阜阳的大众ARTEON 2022新款现已到店,最低售价从34 80万元起,无疑是近期购车的最佳时机。这款车型以其...浏览全文>>