32位能用什么剪辑软件(适合32位系统的视频剪辑软件) 如何使用支付宝里有的功能去超市能让你更省钱?(支付宝如何在超市使用) 如何使用淘宝点外卖服务 (如何使用淘宝点外卖服务中心) 酚类化合物有哪些性质(酚类化合物有哪些呀) 苹果id充值怎么充(苹果id充值不成功怎么办) 淘宝怎么付钱(淘宝支付) 抛光砖和抛釉砖的区别哪个好(抛光砖和抛釉砖的优缺点) 大理剑川沙溪旅游攻略(大理古城到剑川沙溪古镇坐什么车) 古籍数字化步骤详解(古籍数字化定义) 极地女神和女皇哪个好(极地女神) 淘宝代练店怎么开(淘宝代练店怎么开店) DNF(地下城与勇士) 真野猪 怎么打经验分享(DNF真野猪怎么打) 不自由毋宁死三个角度谈谈(不自由毋宁死出处) 网络线上培训系统如何进行课程管理?(网络线上培训系统如何进行课程管理教学) 用C语言编写 打渔晒网问题(用c语言编写三天打鱼,两天晒网) 契丹人是中国人吗(女真人是什么民族) DNF如何获得无色小晶块最合适(dnf无色大晶块怎么得) 21部共和国名将电影(央视的共和国名将系列电影共有几部) 怎么知道电脑安装了监视软件(怎么知道电脑安装了监视软件没有) 远征ol完整客户端下载(远征OL怎么获得夜照玉狮子 写明具体方法) 家庭怎样防盗?(家庭如何防盗) 英语单词apply用法 re浏览器官网(re浏览器) wps文字如何删除页眉横线(wpsword怎么删除页眉横线) 额济纳旗旅游住宿攻略(额济纳旗旅行攻略) 物候的意思解释(物候的意思) 新手如何开烘焙店?(新手如何开烘焙店赚钱) 巧克力用英语怎么说(巧克力用英语怎么说读音) 淘宝颜色分类怎么设置成图片(淘宝颜色分类怎么设置) 找不到d3d8.dll d3d8thk.dll丢失 解决方案(d3dx9_27.dll丢失怎么办) 过敏性鼻炎怎么治 过敏性鼻炎治疗方法分享(你搜索一下过敏性鼻炎该怎么治疗) bmi指数计算器(bmi指数) 9款圆脸女生适合的甜美长卷发发型(9款圆脸女生适合的甜美长卷发发型是什么) 测排卵期怎么测(测排卵期) 进口奶粉哪个好 教你选购进口奶粉(进口奶粉和进口牛奶哪个好) 组织机构怎么写模板(组织机构怎么写) 怎么换微信主题皮肤(怎么换微信主题皮肤华为) 安装GHOST系统后 IE主页被锁修改不了怎么办 李瑞东太极十三桩(李瑞东) 花字拼音怎么拼写(花字拼音怎么拼写视频) S8韩服高胜率虚空先知玛尔扎哈上单符文天赋出装(新版本玛尔扎哈出装) 后缀是什么意思中文(后缀是什么意思) 土豆怎么放才不发芽(土豆怎么放才不发芽不腐烂呢) 动圈话筒和电容话筒的区别(动圈话筒和电容话筒的区别在哪) 酒店前台常用英语(酒店前台英语常用语) dnf95深渊怎么刷(地下城95怎么刷深渊) 英雄联盟诺提勒斯技能被动介绍(诺提勒斯技能加点) 什么叫中性点接地系统(什么叫中性点) 蛙泳手脚配合慢镜头(蛙泳手脚配合慢动作) 怎样安装电脑xp系统
您的位置:首页 >行业动态 >

新的人工智能将自然语言处理的力量带到非洲语言中

导读 研究人员开发了一种人工智能模型,以帮助计算机更有效地使用更广泛的语言。非洲语言很少受到计算机科学家的关注,因此非洲的大片地区几乎没

研究人员开发了一种人工智能模型,以帮助计算机更有效地使用更广泛的语言。

非洲语言很少受到计算机科学家的关注,因此非洲的大片地区几乎没有自然语言处理能力。滑铁卢大学 David R. Cheriton 计算机科学学院的研究人员开发的新语言模型开始填补这一空白,使计算机能够分析非洲语言文本以执行许多有用的任务。

研究人员称之为 AfriBERTa 的新神经网络模型使用深度学习技术为低资源语言实现了最先进的结果。

该神经语言模型专门用于 11 种非洲语言,例如阿姆哈拉语、豪萨语和斯瓦希里语,这些语言的总人数超过 4 亿。尽管仅从 1 GB 的文本中学习,但它实现了与现有最​​佳模型相媲美的输出质量,而其他模型需要数千倍的数据。

滑铁卢大学计算机科学硕士生 Kelechi Ogueji 说:“预训练的语言模型已经改变了计算机处理和分析从机器翻译到问答等任务的文本数据的方式。”“可悲的是,非洲语言几乎没有受到研究界的关注。”

“其中一个挑战是神经网络的构建需要大量的文本和计算机。与拥有大量可用文本的英语不同,全世界使用的大约 7,000 种语言中的大多数都可以归为资源匮乏的特征,因为缺乏可用的数据来馈送数据饥渴的神经网络。”

大多数这些模型使用称为预训练的技术工作。为了实现这一点,研究人员向模型展示了一些文字被掩盖或掩盖的文本。然后模型必须猜测被屏蔽的词。通过重复这个过程数十亿次,该模型学习了单词之间的统计关联,这模仿了人类的语言知识。

“能够对某些下游任务同样准确的模型进行预训练,但使用极少的数据有很多优势,”计算机科学 Cheriton 主席兼 Ogueji 的顾问 Jimmy Lin 说。“需要更少的数据来训练语言模型意味着需要更少的计算,从而降低与运营海量数据中心相关的碳排放。较小的数据集也使数据管理更实用,这是减少模型中存在的偏差的一种方法。”

标签:

免责声明:本文由用户上传,如有侵权请联系删除!