32位能用什么剪辑软件(适合32位系统的视频剪辑软件) 如何使用支付宝里有的功能去超市能让你更省钱?(支付宝如何在超市使用) 如何使用淘宝点外卖服务 (如何使用淘宝点外卖服务中心) 酚类化合物有哪些性质(酚类化合物有哪些呀) 苹果id充值怎么充(苹果id充值不成功怎么办) 淘宝怎么付钱(淘宝支付) 抛光砖和抛釉砖的区别哪个好(抛光砖和抛釉砖的优缺点) 大理剑川沙溪旅游攻略(大理古城到剑川沙溪古镇坐什么车) 古籍数字化步骤详解(古籍数字化定义) 极地女神和女皇哪个好(极地女神) 淘宝代练店怎么开(淘宝代练店怎么开店) DNF(地下城与勇士) 真野猪 怎么打经验分享(DNF真野猪怎么打) 不自由毋宁死三个角度谈谈(不自由毋宁死出处) 网络线上培训系统如何进行课程管理?(网络线上培训系统如何进行课程管理教学) 用C语言编写 打渔晒网问题(用c语言编写三天打鱼,两天晒网) 契丹人是中国人吗(女真人是什么民族) DNF如何获得无色小晶块最合适(dnf无色大晶块怎么得) 21部共和国名将电影(央视的共和国名将系列电影共有几部) 怎么知道电脑安装了监视软件(怎么知道电脑安装了监视软件没有) 远征ol完整客户端下载(远征OL怎么获得夜照玉狮子 写明具体方法) 家庭怎样防盗?(家庭如何防盗) 英语单词apply用法 re浏览器官网(re浏览器) wps文字如何删除页眉横线(wpsword怎么删除页眉横线) 额济纳旗旅游住宿攻略(额济纳旗旅行攻略) 物候的意思解释(物候的意思) 新手如何开烘焙店?(新手如何开烘焙店赚钱) 巧克力用英语怎么说(巧克力用英语怎么说读音) 淘宝颜色分类怎么设置成图片(淘宝颜色分类怎么设置) 找不到d3d8.dll d3d8thk.dll丢失 解决方案(d3dx9_27.dll丢失怎么办) 过敏性鼻炎怎么治 过敏性鼻炎治疗方法分享(你搜索一下过敏性鼻炎该怎么治疗) bmi指数计算器(bmi指数) 9款圆脸女生适合的甜美长卷发发型(9款圆脸女生适合的甜美长卷发发型是什么) 测排卵期怎么测(测排卵期) 进口奶粉哪个好 教你选购进口奶粉(进口奶粉和进口牛奶哪个好) 组织机构怎么写模板(组织机构怎么写) 怎么换微信主题皮肤(怎么换微信主题皮肤华为) 安装GHOST系统后 IE主页被锁修改不了怎么办 李瑞东太极十三桩(李瑞东) 花字拼音怎么拼写(花字拼音怎么拼写视频) S8韩服高胜率虚空先知玛尔扎哈上单符文天赋出装(新版本玛尔扎哈出装) 后缀是什么意思中文(后缀是什么意思) 土豆怎么放才不发芽(土豆怎么放才不发芽不腐烂呢) 动圈话筒和电容话筒的区别(动圈话筒和电容话筒的区别在哪) 酒店前台常用英语(酒店前台英语常用语) dnf95深渊怎么刷(地下城95怎么刷深渊) 英雄联盟诺提勒斯技能被动介绍(诺提勒斯技能加点) 什么叫中性点接地系统(什么叫中性点) 蛙泳手脚配合慢镜头(蛙泳手脚配合慢动作) 怎样安装电脑xp系统
您的位置:首页 >行业动态 >

计算机模型可以改善人机交互 并为儿童如何学习语言提供见解

导读 孩子们通过观察周围的环境、倾听周围的人以及他们所见所闻之间的联系来学习语言。此外,它有助于孩子建立他们语言的语序,如主语和动词在句

孩子们通过观察周围的环境、倾听周围的人以及他们所见所闻之间的联系来学习语言。此外,它有助于孩子建立他们语言的语序,如主语和动词在句子中的位置。

在计算中,学习语言是句法和语义分析器的任务。这些系统是在人类注释句子上训练的,这些句子描述了单词背后的结构和含义。解析器在网络搜索、自然语言数据库查询和语音识别系统如Alexa和Siri中变得越来越重要。很快,它们也可能被用于家庭机器人。但是对于不太常见的语言来说,收集注释数据既耗时又困难。另外,人类并不总是认同注释,注释本身也未必能准确反映人的自然说话方式。

在本周的自然语言处理经验方法会议上发表的一篇论文中,麻省理工学院的研究人员描述了一种解析器,它可以通过观察和学习更紧密地模仿儿童的语言习得过程,这可以大大扩展解析器的能力。为了学习语言的结构,解析器在没有其他信息的情况下观察标题视频,并将单词与记录的对象和动作相关联。给定一个新句子,解析器可以使用它已经学会的语言结构来准确预测句子的意思,而无需视频。

这种“弱监督”方法——这意味着它需要有限的训练数据——模仿了孩子们如何观察周围的世界,在没有任何人提供直接背景的情况下学习语言。据研究人员介绍,这种方法可以扩展数据类型,减少训练解析器的工作量。例如,一些直接注释的句子可以与许多更容易获得的字幕视频相结合,以提高性能。

将来,解析器可以用来改善人和机器人之间的自然交互。例如,配备解析器的机器人可以不断观察其环境,以增强其对口语命令的理解,包括当口语句子不完全符合语法或不清晰时。“人们用偏句、连续的思想和令人困惑的语言相互交谈。你希望家里有一个能适应他们特定说话方式的机器人.并且仍然能够发现它们的含义。”作者:Andre Babu,麻省理工学院麦戈文研究所计算机科学与人工智能实验室(CSAIL)和脑、脑与机械中心(CBMM)研究员。

解析器还可以帮助研究人员更好地理解儿童是如何学习语言的。合著者说:“孩子可以通过不同的方式获得多余的补充信息,包括听父母和兄弟姐妹谈论世界,以及触觉信息和视觉信息,[帮助他或她]了解世界。首席研究科学家、CSAIL信息实验室集团负责人鲍里斯卡茨。“这是一个惊人的问题,要处理所有这些同时发生的感官输入。这项工作是理解这种学习在世界上是如何发生的更大一部分。”本文共同作者为:第一作者Candace Ross,电气工程与计算机科学系和CSAIL研究生,CBMM研究员;Yevgeni Berzak' 17博士,脑与认知科学系计算心理语言学组博士后;以及CSAIL研究生Battushig Myanganbayar。

视觉学习者

在他们的工作中,研究人员将语义分析器与计算机视觉组件相结合,在视频中训练对象、人和活动。语义分析器通常是在用代码注释的句子上训练的,代码将每个单词的含义与单词之间的关系联系起来。有些人受过静态图像或计算机模拟方面的训练。罗斯说,新的解析器是第一个使用视频进行训练的解析器。在某种程度上,视频在减少歧义方面更有用。如果解析器不确定句子中的动作或对象,它可以参考视频来澄清事情。罗斯说:“有时间成分——物体之间以及物体与人之间的相互作用——也有静态图像或高级属性,这些都不能只用语言来看。

研究人员汇编了一个由大约400个视频组成的数据集,这些视频描述了人们的许多行为,包括拿起或放下物体,然后走向它们。众包平台机器人土耳其人的参与者随后为这些视频提供了1200个字幕。他们保留了840个视频标题的例子进行训练和调整,并用360个进行测试。Barbu说,使用基于视觉的解析的一个优势是“你不需要几乎相同数量的数据——尽管你有(数据),但你可以将其扩展到一个巨大的数据集”。

在训练中,研究人员为解析器提供了确定句子是否准确描述给定视频的目标。它们为解析器提供视频和匹配标题。解析器提取标题的可能含义作为逻辑数学表达式。比如“女人在摘苹果”这句话可以表达为:xy .这些表情和视频被输入到由巴布和其他研究人员开发的名为“情感跟踪器”的计算机视觉算法中。该算法查看每个视频帧,以跟踪对象和人如何随时间变化,从而确定动作是否如所描述的那样播放。这样就决定了视频的意思是否正确。

关系

物体、人和动作的最接近匹配表示的表达成为标题最可能的意思。最初,表达式可以引用视频中许多不同的对象和动作,但可能含义的集合被用作训练信号,这有助于解析器不断降低可能性。“通过假设所有的句子都必须遵循相同的规则,它们都来自相同的语言,你可以通过查看许多标题视频来进一步缩小它们的含义,”Barbu说。

p>简而言之,解析器通过被动观察来学习:为了确定视频的标题是否为真,解析器必然必须识别标题的最高概率含义。“判断视频句子是否属于视频的唯一方法是[经过]中间步骤,'句子是什么意思?'否则,你不知道如何连接两者,“巴布解释道。“我们不会给系统赋予句子的含义。我们说,'有一个句子和一个视频。句子必须适用于视频。找出一些中间表示,使视频成为现实。'”训练为学习单词产生句法和语义语法。给定一个新句子,解析器不再需要视频,而是利用其语法和词汇来确定句子结构和含义。

最终,这个过程正在学习“好像你还是个孩子”,巴布说。“你看到周围的世界,听到人们说话以学习意义。有一天,我可以给你一个句子并询问它意味着什么,即使没有视觉,你也知道它的含义。”在未来的工作中,研究人员对建模相互作用感兴趣,而不仅仅是被动观察。“儿童在学习时会与环境互动。我们的想法是建立一个也会使用感知来学习的模型,”罗斯说。这项工作是支持的,一部分由CBMM,美国国家科学基金会,福特基金会研究生研究奖学金,丰田研究所和麻省理工学院,IBM脑启发多媒体理解项目。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!