计算机模型可以改善人机交互并为儿童如何学习语言提供见解

2022-01-05 09:23:36 来源：用户：

孩子们通过观察周围的环境、倾听周围的人以及他们所见所闻之间的联系来学习语言。此外，它有助于孩子建立他们语言的语序，如主语和动词在句子中的位置。

在计算中，学习语言是句法和语义分析器的任务。这些系统是在人类注释句子上训练的，这些句子描述了单词背后的结构和含义。解析器在网络搜索、自然语言数据库查询和语音识别系统如Alexa和Siri中变得越来越重要。很快，它们也可能被用于家庭机器人。但是对于不太常见的语言来说，收集注释数据既耗时又困难。另外，人类并不总是认同注释，注释本身也未必能准确反映人的自然说话方式。

在本周的自然语言处理经验方法会议上发表的一篇论文中，麻省理工学院的研究人员描述了一种解析器，它可以通过观察和学习更紧密地模仿儿童的语言习得过程，这可以大大扩展解析器的能力。为了学习语言的结构，解析器在没有其他信息的情况下观察标题视频，并将单词与记录的对象和动作相关联。给定一个新句子，解析器可以使用它已经学会的语言结构来准确预测句子的意思，而无需视频。

这种“弱监督”方法——这意味着它需要有限的训练数据——模仿了孩子们如何观察周围的世界，在没有任何人提供直接背景的情况下学习语言。据研究人员介绍，这种方法可以扩展数据类型，减少训练解析器的工作量。例如，一些直接注释的句子可以与许多更容易获得的字幕视频相结合，以提高性能。

将来，解析器可以用来改善人和机器人之间的自然交互。例如，配备解析器的机器人可以不断观察其环境，以增强其对口语命令的理解，包括当口语句子不完全符合语法或不清晰时。“人们用偏句、连续的思想和令人困惑的语言相互交谈。你希望家里有一个能适应他们特定说话方式的机器人.并且仍然能够发现它们的含义。”作者：Andre Babu，麻省理工学院麦戈文研究所计算机科学与人工智能实验室(CSAIL)和脑、脑与机械中心(CBMM)研究员。

解析器还可以帮助研究人员更好地理解儿童是如何学习语言的。合著者说：“孩子可以通过不同的方式获得多余的补充信息，包括听父母和兄弟姐妹谈论世界，以及触觉信息和视觉信息，[帮助他或她]了解世界。首席研究科学家、CSAIL信息实验室集团负责人鲍里斯卡茨。“这是一个惊人的问题，要处理所有这些同时发生的感官输入。这项工作是理解这种学习在世界上是如何发生的更大一部分。”本文共同作者为：第一作者Candace Ross，电气工程与计算机科学系和CSAIL研究生，CBMM研究员；Yevgeni Berzak' 17博士，脑与认知科学系计算心理语言学组博士后；以及CSAIL研究生Battushig Myanganbayar。

视觉学习者

在他们的工作中，研究人员将语义分析器与计算机视觉组件相结合，在视频中训练对象、人和活动。语义分析器通常是在用代码注释的句子上训练的，代码将每个单词的含义与单词之间的关系联系起来。有些人受过静态图像或计算机模拟方面的训练。罗斯说，新的解析器是第一个使用视频进行训练的解析器。在某种程度上，视频在减少歧义方面更有用。如果解析器不确定句子中的动作或对象，它可以参考视频来澄清事情。罗斯说：“有时间成分——物体之间以及物体与人之间的相互作用——也有静态图像或高级属性，这些都不能只用语言来看。

研究人员汇编了一个由大约400个视频组成的数据集，这些视频描述了人们的许多行为，包括拿起或放下物体，然后走向它们。众包平台机器人土耳其人的参与者随后为这些视频提供了1200个字幕。他们保留了840个视频标题的例子进行训练和调整，并用360个进行测试。Barbu说，使用基于视觉的解析的一个优势是“你不需要几乎相同数量的数据——尽管你有(数据)，但你可以将其扩展到一个巨大的数据集”。

在训练中，研究人员为解析器提供了确定句子是否准确描述给定视频的目标。它们为解析器提供视频和匹配标题。解析器提取标题的可能含义作为逻辑数学表达式。比如“女人在摘苹果”这句话可以表达为：xy .这些表情和视频被输入到由巴布和其他研究人员开发的名为“情感跟踪器”的计算机视觉算法中。该算法查看每个视频帧，以跟踪对象和人如何随时间变化，从而确定动作是否如所描述的那样播放。这样就决定了视频的意思是否正确。

关系

物体、人和动作的最接近匹配表示的表达成为标题最可能的意思。最初，表达式可以引用视频中许多不同的对象和动作，但可能含义的集合被用作训练信号，这有助于解析器不断降低可能性。“通过假设所有的句子都必须遵循相同的规则，它们都来自相同的语言，你可以通过查看许多标题视频来进一步缩小它们的含义，”Barbu说。

p>简而言之，解析器通过被动观察来学习：为了确定视频的标题是否为真，解析器必然必须识别标题的最高概率含义。“判断视频句子是否属于视频的唯一方法是[经过]中间步骤，'句子是什么意思?'否则，你不知道如何连接两者，“巴布解释道。“我们不会给系统赋予句子的含义。我们说，'有一个句子和一个视频。句子必须适用于视频。找出一些中间表示，使视频成为现实。'”训练为学习单词产生句法和语义语法。给定一个新句子，解析器不再需要视频，而是利用其语法和词汇来确定句子结构和含义。

最终，这个过程正在学习“好像你还是个孩子”，巴布说。“你看到周围的世界，听到人们说话以学习意义。有一天，我可以给你一个句子并询问它意味着什么，即使没有视觉，你也知道它的含义。”在未来的工作中，研究人员对建模相互作用感兴趣，而不仅仅是被动观察。“儿童在学习时会与环境互动。我们的想法是建立一个也会使用感知来学习的模型，”罗斯说。这项工作是支持的，一部分由CBMM，美国国家科学基金会，福特基金会研究生研究奖学金，丰田研究所和麻省理工学院，IBM脑启发多媒体理解项目。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

计算机模型可以改善人机交互 并为儿童如何学习语言提供见解

计算机模型可以改善人机交互并为儿童如何学习语言提供见解