专栏学习何时做分类决策深度好奇提出强化学习模型JumperAG真人娱乐官方网站

发布日期：2024-11-27 13:30:31　浏览次数：

　　特别一提的是，我们专注于几个预定义子任务的文本分类问题。当我们的神经网络读取一个段落时，每个子任务在开始时具有默认值「无」（None）。在每个决策步骤中，段落的句子按顺序被递送到神经网络；之后，网络来决定是否有足够的信心「跳转」到非默认值作为特定时间的预测。我们施加约束，即每次跳转都是最终决定，它不可以在后面的阅读中被更改。如图AG真人娱乐官方网站(访问: hash.cyou 领取999USDT） 1 所示，给定一段话，有多个预先定义好的问题等待回答；模型按句子阅读，在阅读过程中，问题的答案陆续被找到。模型从默认决策到非默认决策都是一个「跳转」的过程，正因此我们称模型为 Jumper。在人类阅读的过程中，人们通常会获得一致的阅读理解的结果，但是阅读理解过程中的很多环节却经常是微妙和难以捉摸AG真人娱乐官方网站(访问: hash.cyou 领取999USDT）的。同样，我们也假设我们的训练标签仅包含AG真人娱乐官方网站(访问: hash.cyou 领取999USDT）最终结果，并且没有给出关于模型应该做出决定的步骤的监督信号。也就是说，我们通过强化学习在弱监督信号情况下训练 Jumper 模型。

　　除了准确率高和推断速度快以外，我们更好奇 Jumper 是否能够在信息提取式任务（例如工伤级别分类任务）中找到正确的位置做出决策。我们在 400 个数据点中标注关键支撑句（即最佳跳转位置）作为测试基础。需要注意的是，在这个实验中我们仍然没有跳转位置的训练标签。我们将 Jumper 与使用相同神经网络的层级 CNN-GRU 模型进行比较，但在训练方法方面有所不同；层级 CNN-GRU 在训练时，用段落末尾的交叉熵作为损失函数。在测试期间，我们将预测器应用于每个步骤并找到它做出预测的第一个位置。我们还列出了一个经典 CNN 的结果作为基线模型，并使用了最大池化操作（max-pooling）选择的单词最多的那些句子来作为测试数据。我们使用了跳转动作的准确率来评测 Jumper。通过表 3 可知，Jumper 准确地找到了测试集中所有关键支撑句的位置，说明我们的单跳约束迫使模型更仔细地思考何时做出决策，也验证了强化学习是学习决策正确位置的有效方法。

上一篇: AG用户数据docAG真人娱乐官方网站

下一篇: 第四届东亚电竞锦标赛今日成都开赛 15名中国代表队运动员集结出AG真人娱乐官方网站征