特别一提的是,我们专注于几个预定义子任务的文本分类问题。当我们的神经网络读取一个段落时,每个子任务在开始时具有默认值「无」(None)。在每个决策步骤中,段落的句子按顺序被递送到神经网络;之后,网络来决定是否有足够的信心「跳转」到非默认值作为特定时间的预测。我们施加约束,即每次跳转都是最终决定,它不可以在后面的阅读中被更改。如图AG真人娱乐官方网站(访问: hash.cyou 领取999USDT) 1 所示,给定一段话,有多个预先定义好的问题等待回答;模型按句子阅读,在阅读过程中,问题的答案陆续被找到。模型从默认决策到非默认决策都是一个「跳转」的过程,正因此我们称模型为 Jumper。在人类阅读的过程中,人们通常会获得一致的阅读理解的结果,但是阅读理解过程中的很多环节却经常是微妙和难以捉摸AG真人娱乐官方网站(访问: hash.cyou 领取999USDT)的。同样,我们也假设我们的训练标签仅包含AG真人娱乐官方网站(访问: hash.cyou 领取999USDT)最终结果,并且没有给出关于模型应该做出决定的步骤的监督信号。也就是说,我们通过强化学习在弱监督信号情况下训练 Jumper 模型。
除了准确率高和推断速度快以外,我们更好奇 Jumper 是否能够在信息提取式任务(例如工伤级别分类任务)中找到正确的位置做出决策。我们在 400 个数据点中标注关键支撑句(即最佳跳转位置)作为测试基础。需要注意的是,在这个实验中我们仍然没有跳转位置的训练标签。我们将 Jumper 与使用相同神经网络的层级 CNN-GRU 模型进行比较,但在训练方法方面有所不同;层级 CNN-GRU 在训练时,用段落末尾的交叉熵作为损失函数。在测试期间,我们将预测器应用于每个步骤并找到它做出预测的第一个位置。我们还列出了一个经典 CNN 的结果作为基线模型,并使用了最大池化操作(max-pooling)选择的单词最多的那些句子来作为测试数据。我们使用了跳转动作的准确率来评测 Jumper。通过表 3 可知,Jumper 准确地找到了测试集中所有关键支撑句的位置,说明我们的单跳约束迫使模型更仔细地思考何时做出决策,也验证了强化学习是学习决策正确位置的有效方法。