橄榄球的规则(美式橄榄球有多危险)
- 时间:
- 浏览:48
- 来源:奥一装修网
美式橄榄球有多危险
上海体育学院作者参加了之前举行的比赛,很幸运在金牌领域。本文旨在回顾比赛并学习其他参与者的建模经验。被称为职业橄榄球联盟(Professional Football League),在北美四大职业体育联盟中排名第一,并且是世界上最大的职业橄榄球联盟,美式橄榄球遭到两支竞争球队的反对,获得控球权的一支球队是在进攻方面,目标是将球尽可能地推向对手的位置,并努力越过得分线并进入对手的终点区域得分。攻击有两种方式,持球运动员将球向前推(冲),或将球向前推(传球)。防守者的目的是尽可能防止对手进攻和得分,并迫使他失去对球的控制。如果进攻方成功得分或失去控制球,则两支球队都将交换进攻和防守动作,比赛将以这种方式继续进行到四个季度末。该游戏的目的是通过握球时的数据来预测冲球所获得的码数(跑动距离)。预测结果是冲球不同距离的概率分布,即每个码段在码距范围内的概率。最后,评估预测结果。指标值越低,效果越好。可用信息包括玩家信息,游戏信息,环境信息,并且可以参考详细字段。根据早期阶段,我们可以发现冲撞的结果主要与玩家信息有关(包括玩家肖像的特征,游戏位置,瞬时速度和加速度等),因此随后建模还主要考虑使用玩家的信息进行建模。由于原始空间数据的稀疏性质(某人恰巧在某个位置的概率很小),我们通常使用相对位置和速度而不是绝对位置和速度作为特征,以减少由以下原因引起的学习难度数据稀疏。在游戏中,我们将所有球员的位置和速度特征作为持球球员的相对价值。功能选择相信每个人都非常熟悉它。无论是按特征或其他指标过滤特征,还是使用树模型过滤特征,实际上都是对特征差异的测试。但是,有时我们会发现特征高度区分但放置在模型中会使结果更糟。这时,我们可以使用对抗验证的方法来检测训练数据和验证数据中特征分布的一致性。具体而言,通过将训练数据标记为,然后使用或建立二进制分类模型来验证数据,通过模型和特征重要性,我们可以发现某些特征可以准确地区分训练集和测试集,
通常我们会处理它或直接将其丢弃。通过游戏中的对抗验证,我们可以发现角度特征在一年和一年的游戏中分布不一致。进一步的分析可以发现,学位的方向两年来一直不一致。直接建模将导致较差的结果。通过对此功能执行旋转校正,可以提高得分。在机器学习任务中,当样本量较小时,可能会导致训练数据的分布与实际数据的分布之间存在较大差异,从而导致学习模型不可避免地出现偏差。针对这种情况,我们通常可以使用转移学习或数据增强方法来缓解此问题。在此任务中,因为没有外部数据,所以我们只能使用数据增强来减轻训练数据中的偏差问题。在图像任务中,我们可以使用诸如平移,旋转,翻转,缩放和裁切之类的操作。对于数字任务,我们可以使用相等的插值算法进行数据增强,而基于位置的数据增强方法与图像相似。在此任务中,由于我们使用的功能是与持球者有关的,因此等效于平移增强。另外,我们发现游戏在轴方向上具有对称性,因此可以通过翻转来增强游戏性。当前,社区中最流行的表格数据模型是梯度提升树模型(等)。梯度提升树模型的优点是不需要对模型结构和超参数进行大量的调试,并且计算速度相对较快。相反,树模型对以前的特征工程的质量特别敏感,并且特征处理的差异将对最终结果产生很大影响。表格数据竞争的常用方法是将树模型作为主要模型,并在此模型上进行特征工程,然后再使用特征。这些功能(可以微调)用于建模。由于这些模型的结构原理完全不同,因此可以了解它们。结果偏差是不同的,并且积分(或)可以在一定程度上减小结果偏差,从而提高最终效果。需要表征多个对象之间的关系在对多个对象建模时,不仅需要表征对象本身的属性,还需要表征对象之间的关系。当研究对象的数量很少时,手动提取特征的方法通常可以满足需求,例如对我们经常用于两个对象的模型进行建模。但是,对于具有团队成员的任务,手动提取特征变得非常困难,并且效果难以保证。样本丢失,结果平滑。由于多重分类任务需要每个类别的样本数据,
因此,分类模型不能直接使用,必须执行结果汇总(将分类合并为分类)或丢弃缺失的分类,这会导致模型输出结果不够平滑,并且对指标产生影响不是很好。另外,如果将问题转换为回归问题,则预测的概率密度将集中在一个点上,并且将无法很好地适应索引。由于整个模型训练和预测需要在提供的服务上运行,并且整个时间不超过几个小时,因此时间有限。该模型的复杂性有限,并且无法集成太多模型。因此,具有良好效果的单一模型已成为赢得比赛的关键。结论:与梯度提升树模型相比,该模型在建模复杂关系和输出结果的连续性方面具有更多优势。整个比赛可以看作是持球球员和队友突破敌人和防守者的比赛。基本思想是分别描述信息的这三个部分,然后融合建模以获得最终结果。最初,我们考虑的方法是针对持球队和敌队,使用不同的层作为每个球员特征的编码器。由于我们需要确保玩家之间的混乱(输入层的顺序不会影响最终结果),因此,每个团队玩家的特征都需要在上层进行汇总,而最常见的方法是获得团队,然后将两个团队进行拼接以通过层获得最终结果。网络结构如下图所示。 。然而,这种结构的结果在实验期间并不总是令人满意的。主要原因之一是来自玩家生成团队的建模过于简单。添加所有参与者以突出某些关键职位的情况太简单了。为了解决这个问题,作者介绍了一种对每个参与者的重要性进行建模的机制。网络结构如下。首先,我们仍然通过层对每个球员的特征进行编码,然后使用一个层来确定每个球员的重要性,然后根据重要性对球员进行加权和求和,以得到团队。通过引入该机制,作者的团队排名最终得以提高。该模型的优点:结构简单,计算速度快,球手,队友和对手分别具有特征。功能选择更加灵活。这种模式的缺点:它只是整个团队的特征,缺乏对球员之间关系的描述。模型结构很简单。学习能力是有限的。由于模型的结构过于简单,计算中缺乏对手的信息,因此整个模型中存在一定的信息损失,而近来的火场正好解决了这个问题。
这样,可以更好地学习和表征输入对象中存在的各种关系。与其他单位不同,一次读取整个句子的内容,并校准单词的位置。对于本游戏的任务,由于玩家之间没有明确的顺序,因此当我们使用时,只要将其丢弃,它就可以用作具有注意力机制的无序编码器。整个网络结构示意图如下。该模型使用分层结构。输入是玩家(类似于单词)的特征(类似于单词向量)。除无输入外,输入与任务一致。侧面略有不同,任务中使用了前一个位置的输出,游戏中使用了动作。一方面,它增加了对信息的关注,另一方面,它丢弃了序列信息,并确保仅输出向量。 。该模型的优点:大量的注意力机制使该模型具有较强的学习能力。该模型的缺点:缺乏对球员之间关系的描述橄榄球游戏的本质是球员之间的合作与竞争,而缺乏对关系模型的建模是不可避免的。实现准确的预测,当涉及到关系时,通过图模型容易想到建模问题。与其他图挖掘任务相比,由于游戏中的玩家数量是固定的,因此玩家之间的关系网络的拓扑结构也是固定的,因此我们可以直接对关系进行建模。回到模型,我们仍然将球员分为三部分:持球球员,队友和对手,但是现在我们不急于刻画这三部分信息,而是考虑这三部分之间的关系。持球球员仍然是我们关注的焦点。队友和对手的核心实际上是持球球员中的两种类型的节点,而建模球员关系实际上是在建模由这两种类型的节点组成的两部分图形。从图片的角度来看,实际上是以队友为中心对队友对手的两部分图进行建模。该游戏中的第一队使用分为两部分的图来建模,每个图都是队友和对手的邻接矩阵,矩阵中的每个元素都是对应队友对的特征,每个都对应于一个不同的特征。模型结构如下所示。输入数据为(对手,队友,要素,每个都可以视为对手和队友的邻接矩阵),并且模型使用卷积对每个队友对手的要素执行非线性变换,然后进行合并(保留对手维度),然后进行一维卷积和相应的合并操作,最后通过层获得结果。
与以前的模型唯一的区别是该模型显示了玩家之间关系的建模,并且游戏结果也反映了其效果的重要性。该模型当之无愧地赢得了比赛的第一名。由于竞赛限制了训练预测的总时间不超过几小时,因此学习和整合多个模型的想法是不可行的,但是通过``一次训练,多个快照整合’’来实现整合目标。通过在训练过程中定期增加或减少学习率,该模型重复了穿越局部最优值并接近局部最优值的过程,因此每个快照都擅长处理不同的数据。模型中的每个快照都不如通常以恒定或递减的学习率学习的模型好,但是集成多个快照可以改善整体模型并获得更好的预测结果。从这次比赛中获得的教训:在进行建模时,首先要考虑研究对象之间的关系是否是建模的关键。近年来,图数据挖掘技术发展迅速,图和关系的挖掘和建模得到了极大的改善。的发展。关系在现实生活中无处不在,如何理解数据中存在的关系将是建立“良好”模型的关键。对于建模任务,我们必须首先考虑建模对象之间是否存在很强的相关性。如果存在,我们需要从图挖掘的角度切入。不仅要了解一般如何使用模型算法,还可以通过类比了解其潜在作用。众所周知,它广泛用于任务中,但其本质实际上是基于注意力机制的编解码器。如果您知道这一点,那么它可以在许多其他类型的任务中发挥作用。在学习模型算法时,我们不仅必须了解它的一般用法,而且还必须从其本质上分析它可以在哪些情况下发挥作用。只有通过类推,我们才能使用有限的算法更好地对数据建模。数据挖掘的根本问题仍然在于对数据的理解。如果您不熟悉图形数据,那么如何从关系的角度来思考足球比赛的建模。不同的数据具有不同的处理方法,并且母版制作方法需要不断积累,但是同时,我们需要进行总结和抽象。一方面,我们需要广泛地探索不同类型的数据,以确保在进行挖掘和建模时思维不会僵化。另一方面,对于一种数据,我们不仅需要掌握相关模型,而且还需要将数据处理应用于数据挖掘和对上层应用程序建模。深入了解整个链接。