BadmintonDB: A Badminton Dataset for Player-specific Match Analysis and Prediction
简介
这篇文章提出了一个全新的羽毛球比赛分析和预测数据集 -- BadmintonDB,用于建模特定球员的比赛结果分析和比赛结果预测等多个任务,这些都是羽毛球运动中有趣的挑战。该数据集包含两位顶级选手之间 9 场比赛的诸多信息,比如:每局比赛的rally抽象、每次击球stroke的特征汇总以及比赛结果的相关注释。作者详细描述了创建数据集中的特征和标签的方法和过程。除此之外,作者还提出了用于预测rally结果的朴素贝叶斯方法,来检验数据集的效果。
相关工作
近年来,随着运动建模的火热发展,研究者们已经策划并公开了许多体育数据集,尤其是足球、篮球和乒乓球。与这些运动相比,尽管已经有了多种羽毛球视频分析的方法,但羽毛球比赛分析的公开数据集却非常少。如图所示,是现阶段羽毛球比赛分析的相关数据集的一个对比。其中,BadmintonDB 就是这篇文章提出来的一个数据集。
数据集筹建
视频收集
作者使用世界羽联 (BWF) 的官方 Youtube 频道 BWF.TV2 作为比赛视频的主要来源。当比赛在 BWF.TV 中不可获取时,会从其他 Youtube 频道搜索,前提是该比赛为数据集引入了显着的平衡并且比赛视频质量与官方视频相当并且不妨碍进行特征标注。
比赛视频的选择没有预期的那么直接。选择哪项赛事以及哪些运动员的比赛视频作为分析基础是需要慎重的问题。作者调查了与战术表现分析相关的著名体育科学论文后发现,男子单打在羽毛球运动中最受体育科学界的关注。进一步需要确定运动员,作者最初认为收集世界排名前两位的男单选手的比赛视频会奏效。然而,后来发现,并不是所有的比赛都是现场直播的。这对于多场比赛同时进行的早期回合比赛尤其常见。国际比赛的高度竞争性和球员的波动性也同时意味着顶级球员在前几轮输球的情况并不少见。因此,很难获得球员参加的每一场比赛的视频。
作者搜索了 Tournament Software 网站,寻找具有竞争性统计数据的前十名选手,然后检查主要来源以确保视频可用。最终,作者决定关注 Kento MOMOTA 和 Anthony Sinisuka GINTING 之间所有可用的比赛,从 2018 年开始到 2020 年疫情来临之前。这些球员都在前十名球员之列,并且他们之间有几场势均力敌的比赛。据我们所知,MOMOTA 和 GINTING 的比赛视频数量超过前十名选手中的任何一对,因此作者将重点放在他们的比赛视频集上。
视频标注
劳动力招聘流程
响应并注册我们的注释者征集的候选人经历了两个级别的过滤过程。 第一级是羽毛球知识测试,第二级是面谈和批注作业。
Level 1 - 羽毛球知识测试:作者准备了一个在线测试来评估候选者对羽毛球规则、计分系统和击球方式的理解。例如,对于与stroke相关的问题,作者嵌入了从比赛视频中提取的stroke动作视频片段。要求候选人写下视频剪辑中显示的击球类型。这个在线测验筛选了超过 50% 的候选人。
Level 2 - Interview and Tool Literacy:通过第一阶段的考生进入第二阶段。作者进行了一次简短的虚拟访谈,以衡量他们对注释任务的承诺。作者还进行了关于 ELAN 工具的课程,并评估了他们学习和使用该工具的能力。此阶段的目的是筛选致力于这项研究并具有足够的认知能力以在几乎没有监督的情况下学习和使用 ELAN 工具的候选人。
数据标注
作者为每个工人分配了单独的注释任务,同时举行虚拟会议来监控他们的进度并帮助他们解决问题。工作人员被要求对rally、stroke和outcome进行注释。当故障发生时,作者对视频中的时间区域进行了分割。此外,由于重播等造成的遮挡,比赛视频中出现无法识别的击球。在数据集中将这些stroke标记为错误数据的特殊符号表征。
数据集统计特征展示
根据不同的击球类型,正、反手,获得统计信息如图所示。
两名运动员比赛对局的一些信息如图所示。
Outstanding perspective! Your insights align perfectly with how Sprunki OC enhances composition. Speaking of creativity, Sprunki OC pioneers new approaches to sound design. The way Sprunki OC empowers creators is remarkable.