以下内容已发表在第四范式专栏中。
当当还是嗖嗖,机器学习预测科比投篮命中与否? 第1部分
科比·布莱恩特,广大中国篮球迷对这个名字应该非常熟悉,当然都有不同的感受。 但无论你是球迷还是粉丝,有一件事应该被广泛认可:科比是21世纪以来整个NBA进攻手段最难以捉摸、得分技巧最全面的球员。 他的每一次投篮都充满自信,让对手提心吊胆足球比赛数据分析,尽管此前他可能已经连续投丢了很多次。 在他20年的职业生涯中,他的比赛视频被人们一遍又一遍地研究,人们希望总结出一些规则来限制这个几乎无所不能的男人。
那么问题来了,我们能否结合经验和已知信息,用最科学的方式来评估科比的某个投篮命中篮筐的概率? 答案是肯定的,机器学习最擅长分析数据并做出理论预测。 大数据思维下,即使面对体育比赛等千变万化的场景,机器学习依然能在其中找到“线索”。
该问题源于(数据科学社区)的公开竞赛。 我们掌握的数据是科比·布莱恩特在20年NBA职业生涯中所有投篮命中的信息,包括以下项目:
除此之外,自然还有一个标签:,那就是出手是否命中。 3万多条数据中选取5000条作为测试集,隐藏它们的标签值。 最后的工作是根据学习剩余的数据来预测击中这 5,000 次球的概率。
在预测 5000 个镜头的过程中,我们还发现了一些有趣的结果:
第2部分
好了,介绍完背景,准备好数据,第四范式投入巨资开发的平台就该出场了。 借助这个科学、便捷的机器学习平台,我们可以系统、直观地完成这个机器学习课题。
如果我们想让计算机学会评估科比的投篮成功率,我们自然要提供已知的例子来“教”它。 有了上面列出的信息,事情就会变得容易处理。 事实上,需要澄清的问题只有三个:
1、科比的投篮成功率与什么有关?
每个信息项代表科比投篮的一个特征()。 既然是特征,那么必然和结果是否命中密切相关,例如:
如果你仔细观察某些功能,你会发现很多有趣的东西。 比如,队名并不能体现多少价值,因为科比在同一支球队待了二十年; 对手变量更有意义。 比如熟悉科比的球迷应该都知道,一击败猛龙他就兴奋不已。
2、应该结合哪些因素来描述科比的投篮?
在许多情况下,单个特征不足以完全反映操作的某种性质。 我们需要将几个特征组合在一起,帮助计算机更合理地训练模型。
第四范式提供了自动特征组合算法——只需使用“自动特征组合”算子,先知平台就可以开始他的表演。
有一组特征组合在一起:(投篮区域,包括左、右等)和(投篮区域类型,包括中距离、外线、罚球区等)。 将这两个特征结合起来的原因很容易理解,同时确定了角度和距离,可以用来定位科比的投篮位置。 将它们结合起来使用是一种科学的方法。
还有一套特点,(投篮方式,包括跳投、上篮等)和(对手球队名称)也结合在一起。 乍一看,这是一个毫无联系的群体,但仔细分析就会发现一些东西:各支球队的防守传统不同,有的球队注重培养外线铁门,有的球队热衷于内线巨兽; 对于不同的防守重点,科比选择攻击篮下还是外线投篮的成功率差异应该体现出来。 所以平台从数据层面发现了这个专家经验,帮助我们更好的提取特征。
3、哪些因素对科比的投篮影响最大?
特征的种类很多,相关性自然也有高低之分。 当然,我们最关心的是那些对结果影响最大的特征。 平台可以轻松帮助我们找到他们。
当我们通过完成特征提取后,我们可以连接“特征重要性分析”算子,经过计算就可以得到每个特征在机器学习过程中的重要性排名。
预言家告诉我们,与科比投篮成功率关系最密切的特点之一就是(投篮方式,包括跳投、上篮等)。 原因可能是不同的拍摄方式,其命中率差异较大。 比如科比的投篮(包括扣篮)命中率肯定会高于中距离跳投,中投成功率也会比三分球稍好一些。 同样,以下是其他一些重要功能:
有了特征重要性的分析报告,我们在处理非常重要的特征项时应该更加关注,仔细考虑是否对它们进行分桶以及它们的泛化程度等关键问题。
第三部分
通过以上的分析,我们已经打下了坚实的基础。 当然,预测科比的投篮并不是那么简单,但预言家的“黑科技”并不止于此。 我们将逐步落实。
首先,我们需要将全部数据上传到平台。 可以看到它包含了科比职业生涯总共30697次出手的相关数据。
引入数据后,我们拖入“数据分割”算子,首先将3万条数据分割为训练集和测试集。 对于训练集中的25000条数据,我们简单地按照9:1的比例随机分为训练数据和测试数据。
数据分割之后,就是提取特征的过程。 这个过程对于不同的变量有不同的提取方式:有些离散值可以直接使用,而有些连续变量则需要分桶; 如果保留的小数位数过多,泛化性不够,则需要向下舍入; 单个变量不足以完全反映某个特征,所以必须组合多个变量……这些复杂且技术性很强的过程平台可以轻松为您解决:拖入“特征组合”操作符,设置后学习率和随机参数调整次数,先知会为我们计算出几种特征提取和组合方法。 由于它在数学上与 AUC 一致,因此只需选择 AUC 最高的即可使用。
完成特征提取工作后,下一步就是应用学习算法生成预测模型。 数据经过特征自动组合后已经完全离散化,因此我们选择逻辑回归算法进行训练。 同样,我们也面临着参数调整的艰巨问题。 别担心,还是可以帮你快速解决的。 我们使用“逻辑回归自动参数调整”算子。 我们只需要设定参数调整次数、参数范围等一些基本指标,就可以达到反复试验以获得最佳参数的目的。
经过自动参数调整后,我们将最佳参数填充到逻辑回归的参数表中,这样输出将是经过训练的机器学习模型。 接下来,我们需要测试它的质量,并使用从之前的训练集中分离出来的测试数据来进行模型预测。 由于评估标准是在输出后连接一个SQL运算符来计算预测结果的值。
正如您所看到的,该值仍然很小并且测试通过。 最后一步,我们需要将该模型应用到标签未知的测试集上以获得最终结果。 为了模块化,我们导出这个模型,重命名并发布,然后我们就可以直接使用这个训练好的模型。 由于测试集中每个数据的标签为空,而P平台目前无法对空集进行特征提取,因此我们引入自定义脚本将这个空值设置为0。接下来我们使用相同的特征提取方法和之前一样处理测试集特征,然后应用之前的模型轻松输出结果。
第 4 部分
至此足球比赛数据分析,我们就完成了利用机器学习评估科比单投概率的整个过程。 总体而言足球比赛数据分析,平台在完成机器学习项目时所表现出的灵活性和便利性非常出色。 通过,我们可以省去很多繁琐复杂的步骤,攻克很多难题,不仅提高了效率,也降低了机器学习的应用门槛。
回到主题本身,我们看一下结果中的数据。 在那些概率大的情况下,科比一定是最优雅、最擅长的; 在那些概率很低的情况下,科比可能是最无助和偏执的。 这个留在了无数年轻人青春里的男人,立下了那么多功绩,也遭受了那么多骂名。 现在一切都结束了。 在那一串串数字里,封印的是他的痛点,也是我们的记忆,但更重要的是,这是一种坚持。
明白了这一点,也许你就能成为足球皇帝,对墙上的海报说:
科比,我已经看透你了。
如果您对我们感兴趣,请在这里申请先知平台:
参考:科比投篮
最新直播
北单大案牍术:法甲英超新赛季首轮数据解析与德甲前瞻
2024-25赛季英超第16轮曼市德比:曼联2-1逆转曼城,书写经典篇章
巴罗特执法阿森纳对曼联关键比赛:戏剧性判罚与争议背后的故事
欧冠1/4决赛精彩回顾:皇马点球淘汰曼城,拜仁击败阿森纳,四强全部就位
曼城与曼联交锋历史及近期表现分析:瓜迪奥拉带领曼城冲击英超冠军
欧洲俱乐部协会推进欧战改革引发多国俱乐部不满,欧冠改制计划受争议
西汉姆联主场2:1力克狼队,止连败颓势,积分榜位置改观
欧足联正式批准欧冠改革:2018-19赛季起四大联赛前四名直接进入小组赛
五星体育F1直播网及转播指南:高清回放、解说及观看平台推荐
欧冠八分之一决赛皇马与利物浦对决,芬威集团决定出售利物浦俱乐部
JRKAN直播 版权所有 XML地图 备案号:晋ICP备2024029651号
JRKAN直播JRS直播吧是国内最好的体育直播网站,JRKAN直播内容由互联网收集整理,主要提供足球直播、篮球直播,电竞直播,我们努力做最好的直播吧