铛or唰唰,机器学习预测科比的投篮中不中?

时间:2024-04-28 18:31:06

以下内容已发表在第四范式专栏中。

当当还是嗖嗖,机器学习预测科比投篮命中与否? 第1部分

科比·布莱恩特,广大中国篮球迷对这个名字应该非常熟悉,当然都有不同的感受。 但无论你是球迷还是粉丝,有一件事应该被广泛认可:科比是21世纪以来整个NBA进攻手段最难以捉摸、得分技巧最全面的球员。 他的每一次投篮都充满自信,让对手提心吊胆足球比赛数据分析,尽管此前他可能已经连续投丢了很多次。 在他20年的职业生涯中,他的比赛视频被人们一遍又一遍地研究,人们希望总结出一些规则来限制这个几乎无所不能的男人。

那么问题来了,我们能否结合经验和已知信息,用最科学的方式来评估科比的某个投篮命中篮筐的概率? 答案是肯定的,机器学习最擅长分析数据并做出理论预测。 大数据思维下,即使面对体育比赛等千变万化的场景,机器学习依然能在其中找到“线索”。

该问题源于(数据科学社区)的公开竞赛。 我们掌握的数据是科比·布莱恩特在20年NBA职业生涯中所有投篮命中的信息,包括以下项目:

足球比赛数据分析表_足球比赛数据分析_足球比赛数据分析报告网站

除此之外,自然还有一个标签:,那就是出手是否命中。 3万多条数据中选取5000条作为测试集,隐藏它们的标签值。 最后的工作是根据学习剩余的数据来预测击中这 5,000 次球的概率。

在预测 5000 个镜头的过程中,我们还发现了一些有趣的结果:

第2部分

好了,介绍完背景,准备好数据,第四范式投入巨资开发的平台就该出场了。 借助这个科学、便捷的机器学习平台,我们可以系统、直观地完成这个机器学习课题。

如果我们想让计算机学会评估科比的投篮成功率,我们自然要提供已知的例子来“教”它。 有了上面列出的信息,事情就会变得容易处理。 事实上,需要澄清的问题只有三个:

1、科比的投篮成功率与什么有关?

每个信息项代表科比投篮的一个特征()。 既然是特征,那么必然和结果是否命中密切相关,例如:

如果你仔细观察某些功能,你会发现很多有趣的东西。 比如,队名并不能体现多少价值,因为科比在同一支球队待了二十年; 对手变量更有意义。 比如熟悉科比的球迷应该都知道,一击败猛龙他就兴奋不已。

2、应该结合哪些因素来描述科比的投篮?

在许多情况下,单个特征不足以完全反映操作的某种性质。 我们需要将几个特征组合在一起,帮助计算机更合理地训练模型。

第四范式提供了自动特征组合算法——只需使用“自动特征组合”算子,先知平台就可以开始他的表演。

足球比赛数据分析报告网站_足球比赛数据分析_足球比赛数据分析表

有一组特征组合在一起:(投篮区域,包括左、右等)和(投篮区域类型,包括中距离、外线、罚球区等)。 将这两个特征结合起来的原因很容易理解,同时确定了角度和距离,可以用来定位科比的投篮位置。 将它们结合起来使用是一种科学的方法。

还有一套特点,(投篮方式,包括跳投、上篮等)和(对手球队名称)也结合在一起。 乍一看,这是一个毫无联系的群体,但仔细分析就会发现一些东西:各支球队的防守传统不同,有的球队注重培养外线铁门,有的球队热衷于内线巨兽; 对于不同的防守重点,科比选择攻击篮下还是外线投篮的成功率差异应该体现出来。 所以平台从数据层面发现了这个专家经验,帮助我们更好的提取特征。

3、哪些因素对科比的投篮影响最大?

特征的种类很多,相关性自然也有高低之分。 当然,我们最关心的是那些对结果影响最大的特征。 平台可以轻松帮助我们找到他们。

当我们通过完成特征提取后,我们可以连接“特征重要性分析”算子,经过计算就可以得到每个特征在机器学习过程中的重要性排名。

足球比赛数据分析报告网站_足球比赛数据分析表_足球比赛数据分析

预言家告诉我们,与科比投篮成功率关系最密切的特点之一就是(投篮方式,包括跳投、上篮等)。 原因可能是不同的拍摄方式,其命中率差异较大。 比如科比的投篮(包括扣篮)命中率肯定会高于中距离跳投,中投成功率也会比三分球稍好一些。 同样,以下是其他一些重要功能:

有了特征重要性的分析报告,我们在处理非常重要的特征项时应该更加关注,仔细考虑是否对它们进行分桶以及它们的泛化程度等关键问题。

第三部分

通过以上的分析,我们已经打下了坚实的基础。 当然,预测科比的投篮并不是那么简单,但预言家的“黑科技”并不止于此。 我们将逐步落实。

首先,我们需要将全部数据上传到平台。 可以看到它包含了科比职业生涯总共30697次出手的相关数据。

足球比赛数据分析_足球比赛数据分析表_足球比赛数据分析报告网站

引入数据后,我们拖入“数据分割”算子,首先将3万条数据分割为训练集和测试集。 对于训练集中的25000条数据,我们简单地按照9:1的比例随机分为训练数据和测试数据。

数据分割之后,就是提取特征的过程。 这个过程对于不同的变量有不同的提取方式:有些离散值可以直接使用,而有些连续变量则需要分桶; 如果保留的小数位数过多,泛化性不够,则需要向下舍入; 单个变量不足以完全反映某个特征,所以必须组合多个变量……这些复杂且技术性很强的过程平台可以轻松为您解决:拖入“特征组合”操作符,设置后学习率和随机参数调整次数,先知会为我们计算出几种特征提取和组合方法。 由于它在数学上与 AUC 一致,因此只需选择 AUC 最高的即可使用。

足球比赛数据分析表_足球比赛数据分析_足球比赛数据分析报告网站

完成特征提取工作后,下一步就是应用学习算法生成预测模型。 数据经过特征自动组合后已经完全离散化,因此我们选择逻辑回归算法进行训练。 同样,我们也面临着参数调整的艰巨问题。 别担心,还是可以帮你快速解决的。 我们使用“逻辑回归自动参数调整”算子。 我们只需要设定参数调整次数、参数范围等一些基本指标,就可以达到反复试验以获得最佳参数的目的。

足球比赛数据分析报告网站_足球比赛数据分析表_足球比赛数据分析

经过自动参数调整后,我们将最佳参数填充到逻辑回归的参数表中,这样输出将是经过训练的机器学习模型。 接下来,我们需要测试它的质量,并使用从之前的训练集中分离出来的测试数据来进行模型预测。 由于评估标准是在输出后连接一个SQL运算符来计算预测结果的值。

足球比赛数据分析表_足球比赛数据分析报告网站_足球比赛数据分析

足球比赛数据分析报告网站_足球比赛数据分析_足球比赛数据分析表

正如您所看到的,该值仍然很小并且测试通过。 最后一步,我们需要将该模型应用到标签未知的测试集上以获得最终结果。 为了模块化,我们导出这个模型,重命名并发布,然后我们就可以直接使用这个训练好的模型。 由于测试集中每个数据的标签为空,而P​​平台目前无法对空集进行特征提取,因此我们引入自定义脚本将这个空值设置为0。接下来我们使用相同的特征提取方法和之前一样处理测试集特征,然后应用之前的模型轻松输出结果。

足球比赛数据分析_足球比赛数据分析报告网站_足球比赛数据分析表

第 4 部分

至此足球比赛数据分析,我们就完成了利用机器学习评估科比单投概率的整个过程。 总体而言足球比赛数据分析,平台在完成机器学习项目时所表现出的灵活性和便利性非常出色。 通过,我们可以省去很多繁琐复杂的步骤,攻克很多难题,不仅提高了效率,也降低了机器学习的应用门槛。

回到主题本身,我们看一下结果中的数据。 在那些概率大的情况下,科比一定是最优雅、最擅长的; 在那些概率很低的情况下,科比可能是最无助和偏执的。 这个留在了无数年轻人青春里的男人,立下了那么多功绩,也遭受了那么多骂名。 现在一切都结束了。 在那一串串数字里,封印的是他的痛点,也是我们的记忆,但更重要的是,这是一种坚持。

明白了这一点,也许你就能成为足球皇帝,对墙上的海报说:

科比,我已经看透你了。

如果您对我们感兴趣,请在这里申请先知平台:

参考:科比投篮

最新直播

  • 06月08日 00:00 波兰丙组联赛第34轮 GKS贝查特vs卡利什
  • 05月24日 01:30 奥丙西东部第28轮 克林斯马vsFCM特赖斯基兴
  • 01月27日 01:00 以篮超 加利尔vs阿富拉夏普尔
  • 12月28日 23:30 葡篮超 伊莫拉塔vs巴雷鲁
  • 12月28日 23:30 南非超第11轮 瑟库库内联vs塔斯哈克修玛TM
  • 12月28日 23:30 葡超第16轮 AVS俱乐部vs阿马多拉
  • 12月28日 23:00 格鲁甲 库塔伊西vs第比利斯国立大学
  • 12月28日 23:00 希篮甲 雅典AEKvs阿里斯
  • 12月28日 23:00 爱拉联 利耶帕亚vs瓦米尔拉玻璃
  • 12月28日 23:00 爱拉联 拉普拉vs卡勒夫
  • JRKAN直播 版权所有 XML地图 备案号:晋ICP备2024029651号

    JRKAN直播JRS直播吧是国内最好的体育直播网站,JRKAN直播内容由互联网收集整理,主要提供足球直播、篮球直播,电竞直播,我们努力做最好的直播吧

    直播 足球 篮球 录像 前瞻