跳至主要内容
博彩与联盟, 俱乐部媒体, 职业俱乐部与学院

斯隆回顾:钱球、机器学习和大型语言模型

作者:Patrick Lucey帕特里克-卢西

自 2011 年以来,我一直参加在波士顿举行的麻省理工学院斯隆体育分析会议(包括 2021 年的远程会议),并一直乐在其中,主要是与业内朋友叙叙旧,同时也聆听和讨论(有时是介绍)体育分析领域的新创新。今年也不例外,有许多有趣的小组讨论、有趣的会谈和研究论文。但今年的情况有些不同,AI 将如何影响体育产业,以及它可能如何抢走人类的饭碗,还存在着不确定性和犹豫不决。鉴于麻省理工学院 SSAC 会议已经过去一周,我得以反思并总结了我在会议中的 5 个主要收获,其中最后两个是关于这个问题的(这也是我的演讲和小组讨论的主题,但鉴于这是我在会议中讨论最多的内容,我将围绕这两个主题进行详细阐述)。

  • 钱球20年很难相信,迈克尔-刘易斯的《钱球》问世已经 20 年了。为了纪念这一时刻,迈克尔-刘易斯与肖恩-巴蒂尔、比尔-詹姆斯和达里尔-莫雷一起参加了一个小组讨论会,讨论会由杰基-麦卡勒姆主持--这是一个非常有趣的小组讨论会。关键的主题是(我认为这一点经常被人们遗忘),但《钱球》不仅仅是一个体育故事;它以体育为例(特别是棒球界的奥克兰运动家队),说明了如何使用数据和分析作为辅助工具来衡量流程和资源价值,从而优化企业的运营--如果你的竞争对手没有这样做,这将成为一个巨大的竞争优势。
  • 妇女体育运动是最佳投资:正如许多小组讨论中许多人强调的那样,目前最好的投资是女性体育。这一观点源于 WNBA、欧洲女子足球联赛以及最近在印度推出的 T20 板球女子超级联赛在受欢迎程度、特许经营权价值和转播权方面的上升。此外,我们还发现,女子体育是展示我们与 WTA 合作伙伴以及众多足球、篮球和板球比赛合作的新成果的绝佳方式。
  • 现场玩家道具:美国博彩业的兴起也是本次会议的一个重要议题。除了让各州加入博彩业的物流和障碍之外,另一个关键的言论是围绕着对实时玩家道具的需求以及对低潜数据和模型更新的需求。从我们的角度来看,这是我们在全球范围内听到的(只是没有在美国听到),而且我们已经在带头实现这一目标。我们的博彩创新中心与 Sporting Solutions 的合作就是最近的一个例子。请关注我们在这方面的更多信息...
  • ChatGPT 及其如何应用于体育运动:在过去的三个月里,随着 ChatGPT 的推出,许多媒体都在关注生成式AI 和大型语言模型的使用(请参阅我们在这里发表的两篇文章): 第一部分 & 第二部分).周五下午,我在会议上就这一主题发表了演讲。我试图表达的要点是
    1. 目前的大型语言模型(LLM),如 ChatGPT,会对事实产生幻觉,这在体育运动中很成问题、
    2. 要在体育运动中启用聊天机器人,您需要采用 "事实第一 "的方法,并利用实时、可信和跨越所有体育运动的体育数据(就像我们在Stats Perform 所做的那样)、
    3. 体育语言并不像大型语言模型中使用的自然语言文本那样,它是自己的语言(体育文本包括射门、拦截和传球等统计数据,以及视觉模式--使用位置数据显示球员的位置和移动)、
    4. 利用视觉语言,我们可以扩展和扩展体育语言,找到新的模式,帮助球队和媒体分析和讲述更好的故事。我们新推出的Opta Vision 足球指标,如突破传球和压力(Opta Vision 数据集的一部分)就是很好的例子,这些指标揭示了以前无法看到的细节层次,使比赛更加引人入胜,帮助球队发现隐藏的球员优势,并围绕战术和战略做出更好的预测。
    5. 体育分析的未来是利用这些数据并形成大型语言模型(既使用衍生的离散统计数据,也使用可视化语言模型),从而在整个体育运动中进行更多用途、更全面的预测,帮助球队在赛前和赛中做出更好的决策,并使媒体报道更具吸引力和可用性,从而推动球迷人数的增长和关注度的提高。

我在演讲中收到了很好的反馈。将体育正式表述为自己的语言,并在这些特定数据集上创建语言模型似乎引起了很大反响。此外,在几篇研究论文中也出现了使用语言模型的趋势,这与我们Stats Perform 过去几年在开发新产品时所采用的方法如出一辙。

  • 对 "机器崛起 "的担忧:在周六下午的小组讨论中,GPT 的讨论引出了更多有趣的话题,我所在的小组被要求讨论AI 在体育运动中的潜在负面影响和局限性。我提出的要点如下
    1. 世界上很多地方的数据都没有数字化,也无法获得。在体育运动中也是如此。虽然每个球员的位置数据,无论是在场上还是在场外,都极大地扩展了我们分析比赛情况和进行预测的能力,但还有许多其他因素永远不会被纳入我们的模型。这包括私人数据,如健康数据、睡眠数据、营养数据,甚至同一队的两名球员当天是否不喜欢对方。这可以被视为一种限制。但在我看来,这是体育之美--至少是人类体育--的根本所在。体育分析在捕捉和分析赛内表现方面已日趋成熟--尤其是最近取得的进步。不过,我们也有一些自然的和强加的防护措施,例如通过 CBA 和其他法规限制私人数据的可用性,这将确保人类对最终决定进行监督(就像飞机上的飞行员--他们可以在大多数情况下依靠自动驾驶,但也可以在必要时进行干预,但飞机上始终需要人)。我们相信,这就是AI 技术的优势所在--创建辅助工具,帮助人类领域专家更好地完成工作。 我看不到任何东西能在短期内改变这一点。
    2. 我坚信,AI 在体育领域创造的机遇远远大于人力资本成本。如果说 "机器崛起 "是为了完成高度重复、耗时的工作,或者帮助我们扩大分析产出,但如果说有什么变化的话,那就是为人类创造了更多的空间。例如,AI 可以帮助我们更早地发现潜在的数据收集异常,这意味着游戏中的实时统计数据更加准确,这意味着我们的分析师可以自信地为更多游戏收集更多数据。这意味着我们可以为新故事提供动力。因此,AI 是我们工具箱中的另一个工具,它能让我们和客户做得更多,最终让体育更有魅力。仍有许多故事未被讲述,但AI 正在帮助我们讲述更多的故事。例如,请参阅我之前关于女性体育的评论。
    3. 信任、可靠性和AI 安全性:然而,随着AI 技术的发展,我们需要注意体育数据的来源以及是否是最新的(我以 ChatGPT 为例强调了这一点)。此外,随着语音和视频深度伪造的兴起,我们需要验证所有体育数据的真实性。我在小组讨论中使用的一个例子是,想象一下如果有人使用 "深度伪造 "技术,利用吉安尼斯或其他篮球新星的历史镜头生成他们的表演集锦。一种策略是 "零信任",确保有一个人在现场核实该人是否真的是感兴趣的人。另一种方法是利用可信的数据和分析提供商,由他们自己来验证。这在体育以外的领域已经开始实施,但AI 安全领域正在成为AI 世界的必备条件,它可以用来验证内容是否真实或生成。因此,在制定数据和AI 治理战略时,了解所有数据(以及数据之上的AI 输出)的创建地点和方式,并信任数据源将成为核心支柱。

总之,参加这次会议非常有趣。在经历了多年的社交疏远和视频会议之后,能够作为一个社区在同一地点和时间举行会议是一次非常愉快的经历。为此,我们的Opta Forum 即将在伦敦举行,从演讲者、研究论文和将展示的创新成果来看,我已经迫不及待了。我们希望在那里见到大家!

帕特里克-卢西(Patrick Lucey)博士是体育数据巨头Stats Perform 公司的首席科学家,领导着AI 团队,目标是最大化公司体育数据宝库的价值。帕特里克在AI 领域学习和工作了 20 年,曾在迪斯尼研究院和卡内基梅隆大学机器人研究所担任研究职位,并在 IBM T.J. 沃森研究中心攻读博士学位。帕特里克来自澳大利亚,在南昆士兰大学获得工程学学士学位,在昆士兰科技大学获得博士学位。他已撰写了 100 多篇同行评审论文,并与他人合作撰写了麻省理工学院斯隆最佳研究论文奖(MIT Sloan Best Research Paper Track)的论文,在 2016 年获得最佳论文奖,在 2017 年和 2018 年获得亚军。