跳至主要内容
联合会和权利持有人

GPT-4:这对体育有什么改变吗?

Stats Perform首席科学家帕特里克-卢西(Patrick Lucey)谈 ChatGPT 的进展、法学硕士以及下一步的关注点。

作者:Patrick Lucey帕特里克-卢西

2022 年 11 月,人工智能研究实验室 OpenAI 发布了风靡全球的 ChatGPTAI 应用程序。驱动 ChatGPT 技术的技术是名为 GPT-3 的大型语言模型(LLM)(或更准确地说是 GPT-3.5--如需了解 LLM 是什么,以及我们对这项技术的初步看法和它与体育的关系,请点击这里查看我们的两部分系列文章 (第一部分& 第二部分).几周前,OpenAI 发布了新的大型语言模型 (LLM)--GPT-4。根据 OpenAI 的说法,新模型可以做更多的事情,而且比以前的 LLM 更准确。但真正让人大跌眼镜的是图像理解能力的推出,尤其是 OpenAI 的联合创始人上传了一张笑话网站的设计图[链接]。几天后,谷歌也发布了研究模式的聊天机器人 "巴德"。 有很多不错的综述文章可以让你了解最近发布的这两款产品的功能,但在本文中,我们将讨论 GPT-4 模型对体育运动的影响。这里分享的想法是我上个月在麻省理工学院斯隆商学院(MIT Sloan)发表的演讲(摘要见下文)的总结。这里的摘要)会议和Opta Forum上的发言。

GPT-4 是否解决了体育运动中的 "Facts幻觉 "问题?

在之前的文章中,我们强调了在体育运动中使用 ChatGPT 时存在的主要问题:1)它对事实产生幻觉;2)它所训练的数据集的截止日期是 2021 年 9 月。让我们来讨论第一个问题。如前所述,GPT-4 应该更加准确--让我们看一下我们在上一篇文章中使用的例子(作为提醒,我们问切斯林-科尔比在 2019 年橄榄球世界杯上得了多少分? 它给出的答案是 2 次(一次对阵新西兰队,另一次对阵日本队)(这是错误的,他有 3 次得分--小组赛对阵意大利队 2 次,决赛对阵英格兰队 1 次)。

从上图可以看出,当聊天机器人被问到同样的问题时,它的回答会受到更多限制。因此,回答是正确的,因为他确实在橄榄球世界杯上取得了 3 次进球,但却缺乏前一个回答中提供的细节。当要求提供更多细节时,我们得到了这样的答案:

从结果来看,它答对了部分问题(对意大利队的 2 次尝试),但答错了另一部分问题(他在对加拿大队的比赛中没有得分,但在对英格兰队的决赛中取得了一次尝试)。因此,关于 GPT-4 能否解决幻觉问题--这仍然是一个问题,而且由于这些人工智能模型的自回归性质(即模型根据前一个单词预测序列中的下一个单词,而不与任何现实知识挂钩),这个问题可能会长期存在。

上周在纽约大学的一次演讲中,AI领域最杰出的人物之一扬-勒康恩(Yann LeCunn)强调了这一问题,并表示目前的LLM方法注定要失败,因为它们永远无法解决这种幻觉问题。这些模型需要以某种方式与现实联系起来(见此处的幻灯片)。参见幻灯片这与我们在前几篇文章中所说的一致,即我们需要将输出结果与现实世界联系起来:至关重要的是,体育运动的真相来源于像Stats Perform 这样值得信赖的体育数据提供商。 人们对这一问题以及可能造成的危害和错误信息的担忧不言而喻--1000 多名科技领袖联名发表公开信,要求暂停开发这些 LLM,因为它们 "对社会和人类带来了深远的风险"[ ]。链接].更多内容请见末尾。

如何拥有最新的数据集?这方面有什么变化吗?

是,也不是。虽然幻觉问题仍将存在,但如前所述,OpenAI 上周为 ChatGPT 发布了一系列插件,使聊天机器人能与 3d 和 4d 聊天机器人互动。部分应用程序接口[...链接].有了这些插件的进步,就有可能将 ChatGPT 功能纳入现有的代码堆栈,使开发人员能够检索实时信息调用。敬请关注。

此外,这还提出了一个问题,即如何将 ChatGPT 等人工智能技术用于现场环境。一般来说,人们的大多数问题都是基于不会改变的静态知识库。然而,体育则不同,尤其是现场比赛。显然,你可以问一个简单的问题,比如 "谁赢了?"或 "谁进球了?",但这些答案目前已经可以通过 "pre-ChatGPT "聊天机器人获得。要想获得更深入的洞察力,实时查询是很困难的,因为在对游戏中的特定元素进行查询时,可能已经发生了其他事情,这就降低了查询的价值或趣味性。这就是为什么需要自动查询或 "亮点检测",它由有趣的事件触发。我们的 PressBoxLive 平台就具备这种功能,当进球等有趣事件发生时,我们可以立即自动生成相关的有趣见解。这样做的好处是可以扩展。例如,在最近的一场德乙联赛(2.Bundesliga)中,比勒费尔德队对阵纽伦堡队的比赛中,当有进球发生时,我们可以像在顶级联赛中一样对该场比赛生成洞察,这突出了AI 在体育领域的价值--扩展能力(并且是实时的)。 这也不仅仅是文字洞察,我们还可以在视频上自动生成叠加内容,为比赛表现增添色彩,我们最近在网球比赛中就采用了这种方法。

输入图像和图纸的功能很酷 - 我们能否在 ChatGPT 中输入运动图像或图纸并获得输出?

正如上一篇文章中提到的,在Stats Perform,我们开创了互动体育分析领域,您可以画出一个比赛,然后检索类似的比赛,或者对比赛进行分析[......]。链接],甚至可以利用我们的 "鬼影"(Ghosting)技术预测球员在特定情况下的位置[链接].不过,就 GPT-4 演示而言,其工作原理略有不同。文本到图像或图像到文本转换器网络从大量的文本到图像对(即每张图像都有文字说明,如标题)中学习。对于这个训练集,转换器会学习文本描述与图像部分之间的相关性。由于这些超大型神经网络的出现行为,它可以对图像的某些元素进行推理(例如,为什么某个图像很有趣?)

对于体育运动,我们仍在不断扩大事件的词汇量,可以将其视为比赛的标题。仅有事件流是不够的;利用我们的衡量标准和机器学习模型,我们可以检测动作的质量(例如利用 xG 检测射门,或利用我们的足球控球值检测传球)。扩大词汇量是一回事,但扩大数据量则是需要做的另一件事。

这就是为什么 Opta Vision项目如此重要的原因,因为它做了两件事:a) 扩展了足球赛事词汇;b) 增加了我们拥有这些丰富词汇的比赛数量。

此外,在将扩展事件流(可视为字幕)与跟踪数据配对后,我们可以通过这个配对数据集(即扩展词汇和跟踪数据)来增加围绕每场比赛进行推理的能力。我们目前正处于临界点,这将引领体育分析技术进入下一个阶段。

法学硕士:信任、破坏和对社会的影响

如上所述,由于 LLM 技术令人印象深刻且日新月异,世界上许多知名人士开始对这种技术对社会的影响和潜在危害保持高度警惕,并因此呼吁暂停使用这种技术。这是一个极其重要的话题,但就体育而言,这只是 我的个人观点我目前是如何看待这个问题的:

  • 作为一种辅助工具,基于 LLM 的AI 聊天机器人在辅助学习和提高效率方面改变了游戏规则。与所有技术一样,你必须知道它能做什么,不能做什么。在我看来,这些AI 工具是终极辅助工具,可以帮助新手提高效率,麻省理工学院的研究人员在最近的一项研究中强调了这一点[......链接].另一项研究表明,使用 GitHub Copilot 的开发人员完成任务的速度比对照组快 55.8% [ LINK ]。链接]. 知识库是静态的、可靠的、最新的,能够对特定的知识点进行提问和深入研究是非常了不起的(但关键是要能提出正确的问题,并了解答案是否与你要解决的问题相关)。
  • 但是,必须要有防范措施。如果数据是可信和可靠的(比如我们在Stats Perform 所拥有的数据),那么将这些数据用于此类目的并没有什么坏处,但必须确保事实得到保留(而不是幻觉)。在体育以外的领域,事实和虚构混杂在一起,这就更成问题了,因为错误信息可能会被传播,因此需要进行检查,以防止此类事情发生。此外,保护私人和敏感信息也很重要,因为这些信息一旦进入法律信息管理系统,就几乎不可能阻止其传播。
  • 在体育运动中,有一些天然的保护措施。例如,在Stats Perform,我们是比赛数据公共记录的保存者,但我们并不掌握球员的医疗、心理、训练和合同信息等私人信息(我们也从未指望过)。这种天然的防护栏提供了保护。这也为球员/俱乐部/客户提供了使用我们的比赛分析/模型作为输入的机会,然后他们可以将其与他们拥有的私人数据合并。
  • 此外,人类需要成为最终的决策者(他们需要知道技术何时出错,何时可以信任)。你可以把它想象成飞机上的飞行员。在过去 100 年的商业航空旅行中,飞行员的数量没有变化。然而,飞机上的技术却有了巨大的进步,从而改善了飞机旅行的决策、安全性和效率。尽管如此,飞行员的数量仍然保持不变。从根本上说,AI 技术在我们的运动领域所做的就是创造辅助技术,帮助领域专家做出最佳决策,并尽可能提高效率。
  • 此外,世界并不只存在于自然语言或体育数据中。有许多事情我们仍然无法数字化(由于上述公共数据与私人数据的区别,可能也不会数字化),例如球员前一晚是否睡得好,是否与另一半吵架,孩子是否生病/不舒服,或者球员性格之间的互动。决策者能够通过他们所拥有的许多传感器输入将这些信息数字化,因此,他们手头会有最相关的信息,从而做出最佳决策。我们的工作就是在现有数据的基础上为他们提供最好的输入。 

人工智能领域每天都在发生变化,我们将尽最大努力让大家了解这一领域的最新进展以及它与我们的关系。在下一篇文章中,我们还将深入探讨Opta Vision 项目及其与自动驾驶汽车领域的相似之处。敬请关注。

帕特里克-卢西(Patrick Lucey)博士是体育数据巨头Stats Perform 公司的首席科学家,他领导的AI 团队的目标是最大化公司体育数据宝库的价值。帕特里克在AI 领域学习和工作了 20 年,曾在迪斯尼研究院和卡内基梅隆大学机器人研究所担任研究职位,并在 IBM T.J. 沃森研究中心攻读博士学位。帕特里克来自澳大利亚,在南昆士兰大学获得工程学学士学位,在昆士兰科技大学获得博士学位。他撰写了 100 多篇经同行评审的论文,并与他人合作撰写了麻省理工学院斯隆最佳研究论文奖的论文,获得了 2016 年最佳论文奖以及 2017 年和 2018 年的亚军。