体育如何引领下一波改变游戏规则的 GenAI 进步 -Stats Perform

首席科学家帕特里克-卢西（Patrick Lucey）将为您带来《2024》的最后一期《体育领域AI 的最新趋势 》。2024.在本期更新中，卢西博士将讨论专业化企业 GenAI，以及如何将改变游戏规则的最新创新应用于我们的体育世界。

Stats Perform 推出我们的 2025 年体育迷参与、货币化和AI 趋势调查报告因为今年是 ChatGPT 发布两周年，它改变了一切。AI 从一个仅用于特定任务的小众工具，变成了一个每周有数亿人使用的通用工具（ChatGPT刚刚宣布，他们在全球每周有 3 亿用户）。

虽然仍存在幻觉问题，但对于全球大多数知识工作者来说，人工智能是终极辅助工具，因为它能让工作者完成比以往更多的任务，这些知识工作者使用人工智能完成一般问题/解答、校对、翻译、头脑风暴和编码等任务。事实上，我们调查的众多结果之一显示，越来越多的广播、球队、联赛、联合会、赞助商和体育博彩公司的体育媒体高管正在以各种方式采用AI ，以帮助增加受众和实现内容商业化，而且他们发现这样做比那些落后者更容易。

当然，AI 的创新并没有随着 ChatGPT 的首次发布而停止。似乎每周都有新的创新。例如，在过去的几个月里，就出现了一些令人惊叹的新创新。除了AI 先驱杰夫-辛顿（Geoff Hinton）和德米斯-哈萨比斯（Demis Hassabis）分别因物理学和化学获得诺贝尔奖之外，最近苹果智能公司（Apple Intelligence）的产品发布、Meta 的雷朋智能眼镜的改进。OpenAI o1 的复杂任务推理模型令人惊叹，最近谷歌发布了双子座 2.0。

然而，就在我们期待 OpenAI 最新发布的 GPT-5（或猎户座）模型时，越来越多的传言称，创新正在枯竭，我们正在碰壁--最初通过使用更多数据和更大模型实现的快速改进似乎已经达到了极限。谷歌首席执行官也有同感，他表示，目前的AI 乐虎国际手机版下载进步"山路更陡"。

虽然这其中有一些实质内容，但与您最初的想法相反，这并不意味着 GenAI 领域创新的终结。远非如此！

相反，我们认为这预示着 GenAI 创新进入了一个新阶段。这一阶段以企业用例为中心，我们称之为企业 GenAI。在本文中，我们将强调这意味着什么，以及它如何应用于我们的体育世界。

当前的法学硕士是否碰壁？为什么？

在某种程度上，我们目前基于文本的 LLM 用例（如 ChatGPT）已经达到了某种程度的门槛。原因很简单：这是因为缺乏可供模型学习的新数据。

当今流行的 GenAI 应用中使用的大型语言模型 (LLM) 是在海量数据的基础上训练出来的，其中大部分是文本，但也有音频、图像和视频，这些数据主要来自互联网。

从根本上说，这些模型已经最大限度地利用了这些公共数据来源。

然而，除了我们在互联网上找到的文本和图像数据外，还有更多的信息。

扩展模型应用和性能

现在，公司不再训练更大的模型，而是希望提高现有模型的效率和速度（参见Meta 发布的 Llama 3.3），同时利用新的、补充的、特定领域的数据源扩展这些模型可以完成的任务类型。有了这些新的数据源，就可以创建新的任务和解决方案。

例如，这意味着法学硕士现在可以涉足更复杂的数学/几何和物理领域，OpenAI 最近就利用他们的 "o1 "模型做到了这一点。在物理、生物和化学问题的基准测试中，o1 模型的准确度超过了博士水平，并在美国数学奥林匹克竞赛的预选赛中跻身全美前 500 名学生之列。谷歌新推出的双子座 2.0 模型还能让AI 助手通过其"深度研究 "工具完成网络搜索和撰写详细报告等任务。

像这样的新任务比大多数任务都要复杂得多，因此需要不断改进现有方法，使模型能够解决这些任务。在解决数学/几何/物理问题或研究复杂课题时，模型需要绘制出一系列步骤（称为 "思维链"），然后才能给出答案。

这类模型被称为 "推理 "模型，因为它们似乎模仿了人类在回答问题之前是如何 "思考 "的（不过，正如Yann LeCun最近在纽约哥伦比亚大学的演讲中所强调的，这类模型仍然缺乏有效规划的能力，更多的只是一种近似值）。

但如上所述，推理模型并没有变得更加智能（即从相同的数据中学习新的任务），而只是通过首先加入一组新的数据（即数学/物理/化学）来扩展到新的任务。

然后，对它们进行优化，使其在一系列基准测试中达到最高性能。

因此，要想提高模型的感知性能或任务类型，关键在于在新的数据集上训练现有模型，然后针对这些新任务进行优化。

我们在计算机vision 领域的各种分割模型中都看到了这一点，这些模型需要详细的分割图（即在训练集中的每个像素都标有其所属对象/片段的标签），视频游戏代理可以建议下一步该做什么，或者开始采用嵌入式计算，其中模型正在增加捕捉点击/键入的模式。

而且，改进或扩展当今大型语言模型功能的唯一真正途径是使用差异化数据。

但是，这些新的差异化数据集存在于何处呢？

其中一个领域是 "主权AI"，即国家可以访问自己的独特数据（如医疗保健、交通和国防），并将这些数据作为建立模型的燃料，从而解决特定国家的问题。另一个领域是商业领域，企业或 "Enterprise"（企业）拥有自己的独特数据，可以解决企业特有的问题，因此被称为 "Enterprise GenAI"。

企业 GenAI

根据 IBM 的数据，企业可用数据（即公司日常收集的数据）中只有不到 1%可在互联网上获取。(即企业在日常工作中收集的数据）可在互联网上获取。

当然，剩下的 99% 的企业数据是一个巨大的信息库，其中包含丰富的模式和洞察力，可用于帮助执行新的特定任务，并更高效、更有效地推动人类创新。

因此，企业数据是一块肥沃的土地，将企业数据用于生成式AI 似乎是该领域继续发展的最可能途径。

就企业 GenAI 应用而言，根据数据类型的不同，有两种关键用例：

通用企业数据：这是指企业私有的文本、音频和图像/视频数据的通用类型。就文本数据而言，包括内部通信、客户互动、运营文档、销售和营销材料、产品和技术文档、法律和财务记录、人力资源数据以及外部通信。当前基于文本的 LLM 通过检索增强生成 (RAG) 技术得到了增强，为查询、访问、搜索和翻译这些文档提供了一个很好的起点。通过对模型进行微调，可以进一步提高这些能力。同样，当前的 LLM 可用于音频转录和摘要，而视觉语言模型 (VLM) 则可处理该数据类别中的通用对象检测等任务。
专业企业数据:这包括企业或其运营所独有的数据类型，如传感器生成的数据、时空数据（如 GPS 坐标或事件跟踪），以及来自机械、发动机或其他设备的数据。我们将在下文中详细探讨其中的一些数据。这些数据集通常需要专门的处理和分析技术。与通用数据不同，专业数据具有高度的领域特定性，是根据公司的运营或工业背景量身定制的，通常代表了公司更有价值的知识产权。利用这些数据的步骤包括：i) 收集数据；ii) 将数据转换为一种语言；iii) 利用这种语言。

在本文的其余部分，我们将重点介绍利用专业企业数据的 GenAI 应用程序。

体育与专业企业数据有何关联？

虽然体育运动中存在通用数据，但捕捉球员在赛场/球场上实时、动态表现的体育数据是世界上最有趣、最独特、最 "专业 "的数据集之一。它是动态的，如果能够实时访问，就会产生巨大的价值，但它也需要广泛、深入、统一和一致，以便能够高效和有效地用于建模--当然，它还需要准确。这些数据的价值在于，它能客观地重构性能故事--数据越精细，重构效果就越好。从另一个角度看，这些数据可以被视为体育运动的通用语言，而在Stats Perform，我们创造了这种语言。

与大多数复杂的语言一样，体育语言也是多模式的。主要模式包括 "赛事数据 "和 "球/球员运动追踪 "数据（请参阅我们之前发布的《体育领域AI 的最新趋势》的第一部分和第二部分，以了解相关描述）。).

虽然每天有超过 10%的互联网搜索来自体育，但目前网络上可用来训练模型的数据形式都是过时的、零散的，而且往往是浅层的和狭隘的。

另一方面，像Stats Perform的大型Opta 数据库这样的专有 "企业级 "数据集，在广度和深度上都是最新的、完整的、全面的、持续收集的，并且包含其他任何地方都无法提供的大规模信息，如高度详细的赛事数据和场外位置与移动数据。

基于这些特点，我们的 "专业 "体育数据集与物流、制造、运输、自动驾驶汽车、气象和生物领域收集的数据相似，是未来AI 应用的下一波浪潮的燃料。

体育以外的专业企业 GenAI 有哪些实例？

在第一波生成式AI （如 ChatGPT）浪潮中，推动这一浪潮的燃料是大量的通用文本数据。文本数据是一个很好的起点，因为有大量的文本数据可以公开获取，而且这些数据具有连续性，这是 LLM 蓬勃发展的两个关键属性。除体育领域外，还有许多领域拥有海量的序列数据，这也是法律硕士蓬勃发展的黄金领域--它们有可能改变世界（或已经在改变世界）。下面我们重点介绍四个领域。

第一个例子是自动驾驶汽车的使用，目前美国的一些城市已经开始使用无人驾驶出租车，最近一次是上个月在洛杉矶推出的，迈阿密也即将推出。.第六代 Waymo Driver 包括 13 个摄像头、4 个激光雷达、6 个雷达装置和一系列外部音频接收器，以及用于监控环境和安全自主导航的高分辨率地图。从这些丰富的输入数据源中，这些机器轴使用了自动驾驶汽车专用的基础模型，该模型将所有这些信息源映射到一个模型中，以测量和预测自动驾驶汽车世界特有的行为。.

第二个例子是天气预报。无论是交通运输、农业、公共安全还是日常生活，准确预测天气对所有行业都至关重要。目前的天气预测方法需要超级计算机来计算复杂的物理方程，这需要时间和计算能力。此外，要想获得最准确的预测，还需要高分辨率的图像，而这是很难大规模获得的。然而，最近的研究表明，使用一种基础模型可以进行精确预测，这种模型需要的计算量较少，但也可以利用低分辨率输入，并达到同样的精确度。.本周，谷歌的 DeepMind 公司刚刚发布了一个名为 GenCast 的模型，它能比目前使用的最佳系统更准确地预测天气，而且只需几分钟就能完成，而目前的模型生成预测结果需要几个小时。.

这与围绕机器人技术的第三个例子相得益彰。无论是单个机械臂识别、分拣和处理您的包裹，还是机器人监控农场，识别并以最佳产量采摘您的水果或蔬菜。还是监控农场、识别并以最佳产量采摘水果或蔬菜的机器人？除了准确的天气预报等其他输入信息外，传感器还能测量特定领域的属性，从而实现关键突破。这项工作带来的影响是，包裹可以准确及时地送到您的手中（这意味着价格会更便宜，收货也会更及时），食物不仅可以在最佳时间采摘，还可以在不造成浪费的情况下生产出更多的食物。

第四个例子与化学和生物学有关。正如文章开头提到的，DeepMind 团队的首席科学家因其在AlphaFold方面的工作获得了诺贝尔化学奖。的研究成果获得了诺贝尔化学奖。这一点非常重要，因为这种方法可以用于疾病的药物开发，还可以利用人的各种背景因素进行有针对性的药物治疗--而这两种方法都无法实现，因此也是目前方法的主要缺点。.这些方法的潜力还可用于制造新的清洁生物燃料，以清洁和可再生的方式解决能源短缺问题，或用于分解废品，如目前地球上的一个问题--塑料。

这四个例子的共同点是，它们都依赖于大量的连续数据。对于自动驾驶汽车来说，输入的不是文字，而是激光雷达的点云、RGB 摄像机的图像、细粒度地图以及来自汽车内部的信息。对于天气，输入是来自不同地点的各种传感器输入。以生物学为例，输入的不是文字，而是蛋白质结构和/或 DNA、RNA。每个领域都有自己的语言--一旦建立了这种语言，就可以进行语言建模（最好是大型语言建模（LLM））。然后，这些模型就可以准确地表示、描述和预测在这些特定的 "专业企业 "世界中发生的事情。

变形金刚--万能学习器"只需添加序列数据

一旦掌握了大量的序列数据，就需要使用正确的机器来学习这些数据。这种机器的关键部分就是 "变换器神经网络"，它能比以往的机器学习方法更好地将信息上下文联系起来。ChatGPT 和其他 LLM 已经表明，变换器是一般序列数据（如文本、图像/视频、音频）的优秀学习者。但人们经常忽略的是，这些模型还可以用于其他形式的序列数据，例如体育数据，我们将在下文中介绍。

不过，为了直观地了解这些转换器是如何工作的，让我们用两个使用文本数据的例句（本例改编自介绍论文原文 "Attention is All You Need Paper "的博文本例改编自介绍论文原文 "Attention is All You Need Paper"的博文）。)

"那人在银行存了钱"
"那人坐在河岸上"

要让计算机理解句子，我们首先要对句子进行标记化，也就是将单词（或子单词）转换成数字。在使用转换器之前，我们会独立表示这些单词，这意味着计算机会用相同的数字表示单词 "银行"。

但是，如果你看看句子中围绕 "银行 "一词的词语",我们人类就会明白它的不同含义。使用变压器模型我们可以有效地从从相关词语周围的词语.当出现这种情况时，模型就会了解到这些词具有不同的含义，因此代表这些词的数字代表就会不同（见下图).

体育领域的专业企业 GenAI：利用体育数据的连续性

现在你可能会问，上述例子对体育有什么重要意义？首先，我们的专业体育数据集是有顺序的。如果我们看一支球队的首发阵容，比如曼城，那么这支球队基本上就是一个句子。每个球员都是一个词，我们可以将这些词从守门员一直排到前锋。有些球员（即单词）的影响力比其他球员更大，比如埃林-哈兰德（Erling Haaland）。当他上场比赛时，他会对其他球员的表现产生影响（即球员们会努力为他创造进球机会），同时他也会对对手的表现产生影响。但如果哈兰德休息或受伤，而杰克-格里利什上场（见下文）--他将影响球员们的表现（也就是说，改变一个 "词 "就会对句子的意思产生巨大影响，或者说会影响球队的表现）。就像之前强调的天气示例一样，使用带有球员表现顺序表示的转换器，我们可以对未来球员的表现做出更好的预测，而目前的预测方法是将球员彼此独立开来。

此外事件数据捕捉到的是球上发生的事情，就像一句话，但我们得到的不是单词，而是球员所做的动作（例如，球员 A 在 X,Y 位置传球传球时间 T)，我们有这些事件的序列，直到半场或比赛结束。跟踪数据在每一帧都能捕捉到球员和球的位置和运动，在空间和时间上也是有顺序的。空间和时间上都是有顺序的。使用变换器不仅可以帮助我们更有效地模拟数据的顺序性，还可以还能还能让我们在同一参照系中获得这两个信息流，从而使我们能够进行以下工作轨迹生成等工作。见下图).

一旦我们建立了这些 "基础 "模型，我们就可以为这些模型添加其他信息源或模式。我们在体育领域所做的就是一个很好的例子，说明了如何利用专业化的企业数据，从而建立专业化的企业语言模型，在我们的案例中，这有助于更好地预测、模拟和更好地衡量成绩，最终使体育迷受益。

2024 年是激动人心的一年，而 2025 年将会有更多令人兴奋的进步。感谢您的阅读，如果您是第一次阅读，请查看我们之前更新的体育AI 第一部分和第二部分，并在此申请访问我们的 2025 年体育迷参与、货币化和AI 趋势调查。

体育如何引领下一波改变游戏规则的 GenAI 技术进步