メインコンテンツへスキップ
放送局&コネクテッドTV、連盟&放映権所有者、プロクラブ&大学

スポーツにおけるジェネレーティブAI 応用:第2四半期アップデート、パートII

By:パトリック・ルーシー

スポーツにおけるAI トレンド特集のパート2では、チーフ・サイエンティストのパトリック・ルーシーが、スポーツにおけるAI トレンドの概要を説明します。 Opta Visionコンピューターvision ジェネレーティブAI組み合わせにより、過去25年間サッカー分析を妨げてきた重要な課題を解決している。 

先週のパート1を見逃した方は、こちらで ご覧いただけます。 


サッカーの映像から選手の位置や動きのデータを取得する際の重要な課題は、遠隔地の映像では試合の視点が統一されないことだ。

リモートビデオで試合を追跡するには、ただ1つのカメラアングルを利用する。それはメイン/ゲームカメラのアングルで、通常はハーフウェイラインのそれなりに高いアングルに位置する。このアングルが唯一利用される理由は、サイドライン、センターサークル、18ヤードボックスなど、カメラのキャリブレーションに必要な情報が含まれているからである。他のビューにはそのような情報が含まれていないため、カメラのキャリブレーションは事実上不可能である。

しかし、ハイアングルのゲームカメラを使っても、通常22人の選手のうち平均11人しか映っていない。また、クローズアップやリプレイが頻繁に行われるため、以前は選手のトラッキングデータを取得することができなかった。

リプレイやクローズアップが使われる時間はゲームによって異なり、クローズアップが最小限のゲームもあれば、多いものではゲームの20%にも及ぶ。

サッカーのようなチームゲームを分析する場合、ゲームイベントの20%、オフボールでの選手の走行の50%が捕捉されなければ、意味のある分析には大きな限界があることは明らかである。

2つの例を見てみよう。最初の例(上)は、22人の選手のうち11人が視界から外れているときを示し、2番目の例(下)は、クローズアップによってすべての選手が視界から外れているときを示している。

この2つの例は、同じプレーの一部分から取ったものである。まず、ゲームカメラを一定時間使用し、各チームの半分の選手を欠場させている。次に、約8秒間クローズアップし、20人のプレーヤーを映し出します。このクローズアップには、スルーパスがピッチの右サイドに出されるまでの3本のパスが含まれている。

クローズアップ時にトラッキングデータを取得しない標準的なリモートトラッキングを使用すると、ほとんどの選手の位置と動きを見逃してしまう。そしておそらくより決定的なのは、この3本のパス、そして最も重要なのは攻撃プレーにつながるラストパスである。

キーパスは稀であり、非常に重要である。したがって、キーパスやキーパスにつながるパス、他の選手の影響や判断を見逃すことは、分析に大きなギャップを残すことになる。

完全な追跡データを得ることでそのギャップを埋めることができれば、完全な分析が可能になる。しかし、どうやって?

AIVision

人間の専門家は、過去に見たことや、異なるチーム、選手、コーチが異なる状況下でどのようにプレーするかについての知識に基づいて、スポーツで物事が見えないときに何が起こっているかを推定するのがかなりうまい。問題は、どうすればコンピューターにこれを学習させ、欠けているディテールを「インプット」できるかということだ。

本連載の以前の記事で説明したように、テキストで訓練されたジェネレーティブAI モデルは、誤った文章を修正したり、欠けている単語を補ったりすることができる。画像に対して訓練されたモデルは、画像を完成させるために塗りつぶしと拡大(インペインティングとアウトペインティング)を使用することができる。OpenAIのtext-to-video技術「Sora」のように、テキスト、画像、動画で訓練されたマルチモーダルモデルは、テキストの説明だけから完全な動画を生成することができる。

サッカーの場合、私たちが作成した言語は、イベントデータ(ボールで何が起こったか、誰が関与したか)とトラッキングデータ(選手の位置と動き)の両方を利用します。Soraがテキストとビデオ間のマッピングを学習したのと同じように、Stats Perform イベントとトラッキングデータ間のマッピングを 学習しました

オンボールイベントの前後にリモートトラッキングデータを持ち、さらにどのオンボールイベント/アクションがどの選手を通して発生したかという情報を持つことで、私たちのモデル(私たちが独自に開発した膨大なOpta データでトレーニングされています)は、これらの選手がどこにいるかを正確に推定(または「インプット」)するのに十分なコンテキストを持つことができるのです。私の見解では、これはマジックです!

地図を「テキストに相当するもの」として使用し、コンピュータ・vision 世界の物体をこの「地図空間」にマッピングするのだ。

視覚データを扱っているため、画像や軌跡生成のような視覚タスクでは、拡散モデルが好ましい。テキストやテキストベースのタスク(ChatGPTやGeminiなど)のようなシーケンシャルなデータには、トランスフォーマニューラルネットワークが適している。ディフュージョンはトランスフォーマーとは異なるアプローチだが、新しいリアルな画像を作成できる(この場合は、行方不明の選手のリアルな軌跡を生成できる)ため、やはりジェネレーティブAI 傘下に入る。

前述したように、この結果は非常に "魔法のよう "である。しかしそれ以上に重要なのは、すべてのパスを他の選手の位置や動きと関連付けて分析できるようになったことである。

より多くの選手、チーム、リーグからインサイトを引き出す大きなパラダイムシフトである。

また、過去の試合から完全なデータを作成することも可能です。この旅が進むにつれて、私たちからもっと多くのことを聞くことになるでしょう。詳細はこちらをご覧ください。プレゼンテーションのビデオへのリンクもあります。

なぜCVシステムはクローズアップ時に追従できないのか?

左下の例でわかるように、選手がはっきり見える(つまり白いジャージ)ので、CVシステムでこれらの選手を検出するのは非常に簡単だ。

しかし、これはグラウンドレベルであるため、"ピクセル空間"(つまり画像)において、それらの選手が他の選手やピッチに対してどこにいるかを推定することは事実上不可能です。このような位置や動きの検出は、"トラッキングスペース"(つまり、トップダウンのピッチビュー)で行う方がはるかに簡単です。

AI 分野の第一人者であるヤン・ルクンは最近、『ピクセル空間』で世界をモデル化することは非効率的であり、解決不可能であると述べた。私たちも同意見であり、その洞察こそが、遠隔地のビデオから完全な追跡データを生成するというこの課題を解決する鍵なのです。追跡データを生成する我々のアプローチは、基本的に「追跡データ空間」をピクセル空間から1,000,000:1に圧縮したものとして扱う。

トラッキング・データ空間内で操作することの利点は、ピッチの大きさ(サッカーでは平均105x68m)に可能性が制限され、さらにイベントのコンテキストが制約となるため、「現実世界に縛られる」ことでもある。

なぜ選手追跡データだけで終わるのか?CVシステムは映像から直接「イベントデータ」を検出できるのか?

まず、「イベントデータ」とは何かを定義しよう。サッカーを例にとると、イベントデータとは、試合中に選手が行うアクションや審判が下す判定のことを指す。イベントデータには、フリーキック、ゴールキック、コーナー、スローイン、タッチ、パス、ドリブル、シュート、ゴール、オウンゴール、セーブ、ヘディング、タックル、インターセプト、ファウル、ペナルティ、イエローカード、レッドカードなどが含まれる。

ポジションと動きのデータをイベントデータと組み合わせることで、ゲームの完全なビューが得られる。この両方がなければ、特定の状況における選手の決断や能力を分析し、予測することは不可能だ。

イベント」について注意すべき点がいくつかある:

  1. 多くの競技は、人間の審判の判断に左右されるため、視覚と聴覚(審判の笛など)の両方というマルチモーダルな性質を持っている。ファウル、ペナルティ、オフサイド、イエローカード、レッドカード、コーナーキック、ゴールなど、人間のレフェリーがそう判断した場合にのみ、その事象は成立する。ゴールキーパーがバーを越えるシュートに触れても、レフェリーがコーナーを認めなければセーブにはならない。
  2. いくつかのイベントには期間がある。パスには開始地点と終了地点があります。
  3. VARやアシスタントレフェリーの介入により、事後的に変更される出来事もある。
  4. 多くの事象は、複数のプレーヤーが近接した状態で発生するため、正確かつ一貫して検出し、所定の定義に従って分類するためには、綿密なアセスメントが必要となる。

チームやメディアがイベントデータを有用なものにするためには、ライブで、一貫して、正確に収集される必要があることを考えると、世界中の何百ものエリート男女のサッカー大会で、異なる見解に遭遇する状況だけでなく、審判の判定(または判定の変更)を解釈するためにも、専門家である人間がループに入る必要性があることがわかる。また、10~12台のカメラがあり、ボールにチップが搭載されている場合でも、2022年FIFA男子ワールドカップで使用された半自動オフサイド検出システムに代表されるように、人間の介入が必要である

つまり、スポーツデータの入力ソースはマルチモーダルであり、人間の収集による入力とコンピュータvision入力が組み合わされていると考えることができる。入力データの相補的な性質と、このプロセスに組み込まれた冗長性により、試合中に何が起ころうとも、入力されたビデオや審判の意思決定に関係なく、完全で正確なデータがキャプチャされることが保証される。

GPT-4oやGeminiはマルチモーダルなので、スポーツ用の画像/映像処理はできないのでしょうか?なぜそれを使って選手のトラッキングデータを作れないのか?

画像やビデオデータを処理するために商用APIを使用する高いコストと待ち時間はさておき、既製のモデルを使用すると、はっきりと見えるプレーヤーの一部しかキャプチャできません。その結果、スポーツのさまざまなニュアンスや多くのエッジケースのために、プレーの大きなギャップなど、重要な「ラストマイル」の詳細が欠落してしまいます。

その理由は以下の通りだ:

  1. トレーニングデータ:GPT-4oやGeminiのようなモデルは、画像とキャプションのペアに基づく一般に入手可能なデータで学習され、関連するトラッキングデータやイベントデータを含むスポーツデータのドメイン固有の詳細なシーケンスではありません。
  2. 言語:GPT-4oやGeminiのようなモデルは、画像/ビデオとテキストの相関関係を学習している。前述したように、私たちはトラッキングデータとイベントデータの相関関係を学習したいと考えています。

もう一つの考え方は、スポーツデータ(トラッキングとイベント)は独自の "言語 "であり、GPT-4oとGeminiは自然言語(画像とキャプション)に最適化されている。

理論的には、画像/ビデオとイベントデータのペアリングの間でモデルを学習することは可能ですが、ビデオとトラッキングの圧縮(つまり1,000,000:1)のため、実用的ではありません。トラッキングデータは、データをスポーツの現実に基づかせ、トラッキングデータはそれ自体、視覚化、インタラクション、解釈可能性のために非常に有用なアウトプットです(次回の記事で紹介します)。

AI エージェントにスポーツの試合を生で観戦させ、ルールを説明させることは、試合を分析することと同じなのだろうか?

これは良い質問で、言語を理解する(あるいは初心者や専門家のようにトピックを理解する)ことの違いの核心に迫っている。 自然言語に基づく現在のマルチモーダルLLMは、ビデオを認識し、それがサッカーの試合であることを識別することができる(そして、チームや選手の何人かを識別することができる。)そこから、サッカーのルールや、ウィキペディア(インターネット上で公開されているハイレベルなテキスト情報)で検索してすぐに得られるような、関係するクラブの歴史などを説明できるだろう。

しかし、どんなスポーツが行われているかを特定することと、ゲームで何が起きているかを詳細に検知することは、まったく別のことだ。GENAIの次の波は、単にどんなスポーツが行われているかを識別することではなく、それは初心者でもできることだが、「専門家」のように試合を観戦することだ。そのためには、専門家の言葉が必要だ。サッカーであれば、チームがどのフォーメーションでプレーしているのか、ある場面でディフェンダーはどこに「いるべきだった」のか、ある選手はどのようなパスを「出すべきだった」のか、パスミスがどのような代償となってカウンター攻撃につながったのかを理解することである。また、それを "ライブ "の要素につなげることも不可欠である。現在の市販のLLMでは、ナレッジ・カットがあるためできないことだ。つまり、イベントとトラッキングデータの両方を持つだけでなく、スポーツデータベースを「ライブで最新」にしておくことは非常に重要であり、専門家のように試合を「見る」ためには絶対に必要なことなのだ。

次回は、イベントとトラッキングをスポーツの生の言語として使用し、専門家のように試合を "観戦 "できるように変換する方法について説明します。要するに、イベントとトラッキングデータは、言葉(テキストとビジュアルの両方)として機能します。

スポーツデータは構造化されているのか、それとも非構造化なのか?

明確なイベント(パスやシュートなど)という意味では、データは構造化されている。データベースに保存し、検索することができる。また、トラッキングデータをアクションのフレームごとに行として保存することもできる。

サッカーのようなスポーツは連続的なゲームであり、22人の選手が動き、イベントが起こるという全体像をモデル化するためには、これらを独立してではなく、逐次的につなぎ合わせる必要があるということだ。 ここで例えるなら、本の中の単語や文章をひとつひとつ別々に保存するようなものだ。

各イベントに関連するトラッキングデータとイベントデータは、本の中の文章と考えることができます(ゲームは本です)。私たちが収集したトラッキングデータとイベントデータを考えるもう一つの方法は、それらをアトムとして考え、首尾一貫した構造にまとめることです。

しかし、アトム(つまり、イベントや選手)の数は、宇宙に存在するアトムの数よりも多い順列を含んでいる!

生成AI モデルによって、構造化されていない生の原子から正しい構造を学習することができる。

基本的にAI 行うことはすべて、表現、つまりコンピューターが学習するための正しい入力構造を得ることにある。

トラッキングデータとイベントを一緒に生成するには、すべての選手の位置、速度、加速度、そして以前のイベントを考慮する必要がある。これらはすべて時間的に変化する。上記のように、これは宇宙に存在する原子の数よりも多くの順列を持っています。そのため、生データを使ったモデルによって、正しい構造(これは別の言い方をすればエンベッディングとして知られています)を学習することができるのです。

次回の記事では、トラッキングデータをさまざまな方法で活用する方法について、特に専門家のように試合を観戦する方法だけでなく、視覚的かつインタラクティブに検索する方法について深く掘り下げていく。

前回の記事でロボサッカーについて少し触れられましたが、何か関係があるのでしょうか?

この記事では、スポーツにおけるコンピュータvision 歴史について話し始めましたが、1990年代にスポーツにおけるコンピュータvision 最初の活発な分野の1つであったロボサッカーについては触れませんでした。これは、マネーボール革命が現実のスポーツに焦点を当てるようになる前の、最も活発な研究分野の1つでした。

ロボサッカー(ロボカップ)の目標は、2050年までに、完全自律型のヒューマノイドロボットで構成されるチームが、実際のフィールドで、世界最高の人間のサッカーチームを打ち負かすことである。このレベルに到達するためには、2つのことが必要だ:

  1. ボストン・ダイナミクス社が最近発表したロボットを基に、人間のように動けるロボットを作る。
  2. このロボットに人間の選手のように世界を「認識」させるのだ。しかし、そのためには、ロボットがサッカーの動きや構造を学ぶのに十分な事例を作る必要がある。

また、人間の専門家のようにゲームを読むロボットを訓練するのに必要な完全なデータ量を提供し始めるでしょう。

しかし、スポーツの素晴らしさは人間によってプレーされることであり、予測不可能で、流動的で、ライブで、ユニークで、共有された体験を人々に提供し、楽しんでもらうことである。チェスやジョパディ!、囲碁をコンピューターに教えるようなものだが、もっと難しい)しかし、私はロボカップのような挑戦は、人間がいかに素晴らしいか、そして認知的にも肉体的にも最高レベルのパフォーマンスを発揮するために必要な準備、練習、コーチングのレベルを示すものだと思う。


今後の記事では、サッカー、バスケットボール、テニスなどのスポーツを理解するために、コンピュータvision トラッキングデータをどのように利用できるかを紹介する。 また、予測においてジェネレーティブAI 果たす役割についても取り上げます。