メインコンテンツへスキップ
スポーツにおけるAI, 放送局とコネクテッドTV, 連盟と放映権所有者, プロクラブと大学

スポーツにおけるジェネレーティブAIの応用:第2四半期アップデート、パート

By:パトリック・ルーシー

スポーツにおけるAIの最新動向 シリーズの最新回をお届けします、 シリーズをお届けします。パート1では、コンピュータ・ビジョンとジェネレーティブAIの組み合わせによって可能になった、選手追跡データから得られる最新のゲームチェンジャー的洞察を考察する。


OpenAIによるGPT-4oのリリース、そして今週開催されたGoogleの年次I/Oカンファレンスと、AIの分野におけるイノベーションのペースはとどまるところを知らない。スポーツの観点から見ると、2つのことが目に飛び込んできた:

  1. OpenAIのCTOは、GPT-4oの次のステップとして、スポーツの試合をライブで "観戦 "し、"ルールを説明 "する可能性があると述べている。
  2. グーグルのAI検索、特に「ビジュアル検索」が解き放つもの。

サッカーのようなスポーツの試合を観戦し、検索するとはどういうことなのか? サッカーの試合を見るとき、ピッチ上のチームをハイライトし、ウィキペディアでルールを調べて要約を提供するだけで十分だろうか?子供や試合を見たことのない人にはそれで十分かもしれない。

しかし、世界中のほとんどのファンにとって、彼らはスポーツに真摯に取り組んでおり、より詳細なレベルでの情報を求めている。例えば、選手は正しいパスを出したのか、ディフェンダーは正しい位置にいるのか、チームは疲れているのか、このプレーを実行したときチームはどの程度成功するのか、などである。

AIエージェントに期待されるのは、単に初心者のように試合を観戦することではなく、エキスパートのように試合を観戦することだ。しかし、専門家のように試合を理解するためには、AIシステムにスポーツ特有の言語を学習させる必要があり、それは私たちが日々収集しているデータ(イベントデータとトラッキングデータの両方)に基づいている。

トラッキングデータ(すなわち、視覚的な「選手の動きのXとO」)は、特にイベントデータ(すなわち、発生したイベントとその相手)と組み合わせると、AIシステムが専門家のようにスポーツの試合を「観戦」し、プレーを詳細に分析して、コーチやファンにとって具体的で価値ある洞察を生み出す能力を解き放つ。また、スポーツ実況のビジュアル検索も可能になり、さらなる分析・予測アプリケーションの可能性が広がります。

次回は、その方法について深堀りしていきますが、その前に、この重要なインプットであるスケールの選手追跡データが、実際にどのように収集されているのかを理解する必要があります。この記事では、このトピックについて深く掘り下げていきます。

その詳細に入る前に、まず、コンピュータービジョンのトラッキングデータがどのようなものであったのか、それがどのようなものになりつつあるのか、そして、チームやアスリートが最高のパフォーマンスレベルに到達するためにどのように応用されているのかを見てみよう。

コンピュータビジョン(CV)を使った選手(とボール)のトラッキング - 初歩的な歴史

あまり知られていないことだが、スポーツ界におけるコンピュータ・ビジョン(CV)システムの統合は、商業的な導入としては最も早い時期に成功したもののひとつである。 どの分野でもどの分野においても、最も早く商業的導入に成功している。スポーツファンやコーチがどれだけ試合について知りたがっているかが、その証拠だろう!

スポーツにおけるCVトラッキングの使用は1996年にさかのぼり、当初はNHLの試合で赤外線トラッキングシステムを使用してリアルタイムでパックを追跡するために使用され、別名「グローパック」として知られていた(同じ頃、野球中継にバーチャル広告が設置された)。アメリカンフットボールの「イエロー」ファーストラインとテンラインは1997年に続き、水泳やスプリントなどのオリンピックスポーツの「ワールドレコードライン」は2000年のシドニーオリンピックで開始された。 2000年にはホークアイ社によって初のボールトラッキング技術が開発され、2001年のクリケットの試合中継で使用された。

イングランド・プレミアリーグで使われた最初の選手追跡システムは1998年にさかのぼる。このシステムは、マルチカメラを使ってあらゆる角度から試合の映像を撮影し、選手の位置を人間が手作業で注釈をつけるというものだった。

その10年後には、選手追跡のための完全自動化されたカメラベースのCVシステムが導入された。その直後には、格下のスポーツ競技の放送を自動生成するシステムが登場した。しかし、これらの方法は、選手追跡データを使用しない傾向があります。ほとんどの場合、人間が収集したイベントデータ、音声(観客の大声など)、およびCVに基づくシーン検出の変化(例えば、選手のズームイン、観客、コーチ、再び選手のクローズアップ、メインカメラのビューに戻る)をミックスして使用しています。

GPSやRFIDのようなウェアラブルも2000年代初頭に登場した。多くのファンは、これらがサッカー中継におけるトラッキングデータの主要な情報源であると思い込んでいるかもしれない。実際、CVは、その控えめさとスケーラビリティにより、エリートサッカーのライブマッチ内で選手のトラッキングデータを収集するための好ましい方法であることに変わりはない。

コンピュータ・ビジョン(CV)システムはどのように機能するのか?

まず、コンピュータ・ビジョン(CV)の定義とAIにおける位置づけを説明しよう。

CVとは、コンピュータにデジタル画像や動画を理解させる科学である。したがって、CVシステムという場合、基本的にはAIシステムを論じることになる。

サッカーの試合のようなエリートレベルのスポーツイベントからトラッキングデータを収集するためにCVシステムを採用する場合、従来は高解像度のビデオキャプチャシステムからプロセスが始まっていた。

このシステムは、会場のあちこちに戦略的に配置されたカメラで構成され、基本的にフィールド上のアクションを捉える「目」の役割を果たす。

これらの高解像度カメラは、(ハードウェアの設置面積を最小限に抑え、セットアップや撤収を容易にするために)1つの視点から設置することも、ピッチ周辺のさまざまな場所に分散して設置することもできる。

ビデオキャプチャシステムがセットアップされると、この「目」が視覚データをコンピューターに送信し、コンピューターが生の視覚情報をコンピューターが理解できる形式に変換する。このフォーマットは、2Dの "ドット "であったり、3Dの "スケルトン "であったりする。

この変革には次のようなステップがある:

  • 選手とボールの検出:各画像内の選手とボールの位置を特定する。選手検出では、必要な計測の粒度と入力画像のピクセル密度に応じて、画像内の選手の周囲のバウンディングボックスを検出するか、各選手のスケルトンまたはシルエットを検出することで実現できます。ボールの検出には、通常、バウンディングボックスが利用されます。
  • チームと選手の識別: 検出段階に続いて、次の段階は、各選手が所属するチーム(通常、ジャージの色に基づく)と、選手の身元(通常、選手のジャージ番号を特定することによって決定される)を特定することである。ある選手が一定期間見えない場合、このタスクはしばしば「再同定」と呼ばれる。
  • カメラのキャリブレーション: このステップでは、ピッチ上のラインとコーナーを検出し、それを使って選手とボールの位置を実世界の座標にマッピングする。
  • 追跡:最終的に、検出された画像は、試合中にわたって1つのIDに関連付けられます。これは、画像平面(すなわち、私たちが見ているピクセル)とピッチ平面(すなわち、ピッチのトップダウンビュー)の両方で行うことができます。通常、スポーツでは "検出によるトラッキング "が利用されますが、しばしば見逃しや誤検出が発生するため、トラッカーが必要となります。フィールド上には多くの選手がいるため、我々はこれを "マルチオブジェクトトラッキング "と呼んでいます。

ディープラーニング(深層学習)手法は通常、これらの各ステップで採用される。例えば、畳み込みニューラルネットワーク(CNN)は通常、選手/ボールを検出するために利用されるが、チームと選手の識別のための入力表現も形成する。セグメンテーションモデルは、校正のためにライン/コーナー検出器と組み合わせて使用されることが多い。 これらのモデルを学習させるためには、関連するバウンディングボックス(またはスケルトン)、チームID、選手ID、エッジ/コーナーの位置を持つ生画像の膨大な学習例が必要となります。状況によっては、光学式文字認識(OCR)によってスコアボードを自動的に理解することも必要です。これらのステップの例を以下に示します。

記事の後半で、これらのディープラーニング手法がGenAIの手法を活用するトレンドとどのように関係しているのかをつなげるが、ハイレベルで言えば、ここでのプロセスは、スポーツの視覚言語(つまり、xとo)を作成することであり、それは下流の言語モデリングに適していると考えることができるだろう。

なぜ、そしていつ、CVシステムは "点 "か "骸骨 "のどちらかを使って選手を検出し、追跡するのですか?

CVシステムをセンシングあるいは測定ツールとして概念化することは有益である。ミリメートルであれセンチメートルであれ、測定に必要な精度は、必要とされるトラッキング出力のタイプを決定する。これらは次のように分類できる:

  1. 微細な測定(ミリメートル精度):これには、審判タスク(サッカーの半自動オフサイド検出野球の投手分析バスケットボールの審判など)や放送用グラフィックス(アスリートのフォトリアリスティックなアバター生成のセグメンテーションや 放送の拡張など)が含まれます。
  2. 粗い粒度の測定(センチメートル単位の正確さ):試合中の選手のフィットネス測定(例:どれだけ走ったか、高強度スプリントを何回行ったか)、戦術測定(例:チームがどのフォーメーションをとったか、選手がパスをどれだけ成功させたか、バスケットボールの場合、チームがピック&ロールを使ったか)。

半自動オフサイド検出やフォトリアリスティックなアバターのような細かな計測には、骨格トラッキングが必要である。

一方、バウンディングボックスの検出は、粗い粒度の測定には十分で、プレイヤーの "重心 "を推定することができ、結果として2Dの "点 "が得られます。重心トラッキング(上)とボディポーズトラッキング(下)の違いを示す例を以下に示します。

生の視覚情報は、どのようにして有用なデータとそうでないデータに分けられるのか?

歴史的に、トラッキングデータについて考えるとき、それはフィールドやコート上を動き回るプレーヤーを表す2Dドットの活用であった。このようなトラッキング・データは「ビッグ」データだと思われがちです。しかし、それは逆で、トラッキングシステムは圧縮ツールとして機能し、生映像のピクセルから選手やボールの位置や動きなど必要な情報のみを抽出し、芝生や人ごみ、広告などの余計なディテールは削除します。

この圧縮率は1,000,000:1にもなる。したがって、スポーツにおけるトラッキングデータは、究極のビデオ圧縮アルゴリズムやスポーツに特化したコーデックに例えることができ、さまざまなダウンストリーム・アプリケーションを可能にする。

トラッキングデータをイベントデータと組み合わせることで、プレーヤーがどこにいるかだけでなく、何をしているかを示すことができる。これには、インタラクティブな検索、シミュレーション、戦略分析、複合現実アプリケーションなどが含まれる。今後の記事では、これらのアプリケーションをより深く掘り下げていきますが、ここでは基礎となるコンピュータビジョン技術に焦点を当てます。

コンピュータービジョンのトラッキングがこれほど古くからあるのなら、なぜすでにどこでも使われていないのだろう?

一部の一流スポーツリーグでは、Stats Perform社のSportVUのように、会場周辺に設置された複数の専門固定カメラを利用し、会場内コンピュータービジョントラッキングハードウェアとシステムを採用している。

これらのシステムは一般的に、粗い粒度の位置と動きのデータ出力を提供する。これらの出力でさえも、画像の一部を提供しているに過ぎず、上述したように、また後述するように、"イベントデータ "とマージする必要がある。さらに、アクセスは会場を所有するチームに限定されるか、戦術分析のために特定のリーグ内のチーム間で共有される。リーグ外でデータが共有されることはほとんどない。導き出された洞察は、テレビでの分析でも見られることがある。

ハードウェアのコスト、トラッキングデータとイベントデータを統合するための複雑なプロセス、カメラトラッキングデータから実用的な洞察を引き出すために必要なアナリストのリソースのいずれも、固定CVカメラシステムのメジャーリーグ以外での応用が非常に限られていることを意味する。

また、ビッグチーム/リーグが自リーグ内のトラッキングデータにアクセスできたとしても、まだ死角があるということだ。他のリーグや大会のデータにアクセスできないのだ。このことは、これらのリーグから選手をスカウトするとき、カップ戦で他リーグのチームと対戦する準備をするとき、あるいは他リーグの新しい選手やコーチと対戦するときに、大きな制約を生む。

また、プレースタイルやパターンを具体的に予測し、さまざまな戦術をシミュレートするためのモデルを開発し、トレーニングするためのデータ量にも限界がある。つまり、これらの予測やシミュレーションは、その規模や価値に限界があるということだ。

ミリ単位の精度が要求される "審判 "の場合、会場内には高解像度カメラなど、さらに大量のハードウェアが必要となる。会場へのアクセスや信頼性の高いヘビーデューティー・インターネット接続が不可欠だが、会場によっては利用できない場合もある。

アリーナに大規模なハードウェアが設置されていても、追加措置が必要な場合がある。例えば、2022年のFIFAワールドカップでは、半自動オフサイド検出技術が、ボールにRFIDチップを組み込むことで、コンピュータービジョンに基づく選手追跡データを補完した。同様に、クリケットのようなスポーツでは、ドローンの映像が既存のシステムを補完し、野手のポジションを捕捉している。NFLやNHLでは、選手にウェアラブルRFIDチップの装着を義務付けており、ハードウェアの設置面積はさらに拡大している。

良いニュースは、フィットネストラッキングや戦術的洞察のような粗い粒度の測定では、大規模なハードウェアインフラはもはや必須条件ではないということだ。ジェネレーティブAIとディープデータを使用することで、トラッキングとイベントデータの両方からなるスケーラブルなソリューションが、ハードウェアを追加することなく実現できる。広く利用可能なリモートビデオを使用します。

粗視化された洞察のためにハードウェアシステムを超え、遠隔ビデオを利用する

人間である私たちは、リモートビデオ(つまりスタジアムの外で消費されるビデオ)を通じて試合で何が起こっているかを理解することができる。

この可能性は、特に複数のエリート大会が開催されるグローバルスポーツにとっては、非常に大きい。男女サッカーの世界的なプロチーム数千や、バスケットボールの1部リーグ350校以上、無数の国際バスケットボールリーグのトラッキングデータを取得することができる。

CVカメラが設置されていなかった会場の歴史的な映像も、過去にさかのぼって集めることができるということだ。

Stats Perform AI専門チームは、SportVUによる会場内での選手とボールのトラッキング・データ収集のパイオニアであるように、過去8年以上にわたって遠隔トラッキング・テクノロジーの開発のパイオニアである。

私たちの遠隔トラッキングの旅は、2019年に発売された特許取得済みのAutoStatsシステムによって、実際にバスケットボールで始まりました。バスケットボールの遠隔映像からトラッキングデータを取得する際の主な課題は、動いているカメラをキャリブレーションすることと、視界に入ったり入らなかったりするプレーヤーを再確認することです。

AutoStatsのバスケットボールの出力は、現在、オーランド・マジックや戦術などのチームによるドラフト見込み分析に使用されているだけでなく、2023年FIBAバスケットボール・ワールドカップのように、メディアやテレビで新たなストーリーテリングのアングルを生み出す力にもなっている。

AutoStatsと並んで、私たちはサッカーに焦点を当てています。 Opta Visionを提供しています。Opta Vision 野望も同様で、サッカーの全試合から、会場内トラッキングに匹敵する「完全なトラッキング・データ」を生成することでした。そして、それをイベント・データと組み合わせることで、アナリストにとってさらに価値のあるものにします。


パート パート2このアップデートの後編では、パトリックがジェネレーティブAIを応用して、試合中にカメラに映っていないすべてのサッカー選手のフィールドの位置を「推定」し、最初のホイッスルが鳴ってからフルタイムまで、すべての選手の完全で中断のないトラッキングデータをアナリストに提供する方法について説明する。