2017年のOptaProForumポスターを発表したマーティン・イーストウッドは、自身の仕事を文書で分析し、それを支えるプロセス、取られたアプローチ、途中の課題、そしてそれがフットボール・アナリティクス業界によってどのように受け取られたかを論じている。
ツイッターでマーティンをフォローペナルティブログ
はじめに
67分、クリスタル・パレスはホームでAFCボーンマスに1-0で敗れている。アンドロス・タウンゼントがボックスの外でボールを持ち、もっとゴールに近いところにパスを出せる味方がいたにもかかわらず、シュートを選択。ボールはGKの手に飛び、ボールを奪われる。
試合中のサッカー選手の判断をどう評価するか?
これは、今年のOptaPro AnalyticsForum ために私が自問自答したことであり、私が落ち着いた解決策は、機械学習を使用することでした。機械学習に出会ったことがない人のために説明すると、機械学習は人工知能の一種であり、明示的にプログラムされることなくコンピューターに学習能力を与えることができる。機械学習は、グーグルの自動運転車がどこに行くべきかを知る方法や、フェイスブックがあなたの写真に写っている友人の顔を自動的に認識する方法である。
タスクの第2部分は、これらの洞察をいかにしてサッカー・チームが利用できるようにするかということだった。機械学習は、複雑な数学をたくさん含むかなり重いテーマなので、このアイデアをサッカークラブに関連する形で提示するにはどうすればいいのだろうか?
データ
私はサッカーを解決するという壮大なビジョンを持って仕事を始めた。グーグルは最近、ディープラーニングと呼ばれる機械学習技術を使って、ボードゲーム囲碁の世界チャンピオンを倒した。しかし、すべての分析を完了し、プレゼンテーションをまとめるまでに6週間しかなかったので、私は自分の野心をより現実的なレベルに抑え、純粋にペナルティ・ボックス内とその周辺でのチームの攻撃行動を評価することに集中することにした。
そのために、私は提案書の一部として、Opta オンボールイベントデータとChyronHegoのトラッキングデータの両方を申請した。Opta データは試合中に発生したオンボールイベントのセットを提供し、オプティカル・トラッキング・データはピッチ上の全選手のXY座標を1秒間に25回提供する。
良い決断を見極める
目的はサッカー選手の決断を評価することなので、何が良い決断で何が悪い決断かを判断する方法が必要だった。いくつかの選択肢を検討した結果、選手の行動がチーム全体の得点の可能性を高めているかどうかを見ることにした。
この得点の可能性を計算するために、私はゴールを狙う選手の位置と相手選手全員の位置に基づいてニューラルネットワークを作成した。そして、そのニューラルネットワークがどれだけ正確にゴールを予測できるかを、そのネットワークが見たことのないシュートのセットでテストしてチェックした。
残念ながら、結果はやや物足りないものだった。ニューラルネットワークの学習には多くのデータが必要で、限られた試合数しかモデルを構築できなかったため、ネットワークが完全に収束するにはデータが足りなかったのだ。相手ディフェンダーとゴールキーパーの位置だけを含めることでモデルを単純化してみたが、あまり改善されなかった。
データ内の関連情報を特定するために、ネットワークにちょっとした手助けをする必要があったので、生のXY座標だけに頼るのではなく、選手のボロノイテッセレーションなど、いくつかの追加機能を加えた。
ボロノイ四角形は、各プレーヤーの周囲に描かれる図形で、そのプレーヤーに他のどのプレーヤーよりも近い領域を示す(下の図1の例を参照)。
選手のボロノイの面積が大きければ大きいほど、選手の周囲に大きなスペースがあり、相手から受けるプレッシャーが少ないと推定される。この追加的な特徴工学は素晴らしく機能し、ニューラルネットワークの精度はかなり向上した。

図1:ボロノイテッセルの例:各プレーヤーの周りの空間の大きさを示す
解釈可能性
ニューラルネットワークは多くのことに優れているが、その欠点のひとつは、本質的にブラックボックスであるため解釈が難しいことだ。一方の端にデータを送り、もう一方の端から結果を得るのだが、ネットワークがどのようにして、あるいはなぜその答えを導き出したのか、本当のところはわからない。
経験上、数学の知識がない人がブラックボックス化されたアルゴリズムを信用するのは飛躍がある。
回帰の精度はニューラルネットワークのそれに及ばなかったが、それぞれの結果を説明するのに役立つ係数のセットを作成することができた。例えば、ある選手の得点確率が5%しかなかった場合、その選手のピッチ上の位置、ゴールに向かう角度、周囲にいたディフェンダーの数、ボロノイ領域の狭さなどが、その得点確率のどれくらいの割合を占めているのかを監督に正確に示すことができた。
数日間、コンピュータにデータを取り込んだままにしておいたが、ようやく、各イベントがチームの得点の可能性に与える影響を示し、各アクションがなぜプラスまたはマイナスの影響を及ぼしているのかを説明できるようになった。
データの提示
私が提示したかった主なアウトプットは、選手の行動がチームのゴールチャンスにどのような影響を与えているかというもので、そのためにトラッキングデータをリアルタイムでアニメーション化するウェブアプリを作成した(詳細は記事の最後を参照)。
次に、どちらのチームが攻撃しているかを確認し、ボールを持った選手が現在地から得点する確率と、その選手がチームメンバーにパスを出して成功し、代わりにその選手がシュートして得点する確率を重ね合わせた。
図2はスクリーンショットの例で、ボールを持っているプレーヤーが現在地からシュートを打った場合、得点する確率は2%しかない。また、同じ選手が近くの味方にパスを出し、その味方が代わりにシュートして得点する確率は7%である。
この例のビデオを見返せば、パスの方が明らかに良い選択だが、ゴールを決めるという点で、その判断がどれだけ優れているかを正確に数値化できるという利点もある。
そして、これらの決断を長期にわたって集計し、各選手の決断がチームにどのような影響を与えているかを確認することができる。

図2:ゴール確率の例
上記の例では、選手が攻撃中にシュートを打つか、味方に直接パスを出すことを想定しているが、必ずしもそうではない。多くの場合、選手はボールをスペースに運び、味方がそこに走り込むことを狙っている。これを考慮するために、私は得点の確率の累積パーセントを加えました。
この指標は、個々の選手のパーセンテージを1つの数値にまとめるもので、チームの動きや形が、得点の可能性全体にプラスに作用しているのか、マイナスに作用しているのかを見ることができる。ここで累積パーセンテージを使うのは、実際にシュートを打てる選手が1人しかいないため、厳密には正確ではないが、チーム全体のゴールの脅威を示す便利な代用品であることがわかった。
フィードバック
幸運なことに、プロチームのコーチやアナリストの方々とこのアプリについて詳しく話し合う機会に恵まれました。特にユースチームのコーチたちは、選手が走ったり、クロスを上げたりするたびに、リアルタイムでパーセンテージが変化するのを見ることができるので、このアプリは特定の状況で何をすべきかを子供たちに教える素晴らしい方法だと考えていた。
実際、このアプリのインタラクティブな側面は、実にうまくいったようだ。静的なグラフや数字のスプレッドシートではなく、実際に選手が走り回るのを見たり、それがチームの得点チャンスにどう影響するかを見ることができるのは、人々の興味を引き、注目を集めたようだ。一日中、アプリで遊んだり、映像を飛び越えたりして、さまざまなタイプの出来事の影響を探る人が絶えなかった。
次のステップ
Forum 間に合うようにアプリを開発するには、限られた時間しかなかった。例えば、守備側が攻撃側を危険の少ない場所に誘導できているか、守備ラインを破られていないか、などだ。
また、動画の上にデータを重ねることも試してみたかった。データの表示方法には少し工夫が必要かもしれませんが、アニメーション用に描いた単純な2次元のグラフィックだけでなく、映像の中に選手が見えるようにすれば、ユーザーのエンゲージメントがさらに高まる可能性があります。
最後に...
ゴールの確率と、トラッキングデータに追加できるその他のオーバーレイを紹介する簡単なビデオを用意したので、アプリの動きを見たい人はこちらをご覧いただきたい。