ラインを突破するパスはどれほど効果的か？

Stats Performのゲストブログ記事で、データサイエンティストのクバ・ミハルチク氏は、トラッキングデータを用いて「ラインを突破するパスが得点確率を高めるかどうか」を検証した研究プロジェクトの結果を紹介している。

Stats Perform

読了時間：約9分

クバ・ミハルチク氏は、2年連続で2020年オプタプロ・フォーラムでの発表候補に選出された。

クバのフォーラム・プロジェクトでは、ベルギー・プロリーグから提供された2018/19シーズンの追跡データを用いて、ラインを突破するパスを特定・評価し、そのパスが得点確率を高めたか、あるいは逆にボール奪取のリスクを高めたかに基づいて、各パスにスコアを割り当てた。

このゲストブログ記事では、彼は自身のプロジェクトの背景にある方法論について概説するとともに、主な調査結果の概要を紹介しています。

はじめに

ラインを突破するパスは、サッカーのアナリストやコーチ、専門家の間で広く議論されている。相手のフォーメーションのラインを切り裂くパスとして、こうしたパスは通常、チームが攻撃の局面から次の局面へと移行することを可能にする。

そのため、ラインを突破する優れたパスを蹴る選手の能力は高く評価されています。「パッキング」や「プログレッシブ・パス」といった既存の統計指標が、場合によってはその代用となることもありますが、私はこれらのパスの価値を直接測定する新たな手法を確立することを目的として、2018/19シーズンのベルギー・プロリーグから取得したStats Perform データを適用しました。

改行パスの定義

本研究の出発点は、各プレイヤーが動きによってフォーメーションラインを切り替える可能性があることを考慮し、フォーメーションラインを検出するための信頼性の高い手法を確立することでした。

選手をラインごとにクラスタリングする自然な方法は、ピッチのx座標（タッチライン座標）に対してクラスタリングアルゴリズムを適用することです。いくつかのクラスタリングアルゴリズムを検証した結果、最終的に最も単純な手法の一つである「ジェンクス自然分割法」を採用することに決めました。これにより、フィールドプレーヤーからなる3つのクラスターが形成され（ゴールキーパーは第4のクラスターを形成します）、クラスター平均からの偏差の大きさを低減する効率的で理解しやすい手法となります。

行間の切り替えが急激に行われないようにするため、x座標は2秒間の時間窓で平均化された。さらに、1秒未満しか続かなかったグループは削除され、前の行に再割り当てされた。

特定の数のクラスターを設定することは、サッカーの他の分野を分析する上で最適なアプローチではないかもしれないが、ラインを突破するパスを探す際には妥当な方法だと判断した。というのも、守備側のチームは概してそのように配置されるのが通常だからだ。さらに、クラスターの数を可変にすると、実際にはラインを形成していない1人の選手だけで構成されるクラスターが生じる可能性が高い。しかし、その選手のポジショニングは守備の布陣にとって極めて重要であるため、無視することはできない。

図1. 1次元クラスタリングを用いた形成線の検出例

本分析において、「ラインを突破するパス」とは、幾何学的な意味で相手チームのラインの少なくとも1つと交差するだけでなく、以下の条件も満たすパスを指す。

– ボールを少なくとも10メートル前進させる；

– 交点から少なくとも5メートル離れた地点を出発点とする；

– ラインの中で最も奥に位置する選手の少なくとも2メートル先をゴール地点とする。

この定義では、以下のパスを除外します：

– 幾何学的な意味でのラインを崩すものの、次の攻撃局面への移行にはつながらない可能性が高い；

– 貫通する線路に近いため、施工が非常に簡単です。

この定義によれば、パスを受けた選手は、そのラインを突破した相手選手によるプレッシャーの対象とはならない。

分析ではすべてのオープンプレーのパスが対象とされたが、Z座標（ボールの高さ）がデータに含まれていなかったため、パスが浮き球だったかグラウンダーだったかについては考慮されていない。

モデルそのものに移る前に、最後に検討すべき点は、インターセプトされたパスを定義する際の課題についてである。インターセプトの終了座標は、フィールド上のインターセプトが発生した場所を示すものであるため、そのパスがラインを突破する意図があったかどうかを判断する際に、この座標を根拠とすることはできない。

しかし、パスの角度とパス距離の下限値に関する情報が得られているため、パスの意図された最終到達地点を推測することは可能です。そのためには、下限値のあるデータの処理に特に適した手法であるワイブル生存モデルを適用し、インターセプト地点からのパスの予想追加距離を推定します。このようにすれば、パスがインターセプトされたものの、その予測された行き先がラインブレイクと分類された場合でも、そのパスを失敗したラインブレイクパスとしてマークすることが可能になります。

パスに価値を割り当てるモデルの構築

このプロジェクトの当初の目的は、空間的特徴が類似したパスを比較することで、改行を含むパスと含まないパスとの価値の差を定量化することでした。

理想を言えば、利用可能な豊富なトラッキングデータを活用した「期待ポゼッション値（EPV）」モデルを採用すべきだった。しかし残念ながら、トラッキングデータに基づいた信頼性の高いEPVモデルを構築することは複雑であり、最終的な成果に見合うだけの時間を割くことは現実的ではない。

その一方で、シュートを含まない期待ゴールモデル、つまりピッチのより深い位置でのイベントに重みを割り当てるモデルは、この課題にはおそらく柔軟性に欠けていた。そこで私は、VAEPフレームワークに類似した期待ポゼッション値モデルを採用することにした。このモデルでは、トラッキングデータから抽出された以下の特徴量を用いてイベントデータを補完している：

「視野角」の最大値とは、ボールを持った選手の正面にある最初の相手陣ラインから、ボールと任意の2人の隣接する選手によって形成される最大角度を指す。
図2：「視野角」の例。これは、ボールを保持している選手が、ディフェンスライン内の2人の相手選手の間をパスできる範囲を示している。選手1、ボール、選手2の間の角度（アルファと表記）が、このシナリオにおける最大角度となる。選手3、ボール、選手4の間の角度は負の値となるため、後述の3項で定義される「ラインの完全性」の計算においては無視される。
ボール保持者の正面にある最初の相手陣のラインにおいて、隣接する選手同士の最大距離は；
「線形整合性」とは、正の視野角の逆数の和として定義される。
「ラインのコンパクトさ」とは、一列に並んだ隣接する選手間の距離の逆数の和として定義される。
アクションの開始時および終了時の「ピッチ制御」の値は、本稿で紹介したモデルに基づいて定義される 2018年のスローン・カンファレンスで、ルーク・ボーンとハビエル・フェルナンデスが執筆したホワイトペーパー.
図3：「ピッチ制御」モデルの出力例

「フィーチャー1」と「フィーチャー2」は、いずれもボール保持者に最も近いラインの配置における、あらゆる潜在的な弱点を突こうとするものである。「視野角」の考え方の根底にあるのは、2人の選手とボールによって形成される角度が広いほど、その2人の選手の間でパスを通しやすくなるというものである。これは、2人の選手が互いに離れている場合や、ボール保持者が相手陣のラインに近い場合などに当てはまる。

しかし、一列に並んだ選手同士の間隔は重要であり、多くのコーチが選手にフォーメーションを伝える際に用いる指標となっている。そのため、項目3と4では、項目1と2で説明した両方の概念を適用し、最前列の選手たちの配置全体を捉えることを目的としている。

両方の指標について直感的な尺度を維持するために、逆角と距離の合計値を適用すると、値が低い場合は配置が不適切であることを示し、値が高い場合は適切な設定であることを示します。

ここで重要な点として、「ラインの整合性」には負の視野角は含まれないという点があります。図2の図に戻ると、この負の視野角は、選手3、ボール、そして実質的にラインの他の選手の背後に隠れている選手4の間に生じています。この場合、パスを出すとしたら、反対側からこの2人の選手の間を通すしかなく、その結果、選手2と選手3の間でラインが早期に崩れてしまいます。したがって、選手4の位置を完全に無視することはできないものの、選手1、2、3の位置ほど重要ではない。その結果、計算には負の角度を含めないことにした。

これら5つの特徴量すべては、VAEPフレームワークに従って処理されました。簡単に言えば、これは、ポゼッションチェーンにおける現在のイベントと過去2つのイベントの特徴量をXGBoostモデルに入力し、その後の10回のアクションにおいて、そのチームが得点するか失点するかの確率を予測するというものです。

ラインを突破するパスは、得点確率を高めるのか？

以下のバイオリンプロットは、パスがラインを突破するかどうかを基準に、パス後の10回のイベントのいずれかで得点または失点する確率を示しています。

バイオリンプロットにおいて、領域が広いほど、その確率を割り当てられたシナリオの割合が高いことを示しています。確率の中央値は点で示され、25パーセンタイルから75パーセンタイルまでの範囲は棒で示されています。

実用的なY軸の範囲を確保するため、確率値が最も高い上位1％のデータを除外しました。

このアプローチには統計的な厳密性に欠ける点はあるものの、ラインを突破するパスは得点確率を高めることを示しており、その中央値はラインを突破しないパスのほぼ2倍に達している。

また、以下で指摘されているように、ラインを突破できなかったパスであっても、失点する確率がそれほど高まるわけではないという点も注目に値する。

実用的なY軸の範囲を確保するため、確率値が最も高い上位1％のデータを除外しました。

ラインを突破するパスを最も効果的に成功させた選手は誰だったのか？

採用の観点から言えば、ラインを突破するパスを定義することの利点の一つは、パスで相手のラインを突破するのが得意な有望選手を見極めるのに役立つという点にある。

以下の散布図は、2018/19シーズンのプロリーグにおいて、少なくとも10試合でセンターバックとして出場した全選手を対象に、90分あたりのライン突破パスの試行数とその成功率をプロットしたものです。

右上の象限に位置するプレイヤーは、両方のカテゴリーで平均以上のスコアを記録した。

センターバックとして900分以上出場した選手のみを対象とした。

センターバックが前線へのパスを狙うのと同様に、ディープライイング・プレイメーカーにとっても、ボールを次の攻撃フェーズへとつなげる能力は極めて重要です。以下に、守備的ミッドフィールダーに分類される選手たちのデータを示します。

昨シーズン、特に目立った活躍を見せた選手の一人が、昨夏ゲンクからアタランタへ移籍したルスラン・マリノフスキーだ。

守備的ミッドフィールダーとして900分以上出場した選手のみを対象とした。

イベントデータからラインを突破するパスを特定できますか？

改行パスを自動的に検出できる機能があれば、これまで手作業でそれらを探すのに多大な時間を費やしていた映像分析担当者にとって、ワークフローの効率化に大きく寄与するでしょう。

補足として、国内大会以外の追跡データが入手できないことを踏まえ、本研究の一環として、イベントデータから導き出された特徴量のみを用いて、パスがラインを突破したかどうかを予測するモデルの構築にも取り組んだ。

このモデルの精度は84％、AUCは93％であり、これは100件中84件において、そのパスがラインを突破したものかどうかを予測できたことを意味する。

しかし、全パスのうちラインを突破するパスはわずか8%に過ぎなかったため、ラベルを割り当てる際の閾値の設定が極めて重要でした。私は、リコール率89%、精度32%のモデルを採用した。これは、モデルがラインを突破するパスの89%を正しく検出できる一方で、実際にはラインを突破していないにもかかわらず、多くのパスをライン突破と誤分類してしまうことを意味していた。トラッキングデータなしでは、モデルがピッチ上のディフェンダーの位置を把握できないことを考えれば、これは予想された結果であった。

こうした誤検知が生じうる状況として、チームがローブロックで守備を固めている際、ボール保持チームが自陣のディフェンスゾーンから相手陣内のミッドフィールダーへボールを展開したものの、その選手が依然として相手の第一守備ラインの前方に位置している場合が挙げられる。

これは完璧とは言えませんが、ワークフローの観点から見れば、動画で確認すべきプレイの数を絞り込み、プロセスを迅速化することができます。さらに良いことに、アナリストの好みに応じて基準を調整することで、より厳格な分類を行うことも可能です。

残念なことに、手動での介入なしにラインブレイクパスをほぼ完璧に分類したいのであれば、やはりトラッキングデータを使用する必要があります。

本記事の草案を読み、貴重なフィードバックをくださったカルン・シン氏に感謝申し上げます。また、ピッチの可視化とデータの前処理のために、それぞれコードを拡張してくださったリカルド・タバレス氏、およびSocceractionパッケージの作者の方々にも感謝いたします。分析に使用したデータは、Stats Perform収集したベルギー・プロリーグから提供されたものです。