メインコンテンツへスキップ

ラインブレーキングパスのインパクトは?

 

Stats Performゲストブログで、データサイエンティストのクバ・ミハルチクが、トラッキングデータを応用して、ラインブレーキングパスがゴールの確率を高めるかどうかを検証する研究プロジェクトの結果を紹介している。

 

によるStats Perform

クバ・ミハルチクは2年連続で、2020年Forumプレゼンテーションの最終候補に残った。

クバのForum プロジェクトは、ベルギー・プロリーグから提供された2018/19シーズンのトラッキング・データを用いて、ラインブレーキング・パスを特定・評価した。

このゲスト・ブログでは、彼のプロジェクトの方法論と主な調査結果の概要を紹介する。

はじめに

ラインブレーキングパスは、サッカーアナリスト、コーチ、専門家の間で広く議論されている。相手の陣形のラインを破るパスは、通常、チームをある攻撃局面から別の局面へと移行させる。

そのため、良いラインブレイクパスを出す選手の能力は高く評価される。パッキングパスやプログレッシブパスのような既存のスタッツは、時に代理として機能するかもしれないが、私はこれらのパスの価値を直接測定する新しい方法を作成する目的で、2018/19ベルギープロリーグから取得したStats Perform トラッキングデータを適用した。

ラインブレーキング・パスの定義

この研究の出発点は、各選手が動いた結果、あるフォーメーションラインから別のフォーメーションラインに切り替わる可能性があることを考慮し、フォーメーションラインを検出するための信頼性の高いアプローチを確立することであった。

選手を一列にクラスタリングする自然な方法は、ピッチのx座標(タッチライン座標)にクラスタリングアルゴリズムを適用することである。いくつかのクラスタリングアルゴリズムをテストした後、私は最終的に最も単純なものの1つであるJenks natural breaks optimisationを使用することに決めました。このアルゴリズムは、クラスタ平均からの乖離量を減らすための、効率的で非常に理解しやすいテクニックである。

すぐに行が切り替わらないように、x座標は2秒間の時間窓で平均化された。さらに、1秒未満のグルーピングは削除され、前の行に再割り当てされた。

クラスターの数を設定することは、サッカーの他の分野を分析するのに最適なアプローチではないかもしれない。さらに、クラスタの数を可変にすると、実際にはラインを形成していない1人のプレーヤーで構成されるクラスタになる可能性が高いが、彼らのポジショニングはディフェンスのセットアップにとって重要かもしれないので、無視することはできない。

図1.1次元クラスタリングを用いたフォーメーションライン検出の例

 

この分析では、ラインブレーキングパスとは、幾何学的な意味で少なくとも1本の相手ラインと交差するだけでなく、それ以外のパスと定義する:

- ボールを少なくとも10メートル前進させる;

- 交差点から少なくとも5メートル離れた地点がスタート地点となる;

- 終点は、ライン上で最も深く座っているプレーヤーを少なくとも2メートル越えている。

この定義はそれを排除している:

- 幾何学的な意味でのラインブレイクだが、次の攻撃局面への移行にはつながりにくい;

- 貫通するラインに近いため、完成させるのは極めて簡単だ。

この定義はまた 、パスのレシーバーは 、ブロークンラインの一部であった相手側プレー ヤーからのプレッシャーを受けないことを意味する 。

しかし、Z座標(ボールの高さ)がデータサンプルに含まれていないため、パスがトップでプレーされたか、地面に沿ってプレーされたかは考慮されていない。

モデル自体に移る前に、インターセプトされたパスを定義する際の課題に関して、最後にもう1つ考慮すべきことがある。インターセプトの終了座標は、インターセプトが行われたフィールド上の場所を指しているため、パスがラインブレーキングを意図したものであったかどうかを判断するのに頼ることはできない。

しかし、パスの角度とパスの長さの下限に関する情報があれば、パスの最終的な到達点を推測することができる。これを行うために、下限値のデータを扱うのに適した技術であるワイブル生存モデルを適用し、インターセプトされた地点からのパスの予想追加長を推定します。こうすることで、たとえパスがインターセプトされたとしても、予測される目的地がそれをラインブレーキングと分類すれば、ラインブレーキングに失敗したパスとしてマークすることができる。

パスに価値を割り当てるモデルを確立する

このプロジェクトの最初の目的は、似たような空間的特徴を持つパスを比較することで、そうでないパスと比較して、さまざまな改行パスの価値を定量化しようとすることだった。

理想的には、利用可能な豊富なトラッキングデータを取り入れた、期待保有価値(EPV)モデルが採用されたであろう。しかし残念ながら、信頼性の高いトラッキングデータに基づくEPVモデルの構築は複雑であり、最終的な目標のメリットに比べて不釣り合いなほどの時間を必要とする。

もう一方では、シュート以外のゴール期待値モデルは、ピッチの深いエリアからのイベントに値を割り振るもので、おそらくこのタスクには厳しすぎた。そこで私は、VAEPフレームワークのようなポゼッション期待値モデルに落ち着き、イベントデータはトラッキングデータから抽出された以下の特徴によって強化される:

  1. 最大視野角」とは、ボールを持ったプレーヤーの前方にある最初の相手側線から、ボールと隣接する2人のプレーヤーが作る最大の角度と定義される;

    図2: 「視野角」の例で、ボールを持ったプレーヤーがディフェンス・ライン内の2人の相手プレーヤーの間をパスできる範囲を示す。アルファで示されたプレイヤー1,ボール,プレイヤー2の間の角度がこのシナリオにおける最大の角度である.プレイヤー3,ボール,プレイヤー4の間の角度は負であるため,以下のポイント3で定義される「ラインの完全性」の計算では無視される.

  2. ボールを持ったプレーヤーの前の最初の相手側線における隣り合うプレーヤー間の最大距離 ;
  3. ラインの完全性」は、正の画角の逆数の合計として定義される;
  4. ラインのコンパクトさ」は、ライン内の隣接する選手間の距離の逆数の合計として定義される;
  5. アクションの開始時と終了時の "ピッチコントロール "の値は、この章で紹介したモデルに従って定義される。 ルーク・ボーンとハビエル・フェルナンデスがスローン2018で執筆したホワイトペーパー.

    図3:「ピッチコントロール」モデルの出力例

フィーチャー1もフィーチャー2も、ボールを保持しているプレーヤーに最も近いラインのセットアップにおいて、起こりうる脆弱性を捉えようとする。アングル・オブ・ビュー」の前提は、2人のプレーヤーとボールが作る角度が大きい方が、2人のプレーヤーの間でボールをパスしやすいということである。

しかし、多くのコーチがセットアップを選手に伝えるために使う言葉であるため、ライン内の隣接する選手間の距離は重要である。その結果、3番目と4番目の特徴は、1番目と2番目で説明した両方のコンセプトを適用して、全体として最初のバンクのセットアップを捉えることを目的としている。

両測定値の直感的な尺度を維持するために逆角度と逆距離の和を適用すると、低い値は悪いポジショニングを示し、高い値は堅実なセットアップを示す。

一つ重要なことは、「ラインの完全性」には負の画角は含まれないということである。図2の表示に戻ると、この否定的な視野角は、ボールを持っているプレーヤー3と、事実上他のラインの後ろに隠れているプレーヤー4の間に生じる。この場合、パスの可能性は反対側からこの2人のプレーヤーを通り抜けることしかできず、プレーヤー2と3の間のラインを先に壊すことになる。したがって、4番の位置を完全に無視することはできないが、1番、2番、3番の位置よりも重要度は低い。その結果、私は負の角度を計算に入れないことにした。

つまり、ポゼッション・チェーンにおける現在と前の2つのイベントの特徴がXGBoostモデルに入力され、チームが次の10回のアクションでゴールを決めるか決めるかの確率を予測する。

ラインブレーキングパスはゴール確率を上げるか?

下のヴァイオリンプロットは、パスがラインブレイクか否かに基づいて、パス後の10回のイベントのいずれかにゴールを決めたり失点したりする確率を予測したものである。

ヴァイオリンプロット上の面積が広いほど、ある確率が割り当てられたシナリオの割合が高いことを示す。確率の中央値はドットで示され、25パーセンタイルから75パーセンタイルの範囲はバーで示されている。

実用的なY軸の範囲を保つため、最も高い確率の値の1%は削除されている。

このアプローチは統計的な厳密性に欠けるが、ラインブレーキングパスがゴールの確率を高めることを示しており、中央値はラインブレーキングパスをしない場合の約2倍である。

また、以下のように、ラインブレーキングに失敗したパスが失点につながる確率はそれほど高くないようだ。

実用的なY軸の範囲を保つため、最も高い確率の値の1%は削除されている。

ラインブレイクパスを最も効果的に成功させた選手は?

リクルートの文脈では、ラインブレーキング・パスを定義することのメリットのひとつは、パスで敵陣を突破するのが得意な有望株を特定するのに役立つことだ。

下の散布図は、2018/19プロリーグ期間中にセントラルディフェンダーとして10試合以上に出場した全選手を、90試合あたりに試みたラインブレーキングパスの本数と成功率でプロットしたものである。

右上4分の1の選手たちは、両項目で平均以上のスコアを出している。

セントラル・ディフェンスで900分以上プレーした選手のみを対象とした。

プログレッシブなパスを狙うセンターバックと同様に、ボールを次の攻撃フェーズに移行させる能力を持つことは、ディープリーグのプレーメーカーにとって極めて重要である。ホールディング・セントラル・ミッドフィルダーに分類される選手のアウトプットを以下にプロットする。

昨シーズンの主役の一人は、昨夏にゲンクからアタランタに移籍したルスラン・マリノフスキーだった。

守備的MFで900分以上プレーした選手のみを対象とした。

イベントデータでラインブレーキングパスを特定できるか?

改行パスを自動的に検出する機能を持つことは、手作業で改行パスを探すのに多大な時間を費やさなければならないビデオアナリストにとって、ワークフローに大きなメリットをもたらす。

脚注として、国内大会以外ではトラッキングデータが利用できないため、この研究の一環として、イベントデータから得られる特徴のみに基づいて、パスがラインブレイクかどうかを予測するモデルを構築することも検討した。

このモデルの精度は84%、AUCスコアは93%であった。つまり、このモデルは100回中84回でパスがラインブレイクか否かを予測できたことになる。

しかし、全パスのわずか8%しかラインブレーキングではなかったことを考えると、ラベルを割り当てるカットオフ・ポイントは非常に重要だった。つまり、このモデルはラインブレイクしたパスの89%を正しく検出することができたが、実際にはラインブレイクしていない多くのパスをラインブレイクと分類してしまった。トラッキングデータがなければ、ディフェンス側の選手がピッチ上のどこにいるのかがわからないのだから、これは予想されたことだ。

偽陽性が発生する可能性のあるシナリオは、チームがローブロックで守備をしていて、ボールを保持しているチームが自陣のディフェンスサードから敵陣のミッドフィルダーにボールを出すが、その選手はまだ相手の第一ディフェンスラインの前に位置している場合である。

これは完璧とは言えないが、ワークフローの観点からは、ビデオを見直すパス数を絞り込むことができ、プロセスをスピードアップすることができる。

悪いニュースは、手作業なしで改行パスを完璧に近い形で分類したいのであれば、やはりトラッキングデータを使う必要があるということだ。

本論文の草稿を読み、貴重なフィードバックをくれたKarun Singhに感謝したい。さらに、Ricardo Tavaresと、ピッチビジュアライゼーションの準備とデータの前処理のためにそれぞれコードを拡張したSocceractionパッケージの作者に感謝する。分析に使用したデータは、Stats Performキャプチャされたベルギー・プロリーグから提供されたものである。