メインコンテンツへスキップ

クラスタリングによるビルドアップ・プレーのパターンの特定

によるStats Perform

クバ・ミハルチクは、2017/18シーズンのプレミアリーグの各チームのビルドアッププレーを可視化するためにクラスタリング技術を応用したポスタープレゼンテーションを2019年のOptaProForum出展した。

このゲスト・ブログでは、彼のプレゼンテーションの背後にある方法論と、主要な調査結果の要約について概説する。

クバのポスターはこちら

はじめに

何年も前、サッカー分析のパイオニアであるチャールズ・リープは、短いプレーの連続の方が成功率が高いという結論に達した。この誤った解釈は、イングランドを本拠地とするいくつかのチームを含む多くのチームが同様のアプローチを採用したことと重なる。

しかし、近年はこの傾向が逆転し、後方からのビルドアップを目指すチームが増えているようだ。このため、ディフェンダーやGKはより優れたパス技術を持ち、ビルドアップの初期段階に大きく関与する必要がある。しかし、守備的なエリアでボールを失うたびにチームは脆弱になるため、これにはさらなるリスクが伴う。

相手が後方からどのようにビルドアウトしようとしているのか、その根本的なパターンを特定することで、コーチは相手が好むパスの位置やプレースタイルを示すクイックリファレンスを得ることができる。これらの発見は戦術分析を裏付けるものであり、チームは相手の攻撃を初期段階で止める戦略を考案したり、チームのポジショニングを工夫するだけで、相手に訓練されていない、あるいは非効率的な方法でボールをプレーさせたりすることができる。

そこで、私のOptaProForum プロジェクトでは、2017/18シーズンのプレミアリーグのイベントデータを使って、各チームが後方からどのように組み立てていくのか、その根本的なパターンを発見できるようなフレームワークを準備した。これは2段階の分析で、両方のパートでクラスター分析を採用した。

クラスタ分析は、教師なし設定、つまり事前に知られたラベルなしでオブザベーションを分類するデータ・マイニング・アプローチです。クラスタリングの結果として形成されるグループは、互いに類似したオブザベーションを含み、別々のグループからのオブザベーションは類似してはならない。

パート1 - パスのクラスター化

この分析の最初の部分では、これらのオブザベーションはイニシエーティング・パスであり、以下のパスと定義された:

- ゴールラインに対して15度以下の角度のパスは除外);

- ディフェンシブサード内に起点があった;

- はGKかDFが決めた;

- はヘディングパスでもGKのスローでもなかった。

この定義にはいくつかの限界があることを強調しておかなければならない。まず、ビルドアップの局面でセンターバックをサポートすることが多い守備的MFのパスは考慮されていない。これはデータサンプルに詳細なポジションがなかったためである。

しかし、このようなアプローチは、平均値の欠点に影響される可能性がある。選手は試合中にポジションを変えることがあるため、結果として得られる平均ポジションは誤解を招く可能性がある。したがって、この分析では、すべてのミッドフィールダーによるパスは除外された。とはいえ、特定のチームを分析するとき、分析者はどの選手がホールディングミッドフィールダーとしてプレーしているかを判断し、入力データセットに含めることができる。

もうひとつの限界は、この分析がシーズン全体のデータに基づいているため、チームのプレースタイルに影響を与える可能性のある監督や選手の交代を考慮していないという事実である。しかし、全シーズンのデータがあることで、各チームの分析に一貫性を持たせることができ、比較可能なサンプルサイズを確保することができる。

後述する選択したアルゴリズムでは、パスをクラスターに分類するために必要な類似パスの最小数を指定することができるため、このパラメータを減らして、かなり少ない試合から分析を行うことができる。そうすることで、より最近の試合や変更点を考慮した試合に基づく野党分析が可能になる。

この定義の結果、1チームあたり平均1,527本のパスを含むパスの空間座標のデータセットができあがり、これが第1ステージの入力データとなった。

データをクラスタリング・アルゴリズムに投入する前に、データがどのように散らばっているかを開示する価値がある。ここでは通常、主成分分析(PCA)が役立ちます。PCAは次元削減の手法であり、2次元空間の1点によってパスを表現し、元の座標(開始x,yと終了x,y座標)からの変動をできるだけ保存することができます。

マンチェスター・ユナイテッドによる開始パスを示すPCAの出力例を以下に示す。

 

図1:マンチェスター・ユナイテッドが開始したパスのPCA出力。 色が薄いほど 、その領域にパスが多いことを示す。

 

この出力から、7つの密集領域(外側の6つの小さな円形領域と中央の1つの大きな領域)を観察することができる。これらの橋渡し点はデータを分離しにくくし、したがって、特に広く知られているk-meansアルゴリズムのような最適化ベースのクラスタリング手法では、データをクラスタリングしにくくする。

しかし、クラスターの背後にある私の直感は、k-meansの仮定とは異なっていた。私は反復パターンを検出したかったので、私の目標は密集した領域を捕らえることであり、ブリッジポイントやその他のノイズを無視する可能性があった。そのため、DBSCAN(ノイズを含むアプリケーション上での密度ベースの空間クラスタリング)アルゴリズムを採用した。ここで、ノイズとは、通常のビルドアップの設定で行われなかったパス、例えば、プレッシャー下で行われたパス、ポジションを外れたパスなどと解釈できる。チームにもよるが、パスの53~80%がノイズとして分類され、有意なプレーパターンのみが残った。

もう一つの重要な選択は、非類似度測定の形式であった。私の第一の目的はプレーの方向性を確立することであり、パスの前進は二次的な関心事であったため、y座標に重きを置くことにした。この重みを選んだ理由は、ピッチの長さではなく、ピッチの幅に対するパスの方向をより重視したからである。

 

 

図2は、プレミアリーグの各チームのメドイドパスを示している。メドイドとは、クラスター内の他のすべてのパスと最も類似しているクラスターの代表である。 セントラルミッドフィールドへのパスを避け、ワイド(ボーンマスなど)やロング(ウェストブロム)にボールを配給することを好むチームがある一方で、意外かもしれないが、マンチェスター・シティは短めのセントラルパスを多用していることがわかる。もうひとつの好例はレスター・シティで、ハーフウェイラインをターゲットにしたダイアゴナル・ボールを使っている。

また、ハダースフィールド・タウンとリバプールにも共通点が見られるが、テリアーズは短く中央を通るパスをせず、ロングボールが中心だった。

図2は、ポジション別にビルドアップへの関与を分析するのにも使える。例えば、クリスタル・パレスの左サイドバックは、右サイドバックよりもビルドアップに関与していると考えられる。ただし、このような結論はクラスターの均質性でチェックする必要がある。

次にアーセナルに注目しよう。図2を見ると、アーセナルは左サイドよりも右サイドでプレーを開始する頻度がかなり高いと結論づけたくなるかもしれない。

下の図はアーセナルのクラスターの完全な構造を示しており、クラスターのメドは紺色で示されている。左側には均質なクラスターが2つあるのに対し、右側にはより不均質な構造を持つクラスターが1つしか形成されていないため、実際の違いはそれほど明らかではない。つまりこの図は、アーセナルが好むビルドアップの方向性を確立しながら、クラスター内のばらつきを考慮するのに役立つ。

 

 

パート2 - モーダルな後続アクション

分析の第2部では、私はこの質問に答えたいと思った:特定のイニシエーティング・パス・クラスターで最も頻繁にビルドアップが始まる場合、そのビルドアップはどのように見えるのか?

この目的のために、私は特定のクラスターから始まるすべてのプレーシーケンスを取り出し、時系列データに適した類似性尺度であるダイナミック・タイム・ワーピング(DTW)と組み合わせた親和性伝播を使ってクラスター化した。この尺度により、類似した形状のパスを識別することができる。

2つのシーケンス間の距離を計算する前に、DTWは1つのシーケンスをできるだけ参照シーケンスに似せるように整列させようとするため、全体的なパスが似ている限り、シーケンス内の速度やパス数の違いは無視される。

しかし、1つのシークエンスは、いくつかの開始パス(パート1で定義)を含む可能性がある。したがって,1つのシークエンスのいくつかの部分が2度考慮されるのを防ぐために,ボ ールが再びディフェンス側の3分の1に入った場合には,シークエンスは2つのシークエンス に分割された.その結果,かなりの割合のサブシーケンスが,ボールがディフェンダーからプレーされ,すぐ に再び戻ってくるという,単なる 2 パスの交換であった.しかし,ボールが長くプレーされた場合,2パスのプレーはまだ有益である.

このため、ハーフウェイラインを越えなかったプレーはすべて削除した。私の主な焦点は、チームが後方からどのようにビルドアウトするかであり、どのように攻撃するかではな かったので、ボールがファイナルサード(最終的な3分の1)に入った場合、その部分配列は削除された。これは,この文脈では無関係な情報を使って部分一致を避けるためである.

最後に、失敗したイニシエーション・パスで構成される部分列は、第1段階ですでに分類されているため、すべて削除された。

 

 

図4:第2段階の出力例 - クラスター1からの開始パスに続く 上位 3つのモードの ビルドアップ。破線はボールを運んでいることを示す。実線はパスを示す。色は、濃い青から薄い青への順番を示す。幅は、 シークエンス内の 水平方向の 最大 差( メートル)を 示す 。絶対幅は, シークエンス内の中央の垂直線からの 最大距離( メートル )として測定される .ダイレクトネスは、相手ゴールラインまでの距離の正味の差を、 シークエンス中の ボールの 移動 距離の 合計で割った値として測定される。

図4は、クラスター1からパスを受けたアーセナルが、最も頻繁にビルドアップした3つのビルドアップを示したものである。サンプル数が少ないため、この結果は大目に見るべきだろうが、例えば、どのパスがサイドでのダイレクトアタックを誘発しやすいか、あるいは中央での長いビルドアッププレーを誘発しやすいか、といった情報が、このクラスターから得られることもある。

結論

Forum 私が受け取った全体的なフィードバックは、圧倒的にポジティブなものだった。特にクラブ・アナリストは、チーム間の違いを見つけ出し、潜在的な弱点を発見する能力を高く評価していた。リーグ戦の視点ではなく、チームレベルでのデータ分析に重点を置くことで、こうしたポイントを発見することが可能になった。

さらに発展させることができるのは、クラスタリングの質を正式に評価できるような統計的指標だ。私はさまざまなクラスタ検証技術についてかなり時間をかけて勉強したが、どれもサッカーの観点からは適切とは思えなかった。

したがって、すべてのクラスターは視覚的に検証され、DBSCANパラメータは、クラスターが隣接する値間で安定するように選択された。クラスタ検証統計量を持つことは、人間のバイアスを減らすだけでなく、プロセスの自動化にも役立つ。

アプリ

特定のチームの結果にご興味のある方は、付属のShinyAppをご覧ください。

加えて、あなたの考えや洞察をツイッターで私と共有することを躊躇しないでほしい。