要点
- イニング経過のクラスタリング分析を用いて、以下のような類似したバッティングのアーキタイプを持つ選手をグループ化できることを示す。イニング後半に平均テンポ以上に出塁率を上げる低リスクの選手。
-イングランドのミドルオーダー(ポジション3-5) はオーストラリアと比較して有利である。.
- ODIの最終10オーバーにおいて、我々のアルゴリズムはイングランドのジョス・バトラーを他に類を見ないほど高い得点率を持つ選手として単独でグループ分けしているが、オーストラリアのグレン・マクスウェルも次に危険な選手グループとして特定している。
ワールドカップ・ホルダーのオーストラリアが開催国イングランドとの対戦を控える中、我々はOptaProの新しい2つの高度な指標を適用し、両者のバッティング・アプローチの違いを浮き彫りにした。
前回のブログでは、出塁率と支配率の予測に基づいて選手のイニング進行をモデル化することを紹介した。これらの方法は、試合データを細かいスケールで可視化する手段を提供し、選手のパフォーマンスに関するより詳細な情報を抽出することを可能にします。これらの方法を活用する次のステップは、モデルの出力を使って類似した選手のアーキタイプを特定することです。
似たタイプのバッツマンをグループ化
簡単にまとめると、前回のブログで定義したメトリクスは以下の通りである:
1デリバリーあたりの予測ラン数:ストライク・レートではなく、送球あたりの得点数を考慮する。これは、一般的にイニング全体の得点率を考慮するストライク・レートと、純粋にイニングで対戦した特定のデリバリーの得点率を予測するデリバリーあたりの予測ランを区別するためである。
予測コントロールショット確率:これは、バッツマンがデリバリーをコントロールする確率である。コントロールされたショットとは、ショットの結果がバッツマンの望んだ結果であったショットと定義し、タイミングよく放ったロフトショットから、オフ・スタンプの外側でよく判断して放ったリーブまで様々である。
これらの指標を使えば、成績の類似性に基づいて、選手をさまざまなグループに割り当てることができる。たとえば、送球あたりの失点数の推移が似ている選手や、コントロール率の推移が似ている選手をグループ分けすることができる。また、これらの指標を組み合わせて、失点やコントロール率の推移が似ている選手をグループ分けすることも可能です。例えば、このツールを使って、平均テンポ以上に終盤の出塁率を上げる低リスクの選手を特定することができる。
そのためにクラスタリング・アルゴリズムを使用する。基本的な考え方は、関心のある時間枠を横切る曲線間の距離に基づいて、曲線をグループ化するということである。通常、互いにかなり近い曲線は、同じグループに入る可能性が高い。このアルゴリズムの詳細は、このブログの最後にあります。
イングランドとオーストラリアのエンジンルームを比較
今年のワールドカップでイングランドが他の多くのチームと決定的に違うのは、バッティングラインアップ全体、特に「エンジンルーム」(3~5番ポジション)に一貫した攻撃性があることだ。
イングランドとオーストラリアの主要なエンジンルームの選手たちがどのようにイニングを構築するかを探るため、他の2019年ワールドカップ全チームの同じポジションのバッツマンとともに、デリバリーあたりのランとコントロールショットの確率をモデル化した。
バッツマンのアーキタイプを特定するために、クラスタリングアルゴリズムを用いて、コントロールと失点率の両方に基づいて選手をグループ分けした。各グループのユニークな特徴を観察することができる。ここでのグループ数(6)は任意に選んだものであり、さらに記述的なクラスタを得るために増やすことも可能である。
以下のプロットは、6つのグループのエンジンルームの選手を表し、それぞれの予測ラン率とコントロール率を示している。白の破線は、全選手の平均パフォーマンスを表している。
この分析では各グループに特徴がある。グループ5と6は、ランの蓄積という点では最も慎重な2つのクラスターだが、コントロール率はそれぞれ比較的低く、高い。オーストラリアとイングランドの選手はこのグループには入っておらず、両チームのエンジンルームが一貫してプロアクティブであることを強調している。
グループ3と4はやや似ているが、グループ3はグループ4に比べて初期制球率の低下に対応する出塁率が一貫して高い。最後に、グループ1と2は大打者である。
イングランドとオーストラリアのエンジンルームの傾向の類似点と相違点に注目するのは興味深い。ルートとモーガンは、それぞれスミスとカワジャと一緒に3番と4番で打席に立っている。しかし、イングランドのバッティング成功の鍵は、各ペアの得点率とコントロール率が一貫して高いことにある。例えば、ジョー・ルートの一貫して高い失点率とコントロール率は、スティーブ・スミスの打率84.59、失点率43.36に対し、2015年ワールドカップ以降の打率91.80、失点率60.39に相当する。私たちのアルゴリズムによってグループ分けされた2人の似たようなアプローチを観察すると、2人が安定したランの蓄積と高いコントロール率で各チームの接着剤となっていることは明らかだが、ルートはどちらの分野でも若干安定している。
同様に、大打者(グループ1と2)の違いも観察できる。ここでは、ハルディク・パンディヤと同じグループのマクスウェルが、常に高い打球速度でヒットを打っていることがわかる。バトラーは打ち始めるまでに少し時間がかかるが、加速はマックスウェルの管理しがちなものよりも大きい。さらに、バトラーのコントロール率は最初の50デリリースを通して高い予測を持っており、マクスウェルのコントロール確率はイニングを通して着実に低下し、ランレートは上昇しない。
選手グループ別決勝10
クラスタリングを使って選手のタイプを分け、チームの強みを理解するもう一つの例は、前回のブログで分析した指標である最終10オーバーの成績からバッツマンをグループ化することで示すことができる。
このクラスタリングでは、2015年ワールドカップ以降にODIで400ラン以上を記録した選手のうち、イニングの最後の10オーバーでのランの蓄積という点で同じようなアプローチをしている選手をグループ分けしている。イングランド、オーストラリア、そしてインドの主要選手がハイライトされている。
まず、イングランドのベン・ストークスがいるグループ3を観察してみよう。41~46オーバーで出塁率が高く始まるが、他のグループと比較すると、このグループは最後の4オーバーで出塁率がかなり落ちている。これらの選手たちは、この時間帯に1デリバリーあたり1.00~1.25ラン程度で失点率の限界に達しているようだ。これはまだ非常に速い得点率だが、1デリバリーあたりのランを1.50以上にするためのギアをコンスタントに入れることはできないようだ。ベン・ストークスはボール1個あたりの失点率が落ちている。これはクロージングオーバーにおけるイングランドの弱点となりうるが、データポイントの少ない選手にとってイニングの最後尾の予測は不確実であり、ストークスはその典型例である。これについては、このブログ記事の最後でさらに詳しく説明する。
アルゴリズムはバトラーを単独でグループ分けしている。前回のブログで説明したように、最後の10オーバーでの彼の加速は、この選手セットの中で比類のないものである。したがって、クラスタリングアルゴリズムは、彼のカーブを同等のものがないユニークなものとして識別します。しかし、残りの2つのグループは、選手間のいくつかの興味深い比較を示しています。
一方では、グループ2と4は、最後の10オーバーを通じて加速するという、やや似たパターンをたどっている。実際、両グループとも50オーバーでの1回あたりの失点予測は1.25~2.00程度とほぼ同じであるため、ちょっと見ただけでは両グループに大きな違いは見られないかもしれない。しかし、これらのグループの決定的な違いは得点率の上昇である。
イングランドのモーン・アリ、インドのヴィラット・コーリー、オーストラリアのグレン・マクスウェルを含むグループ2は、45オーバーまでにすでに平均失点予測を上回る得点を挙げている。彼らは序盤から加速する傾向にあるが、最後の10オーバーは安定している。しかし、グループ4のインドのMSドーニのような選手は、この加速を遅らせる傾向がある。従って、グループ4の選手は50オーバーにかけて非常に立派なランレートに上昇する傾向があるものの、グループ2の選手よりもイニングの奥深くで加速する。
結論
このブログの2つの例では、出塁率や支配率に基づいて選手をグループ分けすることで、チームや選手の強みを理解するためのさまざまな方法を紹介している。
今回のワールドカップでエンジンルームとなった選手たちを個々のイニング構成でグループ分けしてみると、イングランドが他のどのチームとも比較にならない得点率をコンスタントに記録している理由がよくわかる。オーストラリアのチームと比較すると、イングランドのミドルオーダーは失点率とコントロール率の両面で有利に働いている。
加えて、イングランドがイニングの最後の10オーバーに強い理由もわかる。彼らの打順には破壊力の高いレイトオーダーが揃っており、イニングのこの時間帯に他の選手よりも早く加速する傾向があるからだ。
これらの例は、クラスタリング・アルゴリズムとともに、失点率とコントロール率のモデリングがどのようにプレーヤーの典型を特定できるかを表面的に示したに過ぎない。我々はODIにおける国際的なプレーヤーの特定のカテゴリーを観察してきたが、我々のモデルや手法が適用できる他の様々な国際大会や国内大会は豊富にある。
*さらなるモデルの詳細
類似したカーブをグループ化するために、ユークリッド距離完全連結階層クラスタリングを使用する。我々がクラスタリングする特徴は、各配信における GAM の予測値である。これは、カーブを比較するためにデリバリーのサブセットを見ることによって減らすことができる。単一の測定値でクラスタリングするときは特徴量を正規化しませんが、ランレートとコントロールレートの両方に基づいてプレーヤーをクラスタリングするときは、測定値間の正規化が必要です。
不確実性の観点から、我々はまた、デリバリーあたりの平均ランの我々の予測を取り巻く不確実性のアイデアを与えるために、ラン率とコントロール率の対応する信頼区間を推定することができます。これらは、我々のアプローチを使用したロバストな区間推定に必要な主要な仮定(ガウス応答変数)が保持されないため、大まかなガイドに過ぎませんが、我々の結果の確実性が低い場所のアイデアを与えます。予測区間も考えることができますが、シングル・ショットで得られる実行の大きな変動のために、これらの区間は広くて有益でない傾向があります。以下にベン・ストークスの95%信頼区間を示しますが、これはストークスのこのイニングのデータ不足によるものかもしれません。
これらの信頼区間は、イニングの極端な終盤で最も大きくなりやすいことに注意することが重要である。これが、プロットでこのイニングの400ランというカットオフを選んだ理由である。このカットオフは減らすこともできるが、モデルフィッティングで使用するスプラインカウントとスムースネスパラメータ値に注意が必要である。出力の不確実性は、イングランド対オーストラリアの中順のプロットでは、チームのイニングの一部ではなく、個々の選手のイニングの期間を見ているので、それほど問題にはなりません。


