メインコンテンツへスキップ

国境を越えたカウント

によるStats Perform

この記事は、ベン・トーバニーが2018年OptaProForum発表した、リーグと年齢が選手の成績に与える影響について統一モデルを提供することを目的とした内容を文章化したものです。ベンの最初の投稿はこちら

このプロジェクトでベンのアナリストのメンターとなったのは、アトランタ・ユナイテッドの技術採用・分析責任者であるルーシー・ラシュトンだった。

2019年OptaProForumプレゼンテーション提案の提出についての詳細は、こちらをクリックしてください。

2018年のOptaProフォーラムでは、リーグと年齢が様々な指標における選手の成績に及ぼす影響を推定するための、シンプルで拡張可能なモデルを発表した。その過程で、個々の選手のパフォーマンスも推定している。ここではリーグと年齢のみに適用していますが、このモデルはポジションや対戦相手など、選手のアウトプットに及ぼす他の要因を含めるように簡単に拡張することができます。

誰もが移籍のリスクを軽減したいと考えている。そのリスクの一部は、あるプレー環境から別のプレー環境にスキルを移す際の不確実性にある。チームXに所属する選手がチームYでどの程度のパフォーマンスを発揮するかは、決して確実なことは言えません。このため、異なる環境にいる選手を公平に比較することは難しいのです。しかし、このような影響を取り除くことができるとしたらどうだろう?つまり、同じ尺度に当てはめることができるとしたらどうだろう?

まずはゴールについて考えてみよう。結局のところ、これが重要な唯一のスタッツなのだ。選手はリーグ間で移籍するため、各選手の得点率がリーグを移籍することでどのように変化するかを見ることができる。このような比較をたくさん見ることで、各リーグが得点に与える影響について考えをまとめることができる。

結果はおおむね直感や通説に沿ったものだが、数値化できるという利点もある。プレミアリーグはヨーロッパのトップリーグの中で最も得点するのが難しいリーグであり、ここ数年でますます得点するのが難しくなっていることがわかった。プレミアリーグの選手がゴールを決める割合は、セリエAやリーガ・エスパニョーラの約80%と推定されている。同様に、得点のピークは23歳から29歳ごろで、20歳ごろや30歳ごろの選手と比べると、得点率は10~15%ほど高いと推定される。

このモデルはどのようなものか?

一定期間内のイベント数を含む変数は、しばしばポアソン分布でモデル化される。これは便利で、ゴールもほぼポアソン分布と考えることができる。簡単に言えば、ポアソン分布は、レートパラメータ(その期間内のイベントの平均数)が与えられたときに、一定期間内にX個のイベントを見る可能性がどのくらいあるかを教えてくれる。

これを利用して、選手のスキルと外的影響を分離するという当初の目的を達成するためのモデルを考えることができる。各選手のゴール率(90分プレーあたりのゴール数)を、これらの異なる要因の積として単純にモデル化するのである:

 レート = 選手スキル * 年齢効果 * リーグ効果

次に、これらの各パラメータをデータから推定する。この場合、2006/07年から2017/18年までの欧州トップリーグにおける各選手の得点と出場時間のセットから推定する。

より具体的にするために、例を見てみよう。もし予測をしたいのであれば、単純にこれらの各パラメーターの積を取ればいい。つまり、2018/19シーズンのピエール=エメリク・オーバメヤンのゴール数の推定値を求めるには、単純に「選手スキルの推定値」(0.53)、リーグの推定値(0.84)、29歳での推定年齢効果(1.08)を取り、それらを掛け合わせる。これにより、90分プレーあたりの推定得点率は約0.48ゴールとなる。

年齢

帯は各年齢の95%信頼区間を示し、濃い線は中央値である。帯域が広いほど、モデルの信頼性が低いことを意味する。

各年齢パラメータはそれぞれ独立して推定されている。逆U字型を強制するようなものはモデルにはなく、ご覧のようなきれいな曲線はすべてデータから得られている。一握りの例外を思い浮かべるのは簡単だが、データは明確である。ゴールスコアによる年齢のピークは23歳から29歳くらいまでである。

また、20歳前後にわずかだが有意なピークがある。この要因について、私はいくつかの考えを持っている。平均して、先発選手よりも交代選手の方が得点率が高い。これはいくつかの理由によるものだが、最も考えられるのは、疲れている相手と対戦する利点、スコアライン効果(引き分けたチームよりも負けたチームの方が得点率が高い)、戦術的効果によるものである。若い選手は頻繁に交代要員として投入され、攻撃的な役割でプレーされる可能性が高いので、これがピークを生み出しているのではないかと私は考えている。しかし、ノイズやデータ収集の癖、あるいは戦術的要素である可能性もある。

このプロットは、異なるリーグが得点に与える相対的な影響の経年変化を示している。値が低いほど、そのリーグでは他のリーグに比べてゴールが少ない傾向にあることを意味する。

このデータによれば、プレミアリーグは時間の経過とともに得点しにくくなり、リーグ・アンとポルトガル・リーガは得点しやすくなっている。

注意しなければならないのは、これらのリーグがプレミアリーグより悪いとは限らないということだ。あるリーグがどれだけ得点しにくいかは、リーグの質だけでなく、競技のスタイルの両方から生み出される。つまり、1試合あたりの平均ゴール数である。

例えば、この期間、ブンデスリーガは1試合平均3ゴールを超えているが、それでもチャートの中央付近に位置している。これは、質の高い選手とチームが多いリーグだからだ。一方、ポルトガルのトップリーグは1試合平均2ゴール前後。しかし、リーグの相対的な強さのため、ポルトガルの選手は他のリーグよりも1試合あたりのゴールが多い傾向にある。

選手

この上位選手のリストは、多かれ少なかれ直感に沿ったものであるように思われる。興味深いことに、下限値ではなく中央値で並べると(ここに示されているように)、ガブリエウ・ジェズスは4位となる(約0.8)。しかし、彼の年齢と出場試合数の少なさ(少なくともヨーロッパでは)から、彼の真のゴール能力に関する不確実性は、例えばハリー・ケインよりもはるかに高い。

また、このリストにはキャリアの後半になっても得点を続けている選手が多く含まれていることもわかる。これについては、他の統計のところでもう少し説明しよう。

その他のスタッツは?

もちろん、サッカーにはゴール以外にも多くの要素がある。そして、サッカーの統計にはゴール以外のものもわずかに存在する。異なる年代や大会のゴール率を比較する際に考えたのと同じ論理を、他の指標にも応用することができる。私はシュート、キーパス(シュートを打つ前のパス、シュートアシストと呼ばれることもある)、ファイナルサードのパス、テイクオンの完了を選んでみた。

これらは、ゴールに使用されたものとは若干異なるデータセットから得られたものである。OptaProは、2013/14から2016/17までのプレミアリーグ、リーガ・エスパニョーラ、エールディビジ、フットボールリーグ・チャンピオンシップのF9データ(集計統計)を提供した。

繰り返すが、これは私たちの直感と一致しているようだ。私たちは、選手がキャリアの終盤に深いポジションに移っていくのをよく見ている。一方、テイクオンは非常に若い選手のゲームである。

興味深いことに、テイクオンを試みた割合は、テイクオンを完了した割合ほど急速に減少していない。言い換えれば、テイクオンの完了率は年齢とともに上昇する。これは、選手が成長するにつれて、選択性が高まり、意思決定が向上している証拠かもしれない。

ゴールと同様に、上記の効果はリーグのタレントレベルとリーグのスタイルの両方が混在している。シュートベースの指標は、ファイナルサードのパスやテイクオンよりもリーグの質と密接な関係があるようだ。

ゴールのみのモデルに比べて、意外な名前がいくつかある。しかし、これは年齢曲線と時間的により限定されたデータ量によって説明できると思う。例えば、このモデルはウェス・フーラハンをキャリアの比較的後期にしか「見ていない」。彼は同じような年齢の他の選手と比べて非常に高い数字を残しているため、モデルは彼がピーク時に世界一だったと仮定している。

モデルの拡張

このモデルの核となる乗法式は、単純に推定する要素を追加するだけで、シンプルに拡張できる。特に有益なのは、試合中の影響を考慮することである。例えば、試合時間やスコアライン。私たちは、チームが試合終了時や負けているときに得点率が高くなる傾向があることを知っています。これを考慮することで、年齢や選手個人の推定精度を向上させることができるだろう。

もうひとつの改善点は、年齢曲線をパーソナライズすることだろう。言い換えれば、平均的な選手よりもキャリアの早い時期や遅い時期に活躍できる能力を、ゴールスコアリング(またはシュート生成、パスなど)とは異なるスキルとして扱うのだ。そうすることで、先ほどのトップ選手リストで見られた年齢の偏りを緩和できるかもしれない。

ベンのプレゼンテーションのスライドを見る

ツイッターでベン (@Torvaney)をフォローする