メインコンテンツへスキップ

データを通じてより良いStories 語る

By: アンディ・クーパーアンディ・クーパー

数字は嘘をつかない」ということわざがある。特にスポーツに関する数字が物語る場合、その言葉は完全には正しくないことが判明した。

2014年FIFAワールドカップのドイツ対ブラジルの試合を例にとってみよう。ドイツが勝利を収めたが、ブラジルは総シュート数、枠内シュート数、セーブ数、危険な攻撃回数、ペンエリア内でのシュート数でドイツを大きく上回った。ブラジルの勝率が高いように見えたのは、これらの数字に1つの重要なピースが欠けていたからだ。

この試合のストーリーを語る上で重要なのは、この数字の文脈である。STATSは、フィールド上で何が起こったのか、なぜこの試合が最終的にこのような結果になったのか、その全体像を見るために期待ゴール値(EGV)を作成した。STATSは、近年のサッカーシーズンにおける約10,000のシュートを検証し、それぞれのシュートの前の10秒間を分析することで、シュート総数、セーブ数、パス数といった大きなデータの塊を、コンテキストに特化した分類子に分解できるアルゴリズムを作成した。

これらの分類により、何が起こったかを詳細に理解することができる。ブラジルのシュート総数はドイツより多かったが、ドイツのディフェンダーはブラジルのシューターのどこに近接していたのか?シューターはフィールドのどの位置にいたのか?オープンプレーのフォーメーションだったのか、カウンターアタックだったのか?何が起こったのかを正確に理解するためには、これらすべての要素を考慮する必要がある。

EGVは、何が起こったかを理解する上で価値があるだけでなく、将来の試合やチームの効果について、より現実的な確率を決定するために使用することができる。これらのコンテキスト化されたデータポイントをクラスターにマッピングすることで、STATSはドリルダウンしてフォーメーションを作成し、大幅に改善された方法で行動をモデル化することができる。目標は、形成的なデータを見つけることであり、その結果、長期にわたってチームがどのように相互作用してきたか、ホームゲームやアウェイゲームで1つのチームが最も使用したフォーメーション、「ホームフィールドアドバンテージ」は実際に存在するのか(存在する!)などを理解することにつながる。

STATSは、コンテクストを整え、複数のレベルのデータポイントに対応するアルゴリズムによって、チームの成功についてより正確な予測指標を開発できたと自負している。EGVの詳細については、こちらの論文をお読みいただくか、こちらのウェビナーをご覧ください。