stat.inkのデータからクーゲルは環境トップでないと言えるのか
*これは7月13日のアプデより前の話です
Splatoon2ブキ研究所さん(以下ブキ研さん)のツイートを発端に
新ブキのクーゲルシュライバーが環境トップかどうかが話題になっている
とりあえずクーゲルがそんなに強いブキじゃないというデータを改めてまとめてトドメ刺してもいい?
— Splatoon2ブキ研究所 (@splatoon_weapon) July 8, 2018
クーゲルが強いブキか環境トップかどうかは
— Splatoon2ブキ研究所 (@splatoon_weapon) July 8, 2018
全体とX帯で環境トップ級のブキと比較すればハッキリする。
Xランキングのトップにマニュコラが2ルール入っているため、マニュコラを比較用の環境トップとしてピックアップ。
1枚目は全体の勝率信頼区間の比較。
2枚目はX帯での勝率信頼区間の比較。 pic.twitter.com/Yfco0Pu0vs
トッププレイヤーも含めクーゲルは強いブキだという声が多いようだが
stat.inkのデータをまとめるとクーゲルはマニュコラに比べて勝率が低いので環境トップとは言えないというのである
この一連のツイートについて賛否両論あるが、結局のところ果たして本当に
このデータから「クーゲルは環境トップでない」と断言してしまって良いのであろうか
今回はデータから結論に至るまでの流れのうち、以下の3点を考えてみた
- このデータは無作為抽出が出来ているのか
- ブキ研さんの表から「クーゲルの勝率は低い」と言えるのか
- 「クーゲルの勝率は低い」ならば「環境トップではない」と言えるのか
①無作為抽出が出来ているのか
無作為抽出と有意抽出の違いは以下である
母集団のすべてを調査する全数調査(悉皆調査)に対して、母集団の一部のみを調査する標本調査では、標本を選ぶ方法が必要である。無作為抽出と有意抽出の二種類があり、さらにそれぞれ具体的な抽出方法が考案されている。有意抽出は意図的(有意)に標本を選ぶが、無作為抽出は作為的な手順を使わない点が異なる。(無作為抽出 | 日経リサーチ)
Twitter等で特に議論されていたのはこの無作為抽出についてだ
こちら統計学はにわかなのですが、無作為抽出における信頼度はどの程度のものなんでしょう?
— ろっど (@rod_aurora1014) July 10, 2018
実質無作為抽出と仰っていますが厳密にはマッチングの時点でxパワーによる分別が行われていますから、登録者のxパワー、ウデマエを基準とした有意抽出に思えるのですが
統計的な考察を記事にした方もいた
*補足
この記事では中央極限定理について
「ある母集団から十分な数のサンプルを抜き出した場合、そのサンプルは正規分布に従う」
と書かれているがこれは誤りであるように思う
「ある母集団から十分な数のサンプルを抜き出した場合、そのサンプルの平均(と真の平均の誤差)の分布は正規分布に従う」というのがより適切だろう。つまり、
サンプル数が十分かどうかを知りたい場合は、「サンプルの分布が正規分布に従っているかどうか」を確認すればよい
という手法も適切でないため注意が必要である
さて、stat.inkのデータが無作為抽出ではない原因としては以下が挙げられそうだ
○登録者の敵のデータの方が多い
stat.inkのブキ統計データは対戦を行った8人中登録者以外の7人のデータが使われている
基本的にstat.inkの登録者は強い傾向があるため、登録者のデータを使ってしまうと無作為抽出にならない。そこでマッチングした他の7人のデータを使うことでランダム性を高めているのだ
しかし、登録者の味方3人と敵4人のデータが採用されるということは「登録者の敵」のデータが多く集まってしまうということである。つまり、本来より強い人が敵になってしまったプレイヤーのデータが多く集まってしまう。実際stat.ink全体の平均勝率は50%を下回る。
*これはstat.inkの製作者さんも言及していることである
加えて、ガチマッチではある程度編成のバランスが取れるようにチーム分けされる。例えば登録者がリッターを使っていると、その他の長射程ブキは敵チームに振り分けられる。つまり、仮に味方と敵のデータを同じ数ずつ採用出来たとしても、敵チームの方に登録者のブキと似たブキ種が偏ってしまう
○ガチパワーマッチング
X帯では近いガチパワーを持つ人とマッチングしやすい仕様である。つまり、登録者に近いガチパワー(実力)の人のデータばかりが集まりやすい
*ブキ研さんはこのガチパワーが近い人とのマッチングが出来ていること自体を疑うツイートもしていたが、公式がわざわざ実装して言及もしている以上、この点はわざわざ疑う必要はあまりないだろう
○連戦の影響
登録者と同じ部屋になったプレイヤーはガチパワー的にもタイミング的にも連続して登録者とマッチングしやすい。そのため、登録者とマッチングした人のデータがほんの少し多めに集まりやすい
*これもstat.inkの製作者さんが言及している
●結論
これらの要素からこのデータは完全な無作為抽出によるものとはいいにくく、ブキ研さんが「実質無作為抽出だ」と言い切ってしまったのはやや乱暴であると感じる
一方で無作為になってないことに起因する誤差が「クーゲルが強いかどうか」の結果に大きく影響を及ぼすとも思えないので,ひとまず無作為抽出を仮定して議論しても良いだろう
②ブキ研さんの表から「クーゲルの勝率は低い」と言えるのか
無作為抽出は実現出来ていると仮定して、ブキ研さんがまとめたクーゲルとマニュコラの勝率表を見てみよう
あの表から「クーゲルの勝率は低い」と断言出来るだろうか?
Cumming, G., & Finch, S. (2003). Inference by Eye: Confidence intervals and how to read pictures of data. American Psychologist, 60(2), 170-180.
http://www.apastyle.org/manual/related/cumming-and-finch.pdf
この論文のRules of Eye 4.(Fig.4 & Fig.5)によると、2系列の95%信頼区間のエラーバーを比較するときは、サンプルサイズが10以上、2つのエラーバーの長さが2倍以上離れていないという条件のもとで、2つのエラーバーが接しているときは有意水準1%で有意差あり、2つのエラーバーの重なっている部分の長さが、2つのエラーバーの全長の平均の4分の1(論文では、エラーバーの全長の半分の2分の1と書いてある)より小さいときは有意水準5%で有意差あり、と結論付けることができる。
↑ブキ研さんの表におけるX帯のデータを用いて2つのエラーバーの全長の平均に対する2つのエラーバーの重なっている部分の長さの割合を計算した表
今回のケースだと上の表から
ガチエリアは有意水準1%で有意差あり
ガチヤグラは有意水準5%で有意差あり(有意水準1%では有意差なし)
ガチホコとガチアサリは有意水準5%でも有意差なし という結論になるのだ
*なおブキ研さんのツイートには,何%信頼区間を求めたかが明記されていなかったので,ここではこれが95%信頼区間であるものとして議論した
●結論
マニュコラの方が勝率が高い傾向は見られるが,ガチホコやガチアサリでは有意差はなく,必ずしも母集団全体でクーゲルの方が勝率が低いとは言えない
③「クーゲルの勝率は低い」ならば「環境トップ」ではないと言えるのか
そもそも「環境トップ」の定義が人によってバラバラだったのがこの一連の議論がわかりにくかった原因である
ブキ研さんの思う「環境トップ」はこのような定義だそうだ
2におけるこれまでのケースだと
— Splatoon2ブキ研究所 (@splatoon_weapon) July 9, 2018
ブキ性能の高さからウデマエ上位またはウデマエ全体に対して無作為抽出した時に平均して高い勝率を持ち、その結果ウデマエ上位またはウデマエ全体に対して使用率が高い、そのverにおいて強い影響力を持つブキ
という定義が近いんじゃないですかね。
この定義によれば一連の流れが始まった7月8日時点ではクーゲルは環境トップでない
しかし追加から1週間では全体的に練度も低い上、試しに使う人が多いため勝率が安定しないのは予想でき、この定義に従ったとしても1週間で環境トップでないと堂々と言い張るのはやはりよろしくないのではないか
*実際ブキ研さんへの批判として最もよく見られたのはこの批判であった
加えて、一般的にイメージされる「環境トップ」とこの定義はずれているように思う
「環境トップ」は元々カードゲームの用語が広く使われるようになったものである
プレイヤー間で流行して使用者の多い安定カードや構成は「主要メタ」「トップメタ」「環境トップ」とも呼ばれる。しかし、カードゲームにおけるデッキ構成のメタゲーム概論は流行に左右される要素が大きいために、時期によって安定したメタ構成がぐるぐると入れ替わることも珍しくない。
Splatoonではアプデ等でブキ性能そのものが変化せずとも、対戦する他の7つのブキや戦術に応じてあるブキの勝率が変化するため、その時々でどのブキや戦術が強いか、多く使われているかを考慮してブキを選ぶことが勝利に繋がる。つまりSplatoonもメタゲームの要素があり、「環境トップ」という言葉が使われている
この本来の定義に立ち帰れば「環境トップ」とは強いと考えられていて流行ってるものという意味であり、平均勝率を用いた定義はこの本来の定義とはズレている
ブキ研さんもそれは理解しているであろうことがこのツイートから伺える
そもそもがブキの強弱や勝ちやすさ、ルールと合ってるか、ステージと合ってるかを、全体的なレベルでとらえようという活動だしねえ。
— Splatoon2ブキ研究所 (@splatoon_weapon) July 10, 2018
90種類もあるブキの優劣を判断したり調べるの大変でしょ?
その判断や調査を簡略化して効率よくアタリをつけるための平均勝率でしかない。
平均勝率は簡略化して効率よくアタリをつけたものである
「環境トップ」に近いものではあっても同じものでは決してない
効率よくアタリをつけられる点では素晴らしいものだが、あくまで簡略化されたものであってそれで全てを把握できるものではない
しかし、ブキ研さんは平均勝率だけで多くを表すことが出来ているかのような言い方をしたり、感覚的な意見を安易に否定したりしてしまったためヘイトを集めることになったのではないだろうか
客観的なデータ、統計は便利である。しかしそれを盲信することなく、感覚的な意見も取り入れた上で、データと感覚の両方をバランス良く利用することがよりよい考察に繋がると思う
統計的な議論についてはざるごさんに協力して貰いました
普段はざるごさんと共に解説動画を投稿したり、企画を立てて配信したりしてます。よかったら見てね