日报标题:为什么说「网游公布抽取概率」非常好,我来给你算算
相关链接:玄不救非,氪不改命?文化部怒了:网游物品抽取概率必须公开!
此答案好像受到了很多关注,于是答主决定在原答案后面更新些更多的内容。
这个新规很好。我觉得既然目的是公开透明理性消费,那么为了针对乱用父母信用卡的小学生们,我们有必要在说明里科普一下基础统计学和概率论内容,以便达到真正的“明明白白消费”。
方差与期望
1/10 的概率不代表抽 10 次肯定能有 1 个,有可能有123456789个,但也有可能 1 个都没抽到。 要告诉玩家 10 个里面出 1 个是期望值,不是必然结果。
独立事件
“啊我都连续 9 次出蓝卡了,下一个肯定是紫的了,不然概率就不对了啊!” 这是很多玩家都有的心理,实际上每次抽卡理论上应该是独立的。 在竞技类游戏中比如暴击和格挡有时会利用修正过的概率,其本质为”如果这一刀没有暴击,下一刀的暴击率增加,直到出现暴击为止”,在一系列算法修正后,其平均发生概率为显示出来的概率。 如果抽卡游戏里没有设置“十连抽必出 sr”,“这次抽不到下次抽到的概率会增加”等保底模式,那理论上应该将每次抽卡归位独立事件。
相关和因果
“我今天凌晨一点的时候买了一管体力然后画符,结果就开出个 SSR!那我每天都熬到凌晨一点买一管体力画符,肯定每天都有 SSR!”
有的事情只是有相关性(或者只是碰巧一起发生了),其实并没有因果关系。 这种例子经常出现在“大神教你如何强化装备上”。
幸存者偏差
“凭什么我周围的朋友运气都比我好,我是不是上了游戏商黑名单?!”
只有抽到的人才会整天秀朋友圈...运气不好的人都默不作声,假装没玩这个游戏.
聚类效应 clustering effect
“这个学长居然三包抽了三张橙卡,肯定有什么特殊的技巧,他说今晚教我独门绝技肯定不是骗我的!”
这就和一直投硬币总会连续有几个正面或反面一样,有的时候好运和霉运是会连着来的,并不能说明事件受到了操控.
为了验证游戏方有没有挂羊头卖狗肉,是不是可以成立一个“网游概率验证公司”,从统计学的角度帮助玩家维权获赔,也许是个新的创业机会呢!!想想都激动呢!!
以下内容为概率论和统计学基础——嫌长的直接跳到结论
这个回答的评论 / 赞比例非常高,热心的网友可以加入评论区的“讨论”。我也本着为祖国的花朵谋福利的崇高精神,继续做一些进阶(高中)科普:
二项式分布
抽卡可以简化为二项式分布(抽到的要么是你想要的,要么是你不想要的)。
二项式分布(Binomial Distribution)的概率质量函数(probability mass function aka PMF)为:
期望值为 np 方差为 np*(1-p)
其中 p 为事件发生概率,n 为总次数,k 为理想的次数(就是你想要抽到多少张)。 其实这个公式的来源也很好理解,有 k 次成功(p^k)意味着有 n-k 次失败(p^(n-k),然后这 k 次成功一共有 nCk 总出现方式,所以就有了以上公式。
现在如果我们要计算在成功率为 10%的前提下,抽 100 次能中 10 次的概率套入公式就是:
100C10*0.1^10*(0.9)^90=0.131865 约等于 13%的概率能刚好抽到 10 次。
不明真相的群众现在肯定炸开锅了“什么!!!!说好的 10% 的概率难道 100 次中 10 次不应该是很容易发生的吗!!!居然只有 13% 的概率,不良厂商你退我钱!” 这就是我们熟知的“方差”。
方差(Variance):是衡量随机变量或一组数据时离散程度的度量,可以理解为好运和霉运的距离有多远,0 方差意味着每次的结果都是守恒的,二项式分布的方差为 np*(1-p). 方差越大那么结果偏离期望值的可能性就越高(可以是好运的偏离也可以是霉运的偏离)。 方差的平方根是基准差(Standard Deviation)。
好了我们继续讲刚刚的话题。 虽然 13% 的概率看起来不高,但实际上情况是这样的:
我们可以看到,虽然中 10 次的概率不高,但是中其他次数的概率更低啊! 可以看到高概率的次数都是围绕在“10 次”周围,基本上 100 抽中 10 次的“期望”是没有问题的。 值得注意的就是,中 20 次或者更高的概率几乎为 0,你们不要抱太多幻想了,呵呵。
细心的同学可能会看到表格中还出现了一个叫 Cumulative Probability 的东西。
Cumulative Probability 中文为累积概率(CDF),定义为:发生次数在 k 范围内的总概率,计算方式为将 Pr(x<=k)的概率全部加起来,二项式的 CDF 为:
PS: 但是当 n 足够大的时候,这种一个一个相加的方法实在太慢了,等下我会讲一下“Normal Approximation to Binomial Distribution"(正态分布对二项式分布的拟合),尝试用”连续“的方法来解决离散概率问题。
好了继续我们的抽卡正题,比如上表中 P(k=10)的累积概率为 58.316%,也就是说你抽 100 次有 58.316 的概率能抽中 10 次或更少,41.684 的概率抽中 10 次或更多。
相信很多人看到这里已经要遭不住了,没想到真相如此残酷,你能不能直接告诉我,“我就想要 10 张紫卡,大概得抽多少次才行??” 好的,请看下一个小段。
负二项式分布
“我会一直抽卡,直到抽中 10 张紫色的,那么我总共抽卡次数的分布是怎么样的呢?”
这个问题属于负二项式分布,它表示在一连串试验中,事件刚好在第 r+k 次试验出现第 r 次的概率。
负二项式的概率质量函数为:
期望值为 r/p,方差为 r/p^2
其中 k 为失败次数,r 为成功次数,p 为事件成功概率,k+r 为总次数。
负二项式的概率质量函数也很好理解:和二项式一样,成功了 r 次,失败了 k 次,那么有 p^r * (1-p)^k,但是最后一次成功是在最后一次试验中,所以前半部分的排列组合为(k+r-1)C(r-1)。
用以上公式可以求出,在第 100 次刚好抽到第 10 张紫卡的概率为:99C9*0.1^10*0.9^90=0.013187
这个概率低得可怕,但是玩家并不是真的关心“我第 100 张抽到第 10 张紫卡的概率”,玩家在意的应该是“我在 100 张之内可以抽到 10 张紫卡的概率”。
这里又要用到之前说到的累积概率了,负二项式的累积概率算法和二项式很像,也是把 x<k 的所有概率加起来。也就是 P(第 100 张抽到第 10 张紫卡)+P(第 99 张抽到第 10 张紫卡)...
通过各种概率论和微积分之后(我就不展开了...),这个累积概率可以"简化”成这样:
好了不要纠结那个大写 I 是什么鬼,我们直接把负二项式的概率分布画出来,它长这样:
上图为 Neg~(r=10,p=0.1)的 pmf 和 cdf,红色区域为 50% 分界线,意为被在红色范围内发生的概率为 50%。 通过上图可以看出,要想有 50%的概率得到 10 张紫卡,那你得抽 97 次。
那我要 80% 的概率呢?
如果想要 80%的概率得到 10 张紫卡,那你得抽 124 次。
以相同的方法我可以看到要 99% 的概率就需要 183 次。
看到这里我相信原本奔溃的朋友现在已经爆炸了。 我现在来讲解一个更坑爹的抽卡形式,以求一击致命。
几何分布 Geometric Distribution
几何分布的定义为: 获得一次成功所需要的总共尝试次数的概率分布。 其概率质量函数为:
其期望值为 1/p,方差为(1-p)/p^2
这也很好理解,如果第一次成功发生在第 k 次,那么前面的 k-1 次都肯定是失败了。
所以如果 p=0.1,那么第一次就抽到紫卡的概率为 0.1, 第五次就抽到第一张紫卡的概率为 0.06561
好了,现在我们可以来讲抽卡游戏里最坑爹的套路了:
奖券收集问题 Coupon Collector's Problem
最直白的解释就是“集齐 N 张奖券可以换取最终奖励。” (集齐 9 个碎片即可召唤终极武将,集齐 9 张魏国武将即可解锁终极属性加成,我瞎 BB 的例子,不要当真)
假设一个盒子里有 N 张不同的奖券,每张奖券被选中的概率都是相同的,并且抽走之后会放一张同样的奖券进入这个盒子里, 也就是说盒子里始终保持着 N 张不同的奖券。 那么收集到所有奖券所需要的次数是多少?
解决这个问题的关键在于你要发现刚开始的时候收集起来很容易,但是随着你已有的奖券越来越多,获取新奖券的概率就会逐渐减少... 而你集齐所有奖券的概率是这每一张奖券概率的集合。
我们现在来算一下这个问题的期望值:
设 T 为获取所有 N 种奖券所用的总次数的随机函数,ti 为获取第 i 张奖券用的次数的随机函数。获取一张新奖券的概率为 pi=(n-(i-1))/n,由于这事件服从几何分布,所以其期望值 E(ti)=1/pi
获取第一张奖券的概率为 p1=100%(因为此时你还没有任何奖券,任意一张对于你来说都是有用的)。 E(t1)=1
获取第二张奖券的概率为 p2=(n-1)/n (此时的概率不再是百分之百了,因为你已经有了第一张,所以概率分子相应地减一)。 E(t2)=n/n-1
最后可以算出:
好了,我就不解释这公式什么意思,直接上图:
可以发现,凑齐 9 个碎片需要的总次数期望值为 26 次。。。 不要以为 9 个碎片就只需要抽 9 次了喔。 然而更可怕的事…在凑卡牌阵容的时候,这些紫卡本身就极难获取(不像每次抽奖券都能抽到,只是有可能重复罢了),如果还要来给这些紫卡”搭配出某种阵容以得到最好的加成”就更是难上加难了。
你以为这就完了吗? 我们还没有讨论方差呢! 刚刚说的 26 次只是个期望,方差可以让我们有可能用更少的次数凑齐,也有可能让我们以更多的次数凑齐。
请系好安全戴,现在我们来看看方差的影响。
由于 ti 符合几何分布,而几何分布的方差为 1-p/p^2,那么导出方差 Var(T)
光是看到最后 n^2 就知道这个问题的方差很大(和前两个比起来),发生好事的概率高,发生坏事的概率也高!
这是 coupon collector problem 的概率分布图:
红色部分是 26(期望值)次抽卡所覆盖的概率,大约为 62.9%,也就是说抽 26 次能集齐 9 个碎片的概率只有 62.9%。
那如果你要收集所有 SR 式神,假如有 25 个,那么分布如下:
要想 99%的概率收集齐 25 只,一共需要抽 192 次 SR。所以有强迫症的玩家要三思喔!
好了,我们讲了那么久的概率,期望值,方差,相信小学生们应该有个初步的统计思维了,总结一下就是:
1.期望值只是一个期望,并不能代表一定能发生。它的意义为你重复地做一件事,它的结果会在期望值附近游荡。
2.方差描述了每次结果距离期望值有多远,方差越大那么结果在期望值附近游荡得越厉害(可以是好的游荡也可以是不好的游荡)。
有了以上概念,现在可以系统性地讲一下如何理性评估自己的抽卡结果。
刚刚我一直在强调 “抽 124 次有 80% 的概率拿到 10 张紫卡”, “抽 192 次有 99% 的概率收集齐 25 只 SR”,现在我们引入一个概念:
置信区间 Confidence Interval
在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。
比如说抽一百次卡,假设 95% 置信区间是在 8-12 张紫卡之间,那么就有 95% 的可能性真实的紫卡数量在 8-12 之间。 方差越大,意味着分布越分散,那么这个区间的范围就会越宽阔。
我们继续用最简单的例子来说:
抽 100 次,抽中的概率为 10%,那我应该如何”理性评估自己的结果呢?“
在各式各样的概率分布中,正态分布是最常用的一个,同时由于它的对称性,其置信区间也非常容易算。
简单来说,就说距离期望值 1 个基准差之内的是 68%的置信区间,2 个基准差之内的是 95%,3 个基准差之内的是 99.7%
细心的朋友也许发现了,这个和最开始那个二项式分布长得好像呀!
当 n(抽卡次数)足够大,p(成功概率)又不是非常小时,二项式分布会趋近于正态分布。
Binomial~(n,p) ------> Normal~(np,np(1-p))
还是相同的例子
拟合出的正态分布期望值为 100*0.1=10,方差为 100*0.1*0.9=9,因此基准差为 3
那么 95%的置信区间就大约为 (10-2*3,10+2*3)=(4,16)
抽 1000 次呢?
期望值=100,方差为 90,基准差为 90^0.5=9.5.
那么 95%的置信区间就大约为 (100-19,10+19)=(81,119)
细心的小朋友又可以发现,好像随着样本(n)变大,置信区间就相对地变窄了,我的理性预测也更精准了呢!
好了,是时候放终极大招了。
大数定理 Law of Large Numbers
在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。 (摘自百度百科)
如果你还是觉得自己运气不好,被拉进了非洲人黑名单,程序员故意和你作对,其实这些都是方差导致的,要想解决这个问题也很简单:
你继续抽啊!
重复试验多次,随机事件的频率近似于它的概率!
重复试验多次,随机事件的频率近似于它的概率!
重复试验多次,随机事件的频率近似于它的概率!
有知友在评论区里提到”然而抽卡的资金会越来越少,被坑之后也很难再去大规模的试验真实的概率了。“
我回答到:“找概率验证公司,让公司去找其他玩家采样,有足够样本之后反推抽卡的真实概率。”
现在我想来更新一下如何“反推”抽卡的真实概率,会更新两个新话题:
1.二项式分布概率检验 Binomial Proportion Test
2.抽样调查基础理论 Sampling Survey
如果发布之后反响还不错,我打算更新更多内容,比如:
3.如何验证游戏公司有没有区别对待各类别玩家(比如检测中国的紫卡率是不是低于美国什么的,安卓服务器是不是爆率低于苹果服务器)
4.强化装备时失败会掉级或者爆装备,那理论上强到满级的强化次数的期望值和方差怎么算?