1、逻辑性:
对于分析而言,这很重要。一个首先的要求,是要充分认识到事情的复杂性,以及研究的聚焦性。
举个例子,当我们分析一个现象的背后原因时,有两种处理方式:
A,对所有可能导致这一现象发生的因素做全部的列举(甚至穷举),然后按照一定的优先级排序,在对优先级高的因素做具体分析,然后绘制一个因素的影响图谱。再通过数据调研,用户访谈,大数据分析或专家访谈,最终输出结论;
B,导致这一现象发生的因素多于复杂或过于分散或很多因素不具备可分析性,以及,一种因素的影响力远超其他。这时候我们会选择最可实现或最重要的那个因素,将其他因素的影响抹平后,对这个因素做单独分析(分析流程和 A 类似,各种数据和采访)。
另外,保证逻辑性的另一个技巧,是延展和追问。再举个例子:
例如一个现象是现代社会癌症发病率高于古代。这个现象可以分析出很多假设因素,例如环境污染、生活习惯改变、医学认知升级等等。但这些因素的逻辑中存在一个预设缺陷——就是癌症发病率的年龄段没有做好一个对齐。
因为古代人均寿命是低于现代社会的。而一些癌症的发病通常在壮年期或晚年期。所以要让这个分析成立,前提条件一定是在古代和现代的人群年龄上做一个对齐。发现这个漏洞,就要靠延展和追问,去看所有的因素和现象之外,是否还有我们的认知和设问盲区。
2、严谨性:
企鹅智酷内部培训中经常会说的一个点,就是“要对数据保持足够的敬畏和警惕”。听上去有些矛盾,但在我们的实践中(3 年来上百次数据调研和大数据应用,总数据量级累计过亿),这句话变得很关键。
敬畏是要对数据保持一种尊重和严肃。一个基本的逻辑伦理就是“不改数,永远不做假数据”。从本身讲,这个是最基本的生死线。作为一个非营利性的团队,我们有幸在这方面做到了。
而“警惕”,是对数据的使用有足够的审慎。数据特别是调查数据,很容易得出我们希望的结论,或者我们期望的数字。不同的问卷角度,不同的抽样方式,都会给出各种“令你满意的数据结论”。而在此时,保持警惕就非常重要。不要去尝试“利用数据”。
这里面需要对所研究领域的积累,经验和第三方足够可信的数据,来辅助你判断。智酷团队的媒体基因,起到了一个很好的辅助。我们离行业更近,对于信息的收集和归纳对比,也有资源方面的积累。
3、怀疑性:
这个和敬畏好像矛盾?其实不矛盾。怀疑分两部分,一个是怀疑案例,另一个是怀疑数据。
先说怀疑数据。前面提到的敬畏数据,是要敬畏我们最终经过多次抽样、分层和校验后的最终输出,这个不能改,不能因为利益或和公司产品相关而做出变动;而怀疑,是要对初始数据保持怀疑精神。
举个简单例子。我在看原始数据时(第一稿),一个基本的线,是超过 70% 的占比分布(市场份额,渗透率等等),都要列入怀疑对象却重点审核。因为过高的占比,不符合基本的商业分布通常状态。
这种怀疑的过程,有时候是无用功。怀疑了,但发现数据没错误,真的就是这么高的比例(特别在研究一个具备统治力的市场时);有时候会发现原始数据中的问题,可能是样本污染,可能是抽样匹配度不足等等,这就让我们在做接下来进一步数据提取时,扫除了很多雷区。
对于案例的怀疑,同样重要。在做数据和商业分析时,常常要结合案例去看。而在互联网时代,很多案例通常被包装的非常美好。但对于企鹅智酷分析师来说,我们的一个基本要求是:要带着怀疑,去看所有“过于美好”的故事。和数据一样,这种怀疑有时候不会发现什么秘密,但有时候,你会看到美好后面的一些问题。
有人说对待数据的态度好像是分裂的。其实还好,对数据的态度,我比较认可的一种是:尊重和相信数据的力量与隐藏的巨大可分析的潜能;同时,在目前的阶段,对于数据分析的结论有效性,保持充分的审慎和校验,不断让自己接近真相。
4、认同缺陷:
大数据现在处于一个很热的状态。我本人也确实是个数据控。但对于企鹅智酷商业分析来说,有一个基本的思维逻辑,就是——一定有一些事情,是数据无法解释的。
这不是数据的问题。而是很多行业的数据积累,数据量化和数据的挖掘,以及数据与商业之间的关联性,目前还没有达到一个足够成熟和完备的阶段。
所以,我们在做商业分析和数据分析的时候,需要对这种缺陷保持认同。而不是陷入一种非黑即白,一定要有一个对错的局面。因为强求数据和商业现象的完全匹配,某种程度上,也是对数据的不尊重,甚至是一种“无意识的作假”。
企鹅智酷的一个基本处理方法是:数据和商业对比,尽量去合理匹配与分析。对于无法匹配的,做一轮再分析,看看是否是数据或商业分析有错误。如果确认都无误,那就数据的归数据,商业的归商业,最终保留我们认为更可靠的那个结论,而不是强行匹配。
还有很多经验,以后有机会再和大家交流。互联网商业分析和数据方法,这里面其实除了思维训练,还有更重要的数据伦理方面的建设。希望企鹅智酷和大家一样保持初心,让中国互联网的数据和商业分析越来越透明,越来越准确。
企鹅智酷主编:王冠