用户画像分析专题分享
统计学基础
集中量:求和、平均数、中位数、众数、
差异量:全距、标准差、方差、最小值、最大值、标准误
分布:正态分布、峰度系数、偏度系数、正偏态、负偏态、高狭峰、低阔峰、离散变量、连续变量
用户画像概述
用户画像概述
数据挖掘
典型个体定性描述 群体定量分类统计
一、群体用户定量描述统计
群体定量分类统计——各类用户性别构成
群体定量分类统计——各类XX用户年龄构成
群体定量分类统计——各类XX用户年龄构成
用户年龄分布图
二、个体用户定性描述
典型用户个体描述案例
访谈发现:1.对于广大低端用户来说,易理解、简单、方便、快捷是他们最需要的,也是他们不用MSN的原因之一;2.用户对XX依赖性很大,这样的用户希望XX的功能更强大,真正实现一站式在线生活。
典型用户个体描述
访谈发现:1,很多女用户虽然使用电脑多年但是依然是个电脑白痴,对她们来说所有操作如果超过两步就会晕!对于设置性操作她们基本没有使用过,她们只使用初始化设置,希望在修改设置方面更简单!2,该用户的另一个特点就是“懒”,稍微有点麻烦或困难,她们就会懒得做,懒得想,如果有傻瓜式,全自动式操作就很适合她们。
三、用户画像数据挖掘
XX用户【聚类分析】特征得到的启发
用户画像流程
用户画像流程
研究 目的 确定目标用户 用户 抽样
数据 整理
数据整理统计挖掘 结论 展示
提取用户
抽样的几个概念
•是所要研究的对象的全体。例如,考察XX农场用户体验,目标总体就是所有的XX农场的用户。抽样总体是用于从中抽取样本的总体。
•从目标总体(Population,或称为母体)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识。
•在抽样之前,总体应划分成抽样单位,抽样单位互不重叠且能合成总体,总体中的每个个体只属于一个单位。抽样框是一份包含所有抽样单元的名单。
抽样过程
定义总体(母体) 确定抽样框 确定抽样方法 决定样本量 实施抽样计划 抽样与数据收集 回顾抽样过程
抽样方法
•从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的概率被抽中。特点是:每个样本单位被抽中的概率相等,样本的每个单位完全,彼此间无一定的关联性和排斥性。
•等距抽样。将总体中的所有单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k、r+2k……等单位。这种方法操作简便,可提高估计的精度。
•将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。
•将总体中若干个单位合并为组,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。抽样时只需群的抽样框,可简化工作量,缺点是估计的精度较差
抽样效度与信度
数据整理
数据检查——用户选择
用户年龄占比分布
用户画像数据挖掘实例演示
对应分析数据格式整理
加权个案
对应分析过程
对应分析——定义行范围(用户类别)
对应分析——定义列范围(用户特征)
对应分析结果图
减少用户特征
用户画像方法 ——“聚类分析”实例演示
人群划分
聚类分析
根据数据本身结构特征对数据进行分类的方法——聚类分析,通过聚类分析,可以把数据分成若干个类别,使得类别内部的差异尽可能的小,类别外部差异尽可能大。
聚类分析的种类
数据检查
SPSS 两步聚类分析
AA聚类分析结果
用户画像在工作中的实际应用
星座与气质用户画像
收集数据的十个原则
一、思考研究问题之初,也要开始思考回答问题需要收集的数据类型。 二、在思考数据类型的时候,也要思考从何处获得数据。 三、保证你用于收集数据的表格简单容易。
四、始终记得对数据文件进行备份,并存储在不同地方。已经丢失&即将丢失。 五、不要依赖他人收集或转换数据。 六、计划详细的何时何收集数据的日程表
七、只要有可能,就为你的项目培育可能的数据来源。 八、尽力追踪遗漏了的测试或者访谈对象。 九、永远不要销毁你的原始数据。
回复