基本概念
商业智能
商业智能(Business Intelligence),缩写是BI,相比于数据仓库、数据挖掘,它是一个更大的概念
商业智能可以说是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程
所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金
数据仓库
数据仓库(Data Warehouse),缩写是DW,它可以说是BI这个房子的地基,搭建好DW这个地基之后,才能进行分析使用,最后产生价值
数据仓库可以说是数据库的升级概念。从逻辑上理解,数据库和数据仓库没有什么区别,都是通过数据库技术来存储数据的
不过从数量上来讲,数据仓库的量更庞大,适用于数据挖掘和数据分析
数据库可以理解是一项技术。数据仓库将原有的多个数据来源中的数据进行汇总、整理而得
数据进入数据仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘
数据挖掘
数据挖掘(Data Mining),缩写是DM。在商业智能BI中经常会使用到数据挖掘技术
数据挖掘的一个英文解释叫 Knowledge Discovery in Database,简称 KDD,也就是数据库中的知识发现
数据挖掘的核心包括分类、聚类、预测、关联分析等任务,通过这些炼金术,我们可以从数据仓库中得到宝藏,比如商业报告
很多时候,企业老板总是以结果为导向,他们认为商业报告才是他们想要的,但是这也是需要经过地基DW、搬运工ETL、科学家DM等共同的努力才得到的
元数据
元数据(MetaData),描述其它数据的数据,也称为"中介数据",在生活中,只要有一类事物,就可以定义一套元数据
比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息,我们就可以把这些属性定义成一套图书的元数据
元数据最大的好处是使信息的描述和分类实现了结构化,让机器处理起来很方便,元数据可以很方便地应用于数据仓库
比如数据仓库中有数据和数据之间的各种复杂关系,为了描述这些关系,元数据可以对数据仓库的数据进行定义,刻画数据的抽取和转换规则,存储与数据仓库主题有关的各种信息
而且整个数据仓库的运行都是基于元数据的,比如抽取调度数据、获取历史数据等。通过元数据,可以很方便地帮助我们管理数据仓库
数据元
数据元(Data Element),就是最小数据单元
在图书这个元数据中,书名、作者、出版社就是数据元
数据挖掘的流程
在数据挖掘中,有几个非常重要的任务,就是分类、聚类、预测和关联分析
分类
分类就是通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类
训练集是用来给机器做训练的,通常是人们整理好训练数据,以及这些数据对应的分类标识,通过训练,机器就产生了自我分类的模型
然后机器就可以拿着这个分类模型,对测试集中的数据进行分类预测,测试集中已经给出了测试结果,我们就可以用测试结果来做验证,从而了解分类器在测试环境下的表现
聚类
人以群分,物以类聚。聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。我们往往利用聚类来做数据划分
预测
顾名思义,就是通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险
关联分析
就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中
数据预处理相关
数据清洗主要是为了去除重复数据,去噪声(即干扰数据)以及填充缺失值
数据集成是将多个数据源中的数据存放在一个统一的数据存储中
数据变换就是将数据转换成适合数据挖掘的形式。比如,通过归一化将属性数据按照比例缩放,这样就可以将数值落入一个特定的区间内,比如 0~1 之间
白话数据概念
比如你认识了两个漂亮的女孩
商业智能会告诉你要追哪个?成功概率有多大?
数据仓库会说,我这里存储了这两个女孩的相关信息,你要吗?
其中每个女孩的数据都有单独的文件夹,里面有她们各自的姓名、生日、喜好和联系方式等,这些具体的信息就是数据元,加起来叫作元数据
数据挖掘会帮助你确定追哪个女孩,并且整理好数据仓库,这里就可以使用到各种算法,帮你做决策了
可能会用到分类算法。御姐、萝莉、女王,她到底属于哪个分类
如果认识的女孩太多了,多到你已经数不过来了,比如说5万人
你就可以使用聚类算法了,它帮你把这些女孩分成多个群组,比如5个组
然后再对每个群组的特性进行了解,进行决策。这样就把5万人的决策,转化成了5个组的决策
成功实现降维,大大提升了效率。如果你想知道这个女孩的闺蜜是谁,那么关联分析算法可以告诉你
如果你的数据来源比较多,比如有很多朋友给你介绍女朋友,很多人都推荐了同一个,你就需要去重,这叫数据清洗
为了方便记忆,你把不同朋友推荐的女孩信息合成一个,这叫数据集成
有些数据渠道统计的体重的单位是公斤,有些是斤,你就需要将它们转换成同一个单位,这叫数据变换
最后你可以进行数据可视化了,它会直观地把你想要的结果呈现出来
其他
同比(上一个相同的时间单位相比) = (本期数 - 同期数) / 同期数 = 本期数 / 同期数 - 1
环比(上一个相邻的时间单位相比) = (本期数 - 上期数) / 上期数 = 本期数 / 上期数 - 1
GMV(Gross Merchandise Volume):一段时间内的商品交易总额
获客成本(CAC - Customer Acquisition Cost)= 市场营销和销售的总花销 / 获取的新客数量
在计算市场营销和销售的总成本时,可以考虑以下方面
- 市场和销售人员的工资成本
- 广告投放等宣传的开销
- 相关资源的成本,比如官网研发、ppt 设计投入的资金和人力成本等
- 相关营销和销售工具的成本,比如购买营销自动化工具和 CRM 的费用等
- 一些额外开销,例如销售人员的差旅费报销、活动费等
留客成本(CRC - Customer Retention Cost)= 在客户留存上的总花销 / 留存的客户数量
在计算客户留存的总开销时,你需要考虑以下方面
- 客户成功、客服和技术支持等成员为了留住客户而耗费的人力成本
- 客户交付、上手、内部推广等工作所需的花费
- 相关工具的花费,比如购买客户成功、客服、运营分析软件的费用等
- 一些额外开销,例如客户成功、技术支持人员的上门费、差旅费报销等
留存率 = 新增用户中登录用户数 / 新增用户数 * 100%(一般统计周期为天)
- 新增用户数:在某个时间段(一般为第一整天)新登录应用的用户数
- 登录用户数:登录应用后至当前时间,至少登录过一次的用户数
- 第N日留存:新增用户日之后的第N日依然登录的用户占新增用户的比例
- 第1日留存率(次留):(当天新增的用户中,新增日之后的第1天还登录的用户数)/ 第一天新增总用户数
- 第7日留存率:(当天新增的用户中,新增日之后的第7天还登录的用户数)/第一天新增总用户数
- 第30日留存率:(当天新增的用户中,新增日之后的第30天还登录的用户数)/第一天新增总用户数
流失率 = 新增用户中未登录用户数 / 新增用户数 * 100%
- 一般可以设置一个流失临界点(如:30天),当前时间点 – 用户注册时间点 > 流失临界时间间隔,则认为用户流失