基本概念

商业智能

商业智能(Business Intelligence),缩写是BI,相比于数据仓库、数据挖掘,它是一个更大的概念

商业智能可以说是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程

所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金

数据仓库

数据仓库(Data Warehouse),缩写是DW,它可以说是BI这个房子的地基,搭建好DW这个地基之后,才能进行分析使用,最后产生价值

数据仓库可以说是数据库的升级概念。从逻辑上理解,数据库和数据仓库没有什么区别,都是通过数据库技术来存储数据的

不过从数量上来讲,数据仓库的量更庞大,适用于数据挖掘和数据分析

数据库可以理解是一项技术。数据仓库将原有的多个数据来源中的数据进行汇总、整理而得

数据进入数据仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘

数据挖掘

数据挖掘(Data Mining),缩写是DM。在商业智能BI中经常会使用到数据挖掘技术

数据挖掘的一个英文解释叫 Knowledge Discovery in Database,简称 KDD,也就是数据库中的知识发现

数据挖掘的核心包括分类、聚类、预测、关联分析等任务,通过这些炼金术,我们可以从数据仓库中得到宝藏,比如商业报告

很多时候,企业老板总是以结果为导向,他们认为商业报告才是他们想要的,但是这也是需要经过地基DW、搬运工ETL、科学家DM等共同的努力才得到的

元数据

元数据(MetaData),描述其它数据的数据,也称为"中介数据",在生活中,只要有一类事物,就可以定义一套元数据

比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息,我们就可以把这些属性定义成一套图书的元数据

元数据最大的好处是使信息的描述和分类实现了结构化,让机器处理起来很方便,元数据可以很方便地应用于数据仓库

比如数据仓库中有数据和数据之间的各种复杂关系,为了描述这些关系,元数据可以对数据仓库的数据进行定义,刻画数据的抽取和转换规则,存储与数据仓库主题有关的各种信息

而且整个数据仓库的运行都是基于元数据的,比如抽取调度数据、获取历史数据等。通过元数据,可以很方便地帮助我们管理数据仓库

数据元

数据元(Data Element),就是最小数据单元

在图书这个元数据中,书名、作者、出版社就是数据元

数据挖掘的流程

在数据挖掘中,有几个非常重要的任务,就是分类、聚类、预测和关联分析

分类

分类就是通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类

训练集是用来给机器做训练的,通常是人们整理好训练数据,以及这些数据对应的分类标识,通过训练,机器就产生了自我分类的模型

然后机器就可以拿着这个分类模型,对测试集中的数据进行分类预测,测试集中已经给出了测试结果,我们就可以用测试结果来做验证,从而了解分类器在测试环境下的表现

聚类

人以群分,物以类聚。聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。我们往往利用聚类来做数据划分

预测

顾名思义,就是通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险

关联分析

就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中

数据预处理相关

数据清洗主要是为了去除重复数据,去噪声(即干扰数据)以及填充缺失值

数据集成是将多个数据源中的数据存放在一个统一的数据存储中

数据变换就是将数据转换成适合数据挖掘的形式。比如,通过归一化将属性数据按照比例缩放,这样就可以将数值落入一个特定的区间内,比如 0~1 之间

白话数据概念

比如你认识了两个漂亮的女孩

商业智能会告诉你要追哪个?成功概率有多大?

数据仓库会说,我这里存储了这两个女孩的相关信息,你要吗?

其中每个女孩的数据都有单独的文件夹,里面有她们各自的姓名、生日、喜好和联系方式等,这些具体的信息就是数据元,加起来叫作元数据

数据挖掘会帮助你确定追哪个女孩,并且整理好数据仓库,这里就可以使用到各种算法,帮你做决策了

可能会用到分类算法。御姐、萝莉、女王,她到底属于哪个分类

如果认识的女孩太多了,多到你已经数不过来了,比如说5万人

你就可以使用聚类算法了,它帮你把这些女孩分成多个群组,比如5个组

然后再对每个群组的特性进行了解,进行决策。这样就把5万人的决策,转化成了5个组的决策

成功实现降维,大大提升了效率。如果你想知道这个女孩的闺蜜是谁,那么关联分析算法可以告诉你

如果你的数据来源比较多,比如有很多朋友给你介绍女朋友,很多人都推荐了同一个,你就需要去重,这叫数据清洗

为了方便记忆,你把不同朋友推荐的女孩信息合成一个,这叫数据集成

有些数据渠道统计的体重的单位是公斤,有些是斤,你就需要将它们转换成同一个单位,这叫数据变换

最后你可以进行数据可视化了,它会直观地把你想要的结果呈现出来

其他

同比(上一个相同的时间单位相比) = (本期数 - 同期数) / 同期数 = 本期数 / 同期数 - 1

环比(上一个相邻的时间单位相比) = (本期数 - 上期数) / 上期数 = 本期数 / 上期数 - 1

GMV(Gross Merchandise Volume):一段时间内的商品交易总额

获客成本(CAC - Customer Acquisition Cost)= 市场营销和销售的总花销 / 获取的新客数量

在计算市场营销和销售的总成本时,可以考虑以下方面

  • 市场和销售人员的工资成本
  • 广告投放等宣传的开销
  • 相关资源的成本,比如官网研发、ppt 设计投入的资金和人力成本等
  • 相关营销和销售工具的成本,比如购买营销自动化工具和 CRM 的费用等
  • 一些额外开销,例如销售人员的差旅费报销、活动费等

留客成本(CRC - Customer Retention Cost)= 在客户留存上的总花销 / 留存的客户数量

在计算客户留存的总开销时,你需要考虑以下方面

  • 客户成功、客服和技术支持等成员为了留住客户而耗费的人力成本
  • 客户交付、上手、内部推广等工作所需的花费
  • 相关工具的花费,比如购买客户成功、客服、运营分析软件的费用等
  • 一些额外开销,例如客户成功、技术支持人员的上门费、差旅费报销等

留存率 = 新增用户中登录用户数 / 新增用户数 * 100%(一般统计周期为天)

  • 新增用户数:在某个时间段(一般为第一整天)新登录应用的用户数
  • 登录用户数:登录应用后至当前时间,至少登录过一次的用户数
  • 第N日留存:新增用户日之后的第N日依然登录的用户占新增用户的比例
  • 第1日留存率(次留):(当天新增的用户中,新增日之后的第1天还登录的用户数)/ 第一天新增总用户数
  • 第7日留存率:(当天新增的用户中,新增日之后的第7天还登录的用户数)/第一天新增总用户数
  • 第30日留存率:(当天新增的用户中,新增日之后的第30天还登录的用户数)/第一天新增总用户数

流失率 = 新增用户中未登录用户数 / 新增用户数 * 100%

  • 一般可以设置一个流失临界点(如:30天),当前时间点 – 用户注册时间点 > 流失临界时间间隔,则认为用户流失

results matching ""

    No results matching ""