基本概念

商业智能

商业智能（Business Intelligence），缩写是BI，相比于数据仓库、数据挖掘，它是一个更大的概念

商业智能可以说是基于数据仓库，经过了数据挖掘后，得到了商业价值的过程

所以说数据仓库是个金矿，数据挖掘是炼金术，而商业报告则是黄金

数据仓库

数据仓库（Data Warehouse），缩写是DW，它可以说是BI这个房子的地基，搭建好DW这个地基之后，才能进行分析使用，最后产生价值

数据仓库可以说是数据库的升级概念。从逻辑上理解，数据库和数据仓库没有什么区别，都是通过数据库技术来存储数据的

不过从数量上来讲，数据仓库的量更庞大，适用于数据挖掘和数据分析

数据库可以理解是一项技术。数据仓库将原有的多个数据来源中的数据进行汇总、整理而得

数据进入数据仓库前，必须消除数据中的不一致性，方便后续进行数据分析和挖掘

数据挖掘

数据挖掘（Data Mining），缩写是DM。在商业智能BI中经常会使用到数据挖掘技术

数据挖掘的一个英文解释叫 Knowledge Discovery in Database，简称 KDD，也就是数据库中的知识发现

数据挖掘的核心包括分类、聚类、预测、关联分析等任务，通过这些炼金术，我们可以从数据仓库中得到宝藏，比如商业报告

很多时候，企业老板总是以结果为导向，他们认为商业报告才是他们想要的，但是这也是需要经过地基DW、搬运工ETL、科学家DM等共同的努力才得到的

元数据

元数据（MetaData），描述其它数据的数据，也称为"中介数据"，在生活中，只要有一类事物，就可以定义一套元数据

比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息，我们就可以把这些属性定义成一套图书的元数据

元数据最大的好处是使信息的描述和分类实现了结构化，让机器处理起来很方便，元数据可以很方便地应用于数据仓库

比如数据仓库中有数据和数据之间的各种复杂关系，为了描述这些关系，元数据可以对数据仓库的数据进行定义，刻画数据的抽取和转换规则，存储与数据仓库主题有关的各种信息

而且整个数据仓库的运行都是基于元数据的，比如抽取调度数据、获取历史数据等。通过元数据，可以很方便地帮助我们管理数据仓库

数据元

数据元（Data Element），就是最小数据单元

在图书这个元数据中，书名、作者、出版社就是数据元

数据挖掘的流程

在数据挖掘中，有几个非常重要的任务，就是分类、聚类、预测和关联分析

分类

分类就是通过训练集得到一个分类模型，然后用这个模型可以对其他数据进行分类

训练集是用来给机器做训练的，通常是人们整理好训练数据，以及这些数据对应的分类标识，通过训练，机器就产生了自我分类的模型

然后机器就可以拿着这个分类模型，对测试集中的数据进行分类预测，测试集中已经给出了测试结果，我们就可以用测试结果来做验证，从而了解分类器在测试环境下的表现

聚类

人以群分，物以类聚。聚类就是将数据自动聚类成几个类别，聚到一起的相似度大，不在一起的差异性大。我们往往利用聚类来做数据划分

预测

顾名思义，就是通过当前和历史数据来预测未来趋势，它可以更好地帮助我们识别机遇和风险

关联分析

就是发现数据中的关联规则，它被广泛应用在购物篮分析，或事务数据分析中

数据预处理相关

数据清洗主要是为了去除重复数据，去噪声（即干扰数据）以及填充缺失值

数据集成是将多个数据源中的数据存放在一个统一的数据存储中

数据变换就是将数据转换成适合数据挖掘的形式。比如，通过归一化将属性数据按照比例缩放，这样就可以将数值落入一个特定的区间内，比如 0~1 之间

白话数据概念

比如你认识了两个漂亮的女孩

商业智能会告诉你要追哪个？成功概率有多大？

数据仓库会说，我这里存储了这两个女孩的相关信息，你要吗？

其中每个女孩的数据都有单独的文件夹，里面有她们各自的姓名、生日、喜好和联系方式等，这些具体的信息就是数据元，加起来叫作元数据

数据挖掘会帮助你确定追哪个女孩，并且整理好数据仓库，这里就可以使用到各种算法，帮你做决策了

可能会用到分类算法。御姐、萝莉、女王，她到底属于哪个分类

如果认识的女孩太多了，多到你已经数不过来了，比如说5万人

你就可以使用聚类算法了，它帮你把这些女孩分成多个群组，比如5个组

然后再对每个群组的特性进行了解，进行决策。这样就把5万人的决策，转化成了5个组的决策

成功实现降维，大大提升了效率。如果你想知道这个女孩的闺蜜是谁，那么关联分析算法可以告诉你

如果你的数据来源比较多，比如有很多朋友给你介绍女朋友，很多人都推荐了同一个，你就需要去重，这叫数据清洗

为了方便记忆，你把不同朋友推荐的女孩信息合成一个，这叫数据集成

有些数据渠道统计的体重的单位是公斤，有些是斤，你就需要将它们转换成同一个单位，这叫数据变换

最后你可以进行数据可视化了，它会直观地把你想要的结果呈现出来

其他

同比（上一个相同的时间单位相比） = (本期数 - 同期数) / 同期数 = 本期数 / 同期数 - 1

环比（上一个相邻的时间单位相比） = (本期数 - 上期数) / 上期数 = 本期数 / 上期数 - 1

GMV（Gross Merchandise Volume）：一段时间内的商品交易总额

获客成本（CAC - Customer Acquisition Cost）= 市场营销和销售的总花销 / 获取的新客数量

在计算市场营销和销售的总成本时，可以考虑以下方面

市场和销售人员的工资成本
广告投放等宣传的开销
相关资源的成本，比如官网研发、ppt 设计投入的资金和人力成本等
相关营销和销售工具的成本，比如购买营销自动化工具和 CRM 的费用等
一些额外开销，例如销售人员的差旅费报销、活动费等

留客成本（CRC - Customer Retention Cost）= 在客户留存上的总花销 / 留存的客户数量

在计算客户留存的总开销时，你需要考虑以下方面

客户成功、客服和技术支持等成员为了留住客户而耗费的人力成本
客户交付、上手、内部推广等工作所需的花费
相关工具的花费，比如购买客户成功、客服、运营分析软件的费用等
一些额外开销，例如客户成功、技术支持人员的上门费、差旅费报销等

留存率 = 新增用户中登录用户数 / 新增用户数 * 100%（一般统计周期为天）

新增用户数：在某个时间段（一般为第一整天）新登录应用的用户数
登录用户数：登录应用后至当前时间，至少登录过一次的用户数
第N日留存：新增用户日之后的第N日依然登录的用户占新增用户的比例
第1日留存率（次留）：（当天新增的用户中，新增日之后的第1天还登录的用户数）/ 第一天新增总用户数
第7日留存率：（当天新增的用户中，新增日之后的第7天还登录的用户数）/第一天新增总用户数
第30日留存率：（当天新增的用户中，新增日之后的第30天还登录的用户数）/第一天新增总用户数

流失率 = 新增用户中未登录用户数 / 新增用户数 * 100%

一般可以设置一个流失临界点（如：30天），当前时间点 – 用户注册时间点 > 流失临界时间间隔，则认为用户流失

基本概念

基本概念

商业智能

数据仓库

数据挖掘

元数据

数据元

数据挖掘的流程

数据预处理相关

白话数据概念

其他

results matching ""

No results matching ""