数据分析

参考

《利用python进行数据分析第二版》 《精益数据分析》 《增长黑客》 《麦肯锡方法》 《金字塔原理》

学习数据分析的核心就是培养数据思维,掌握挖掘工具,熟练实践并积累经验

MAS方法

  • Multi-Dimension:想要掌握一个事物,就要从多个角度去认识它
  • Ask:不懂就问,程序员大多都很羞涩,突破这一点,不懂就问最重要
  • Sharing:最好的学习就是分享。用自己的语言讲出来,是对知识的进一步梳理

数据分析全景图

  • 数据采集 - 它是我们的原材料,也是最“接地气”的部分,因为任何分析都要有数据源
    • 数据来源 - 开源数据源、爬虫抓取、日志采集、传感器等
    • Python爬虫 - Selenium、lxml、Scrapy、phantomjs、requests、BeautifulSoup
  • 数据挖掘 - 它可以说是最“高大上”的部分,也是整个商业价值所在
    • 之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务
    • 因此数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能 BI
    • 基本流程 - 商业理解、数据理解、数据准备、模型建立、模型评估、上线发布
    • 数学基础
      • 概率论与数据统计 - 数据挖掘里使用到概率论的地方比较多。如条件概率、独立性的概念,以及随机变量、多维随机变量的概念
      • 线性代数 - 向量和矩阵被广泛应用到数据挖掘中。如 PCA 方法、SVD 方法,以及 MF、NMF 方法等在数据挖掘中都有广泛的应用
      • 图论 - 社交网络的兴起,让图论的应用也越来越广。当然图论对于网络结构的分析非常有效,同时图论也在关系挖掘和图像分割中有重要的作用
      • 最优化方法 - 最优化方法相当于机器学习中自我学习的过程,当机器知道了目标,训练后与结果存在偏差就需要迭代调整,那么最优化就是这个调整的过程
    • 十大算法
      • 分类算法 - C4.5、朴素贝叶斯(Naive Bayes)、SVM、KNN、Adaboost、CART
      • 聚类算法 - K-Means、EM
      • 关联分析 - Apriori
      • 连接分析 - PageRank
    • 实战
      • 如何对手写数字进行识别
      • 如何进行乳腺癌检测
      • 如何对文档进行归类
  • 数据可视化 - 它可以说是数据领域中万金油的技能,可以让我们直观地了解到数据分析的结果
    • Python - Matplotlib、Seaborn
    • 第三方工具 - tableau、powerbi

数据挖掘的基本流程

  • 商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义
  • 数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知
  • 数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作
  • 模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果
  • 模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标
  • 上线发布:模型的作用是从数据中找到金矿,也就是我们所说的“知识”
    • 获得的知识需要转化成用户可以使用的方式,呈现的形式可以是一份报告
    • 也可以是实现一个比较复杂的、可重复的数据挖掘过程
    • 数据挖掘结果如果是日常运营的一部分,那么后续的监控和维护就会变得重要

results matching ""

    No results matching ""