# 数据分析

# 什么是数据分析

我们生活在数据驱动一切的时代,数据挖掘和数据分析就是这个时代的“淘金”,从国家、企业、组织到个人,都一定会关注各种数据,从这些数据中得到价值。

# 三大组成

  1. 数据采集

    它是我们的原材料,也是最“接地气”的部分,因为任何分析都要有数据源。

  2. 数据挖掘

    找到数据的规律,指导我们的业务

    数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能 BI

  3. 数据可视化

    直观了解数据分析的结果

# 数据挖掘

# 基本流程

  1. 商业理解:从商业的角度理解项目需求
  2. 数据理解:尝试收集部分数据,进行数据探索,包括字段理解、数据质量验证
  3. 数据准备:数据收集、数据清洗、数据集成
  4. 模型建立:选择数据挖掘模型并进行优化,获得更好的分类结果
  5. 模型评估:对模型进行评价,检查构建模型步骤,确认模型是否实现了商业目标
  6. 上线发布:数据的呈现、监控、维护

# 十大算法

为了进行数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威的学术组织 ICDM (the IEEE International Conference on Data Mining)评选出了十大经典的算法。

  1. 分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART
  2. 聚类算法:K-Means,EM
  3. 关联分析:Apriori
  4. 连接分析:PageRank

# 数据挖掘的数学原理

  1. 概率论与数理统计

    概率论在我们上大学的时候,基本上都学过,不过大学里老师教的内容,偏概率的多一些,统计部分讲得比较少。在数据挖掘里使用到概率论的地方就比较多了。比如条件概率、独立性的概念,以及随机变量、多维随机变量的概念。

  2. 线性代数

    向量和矩阵是线性代数中的重要知识点,它被广泛应用到数据挖掘中,比如我们经常会把对象抽象为矩阵的表示,一幅图像就可以抽象出来是一个矩阵,我们也经常计算特征值和特征向量,用特征向量来近似代表物体的特征。这个是大数据降维的基本思路。

  3. 图论

    社交网络的兴起,让图论的应用也越来越广。人与人的关系,可以用图论上的两个节点来进行连接,节点的度可以理解为一个人的朋友数。我们都听说过人脉的六度理论,在 Facebook 上被证明平均一个人与另一个人的连接,只需要 3.57 个人。当然图论对于网络结构的分析非常有效,同时图论也在关系挖掘和图像分割中有重要的作用。

  4. 最优化方法

    最优化方法相当于机器学习中自我学习的过程,当机器知道了目标,训练后与结果存在偏差就需要迭代调整,那么最优化就是这个调整的过程。一般来说,这个学习和迭代的过程是漫长、随机的。最优化方法的提出就是用更短的时间得到收敛,取得更好的效果。

# 要掌握的基本概念

# 商业智能BI

商业智能的英文是 Business Intelligence,缩写是 BI。相比于数据仓库、数据挖掘,它是一个更大的概念。商业智能可以说是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程。所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金。

# 数据仓库DW

数据仓库的英文是 Data Warehouse,缩写是 DW。它可以说是 BI 这个房子的地基,搭建好 DW 这个地基之后,才能进行分析使用,最后产生价值。

数据仓库将原有的多个数据来源中的数据进行汇总、整理而得。数据进入数据仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘。

# 元数据和数据元

元数据(MetaData):描述其它数据的数据,也称为“中介数据”。

数据元(Data Element):就是最小数据单元。

在生活中,只要有一类事物,就可以定义一套元数据。举个例子,比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息,我们就可以把这些属性定义成一套图书的元数据。在图书这个元数据中,书名、作者、出版社就是数据元。你可以理解是最小的数据单元。元数据最大的好处是使信息的描述和分类实现了结构化,让机器处理起来很方便。元数据可以很方便地应用于数据仓库。比如数据仓库中有数据和数据之间的各种复杂关系,为了描述这些关系,元数据可以对数据仓库的数据进行定义,刻画数据的抽取和转换规则,存储与数据仓库主题有关的各种信息。而且整个数据仓库的运行都是基于元数据的,比如抽取调度数据、获取历史数据等。通过元数据,可以很方便地帮助我们管理数据仓库。

# 数据挖掘DM

数据挖掘的英文是 Data Mining,缩写是 DM。在商业智能 BI 中经常会使用到数据挖掘技术。数据挖掘的核心包括分类、聚类、预测、关联分析等任务,通过这些炼金术,我们可以从数据仓库中得到宝藏,比如商业报告。

数据挖掘的一个英文解释叫 Knowledge Discovery in Database,简称 KDD,也就是数据库中的知识发现。

在数据挖掘中,有几个非常重要的任务,就是分类、聚类、预测和关联分析。

# 分类

通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类。

一般来说数据可以划分为训练集测试集。训练集是用来给机器做训练的,通常是人们整理好训练数据,以及这些数据对应的分类标识。通过训练,机器就产生了自我分类的模型,然后机器就可以拿着这个分类模型,对测试集中的数据进行分类预测。同样如果测试集中,人们已经给出了测试结果,我们就可以用测试结果来做验证,从而了解分类器在测试环境下的表现。

# 聚类

人以群分,物以类聚。聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。我们往往利用聚类来做数据划分。

分类和聚类的差别

分类是已知了 类别,然后看样本属于哪个分类 聚类是不知道有哪些类别,按照样本的属性来进行聚类,实际上是一种降维方式。

比如你追个女生,你知道女生有 御姐,萝莉,两种类别,你可以判断下 追的这个女生属于 御姐还是萝莉,这个属于分类。

比如你追5000个女生,你也不知道女生都有哪些类别,为了方便,你将5000个女生,按照属性的相似度划分成了5个组,这个属于聚类。先聚成了5类,然后再看每个组的特点,给不同的组取名,比如 “大小姐组”,“小家碧玉组”等等,都是先聚类,然后再判断

# 预测

通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险。

# 关联分析

发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中。

# 数据预处理

输入的数据通常是从不同渠道采集而来的,所以数据的格式以及质量是参差不齐的,所以我们需要对数据进行预处理。

数据预处理中,我们会对数据进行几个处理步骤:数据清洗,数据集成,以及数据变换。

# 数据清洗

主要是为了去除重复数据,去噪声(即干扰数据)以及填充缺失值。

# 数据集成

是将多个数据源中的数据存放在一个统一的数据存储中。

# 数据变换

就是将数据转换成适合数据挖掘的形式。比如,通过归一化将属性数据按照比例缩放,这样就可以将数值落入一个特定的区间内,比如 0~1 之间。

# 数据后处理

数据后处理是将模型预测的结果进一步处理后,再导出。比如在二分类问题中,一般能得到的是 0~1 之间的概率值,此时把数据以 0.5 为界限进行四舍五入就可以实现后处理。

# 用户画像

如果说互联网的上半场是粗狂运营,因为有流量红利不需要考虑细节。那么在下半场,精细化运营将是长久的主题。有数据,有数据分析能力才能让用户得到更好的体验。

用户画像是现实世界中的用户的数学建模

# 设计唯一标识

**用户唯一标识是整个用户画像的核心。**设计唯一标识可以从这些项中选择:用户名、注册手机号、联系人手机号、邮箱、设备号、CookieID 等。

# 给用户打标签

# 用户消费行为分析

我们可以从这 4 个维度来进行标签划分。

  1. 用户标签

包括了性别、年龄、地域、收入、学历、职业等。这些包括了用户的基础属性。

  1. 消费标签

消费习惯、购买意向、是否对促销敏感。这些统计分析用户的消费习惯。

  1. 行为标签

时间段、频次、时长、访问路径。这些是通过分析用户行为,来得到他们使用 App 的习惯。

  1. 内容分析

对用户平时浏览的内容,尤其是停留时间长、浏览次数多的内容进行分析,分析出用户对哪些内容感兴趣,比如,金融、娱乐、教育、体育、时尚、科技等。

# 按照数据流程划分

  1. 数据层:事实标签,比如:用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容模块等。
  2. 算法层:模型标签,比如:用户兴趣、用户活跃度、产品购买次数、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好等。
  3. 业务层:预测标签,指的是获客、粘客、留客的手段,比如:获得预测、个性化推荐、GMV趋势预测、用户流失概率等。

# 带来业务价值

我们可以从用户生命周期的三个阶段来划分业务价值,包括:获客、粘客和留客。

# 获客

如何进行拉新,通过更精准的营销获取客户。

# 粘客

个性化推荐,搜索排序,场景运营等。

# 留客

流失率预测,分析关键节点降低流失率。

上次更新: 2/13/2025, 3:29:47 AM