数据分析方法

数据分析

什么是数据分析?

数据分析就是将书序、统计学理论结合科学的统计方法(如线性回归分析、聚类分析、方法分析、时间序列分析等)对数据库中的数据、Excel数据、爬虫抓取的数据进行分析,从中提取有价值的信息形成结论并展示的过程。

数据分析方法

一般分类:

graph LR
数据分析-->描述性数据分析;
数据分析-->探索性数据分析;
数据分析-->验证性数据分析;

技术层面:

  1. 统计分析类

    对比分析法、同比分析法(同比增长速度=(本期-往年同期)/往年同期100%、)环比分析法(环比增长速度=(本期-上期)/上期100%)、定比分析法、差异分析法、结构分析法

  2. 高级分析类

    回归分析法、聚类分析法(类似于分类,不同的是不知道有几个类别)、相关分析法、矩阵分析法、判别分析法、主成分析法、因子分析法、对应分析法、时间序列

  3. 数据挖掘类

    机器学习、数据仓库等复合技术为主

数据分析工具

主要是python

数据分析流程

graph LR
明确目的-->获取数据-->数据处理-->数据分析-->验证结果-->数据展现-->数据应用;

获取数据

  1. 公开的数据
    • 常用数据公开网站:UCI、国家数据、CEIC、万得、搜数网、中国统计信息网、亚马逊Figshare、GitHub
    • 政府公开数据
    • 数据竞赛网(一般脱敏):DataCastle、Kaggle、DataFountain、天池
  2. 爬虫获取
  3. 网络指数:阿里指数、百度指数、友盟指数、爱奇艺指数
  4. 网络采集器

数据处理

数据处理,从大量、杂乱无章的、难以理解的、缺失的数据中,抽取并推导出对解决问题有价值、有意义的数据

  1. 数据规约:减少数据规模
  2. 数据清洗:数据探索分析、重复数据分析、缺失数据处理、异常数据处理
  3. 数据加工:数据抽取、数据计算、数据分组、数据转换