数据分析
什么是数据分析?
数据分析就是将书序、统计学理论结合科学的统计方法(如线性回归分析、聚类分析、方法分析、时间序列分析等)对数据库中的数据、Excel数据、爬虫抓取的数据进行分析,从中提取有价值的信息形成结论并展示的过程。
数据分析方法
一般分类:
graph LR 数据分析-->描述性数据分析; 数据分析-->探索性数据分析; 数据分析-->验证性数据分析;
技术层面:
统计分析类
对比分析法、同比分析法(同比增长速度=(本期-往年同期)/往年同期100%、)环比分析法(环比增长速度=(本期-上期)/上期100%)、定比分析法、差异分析法、结构分析法
高级分析类
回归分析法、聚类分析法(类似于分类,不同的是不知道有几个类别)、相关分析法、矩阵分析法、判别分析法、主成分析法、因子分析法、对应分析法、时间序列
数据挖掘类
机器学习、数据仓库等复合技术为主
数据分析工具
主要是python
数据分析流程
graph LR 明确目的-->获取数据-->数据处理-->数据分析-->验证结果-->数据展现-->数据应用;
获取数据
- 公开的数据
- 常用数据公开网站:UCI、国家数据、CEIC、万得、搜数网、中国统计信息网、亚马逊Figshare、GitHub
- 政府公开数据
- 数据竞赛网(一般脱敏):DataCastle、Kaggle、DataFountain、天池
- 爬虫获取
- 网络指数:阿里指数、百度指数、友盟指数、爱奇艺指数
- 网络采集器
数据处理
数据处理,从大量、杂乱无章的、难以理解的、缺失的数据中,抽取并推导出对解决问题有价值、有意义的数据
- 数据规约:减少数据规模
- 数据清洗:数据探索分析、重复数据分析、缺失数据处理、异常数据处理
- 数据加工:数据抽取、数据计算、数据分组、数据转换