
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
数据分析常用知识体系
【数据获取】
一、获取原始数据
1、从数据库 / 数据仓库中获取(数据库 + 数据仓库 + SQL提数)
2、爬虫爬取(R语言爬虫 + Python爬虫)
3、手工整理(问卷数据录入、数据表制作等)
二、获取整理好的数据
1、数据资源下载(统计局、经管之家等)
2、数据资源调取(R语言内置数据集、Python内置数据集)
【数据预处理】
一、数据库
1、常用数据库基础知识(Mysql、sqlServer、Oracle、Hbase + Hive)
2、SQL语句(数据查询select from、数据去重distinct、数据限制where、数据排序order by、数据顺序desc + asc、数据分组group by、数据过滤having、数据锁定limit、条件关联and + or + in / not in、通配符like + _、计算字段count + max + avg等、子查询、表联结inner join + left join + right join、插入数据insert into、创建表create、更新数据update、删除数据delete、删除表drop)
二、EXCEL
1、工作表处理(格式设置、数据编辑)
2、数据查看(筛选、排序、查找替换、分类汇总、数据透视表、数据透视图)
3、函数(vlookup、计算函数等) + 图表制作(基础图形 + 改进图形)
三、R
1、数据读写(读取csv文件、读取txt文件等)
2、数据查看(查看数据整体情况View、查看数据前几行head和后几行tail、查看数据的维度dim、查看数据的类型class、查看数据中各变量的基础情况str、查看数据长度length)
3、数据检查与基本处理(数据转换as.vector + as.data.frame、数据连接rbind + cbind等)
4、数据运算(数学运算、统计运算、函数运算)
5、数据清洗(缺失值、异常值、数据格式化)
四、Python
同上述R语言,但为Python代码
【数据建模分析】
一、常用业务模型
1、通用业务模型(RFM 、AARRR、5W2H、波士顿矩阵、波特五力模型、4P理论等)
2、行业专用模型(教育行业、互联网行业、交通行业、医药行业等)
二、常用数学 / 统计 / 机器学习知识
1、描述统计(平均数、中位数、众数、方差、标准差、分位数、极差、偏度、峰度等)
2、推断统计(区间估计、假设检验、方差分析、回归分析)
3、常用模型(关联规则、决策树、聚类分析、神经网络、SVM、随机森林等)
4、模型评价(混淆矩阵、ROC曲线等)
三、R
上述各模型的R代码
四、Python
上述各模型的Python代码