上QQ阅读APP看书,第一时间看更新
1.2.3 对偏技术的数据分析师的要求
技能方面,需要具备一定的编程能力,比如常用的R、Python、Scala/Java,至少要掌握一种,而且必须精通SQL;需要熟练使用Linux操作系统、Hadoop、HDFS、MapReduce、Hive和Hbase等工具,能够进行基于Spark平台的大数据分析和机器学习应用;还需要熟悉数据挖掘的方法,比如回归分析、主成分分析、聚类分析等。
工作内容上,主要负责:
■ 从系统外部采集数据并输入系统内部,即数据采集;
■ 对数据进行ETL,将分布异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础,即数据整合集成;
■ 将抽象的数据用特定的算法转化、规整为一个具体的模型,即数据建模;
■ 通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法挖掘隐藏的信息,即数据挖掘;
■ 借助图形化手段,清晰有效地传达与沟通信息,即数据可视化。