前言
最近搞spark和hadoop的机器学习,简直是搞成傻逼了。太他妈难了,简直搞的想哭。之前接触机器学习,都是在单机上面能够跑的机器学习,还没有和大数据结合起来,更没有和这些大数据的平台结合起来。一旦变成集群之后,首先是对远程控制服务器全命令行的不熟,然后是对大数据平台本身的不熟,结果真是变成一脸懵逼了。报一个错完全不知所措了。
我对机器学习的理解
- 在很多情况下,正确地定义特征才是机器学习中最有挑战性的部分。并且提取特征并转化为特征向量是机器学习中很重要的一步。
- 在工程领域,也就是说真正的企业中机器学习与大数据结合是必须的。
- 平时的论文中,为了研究一个算法,或者改进一个机器学习算法,采用小数据集进行实验也是可以理解的,因为论文的重点在于理论的解释与实验效果的对比。
- 关于自己的毕业论文,差分隐私,应该思考新形势下,新情景中的一些实际解决方案。
7月4日更新
数据处理引擎之于大数据就像CPU之于计算机,或大脑之于人类。Spark只是一个通用计算框架,利用Spark实现的应用才是其真正价值所在。
弹性分布式数据集是spark对分步式数据和计算的基本抽象
【版权声明】
本文首发于戚名钰的博客,欢迎转载,但是必须保留本文的署名戚名钰(包含链接)。如您有任何商业合作或者授权方面的协商,请给我留言:qimingyu.security@foxmail.com
欢迎关注我的微信公众号:科技锐新