关于机器学习

前言

最近搞spark和hadoop的机器学习,简直是搞成傻逼了。太他妈难了,简直搞的想哭。之前接触机器学习,都是在单机上面能够跑的机器学习,还没有和大数据结合起来,更没有和这些大数据的平台结合起来。一旦变成集群之后,首先是对远程控制服务器全命令行的不熟,然后是对大数据平台本身的不熟,结果真是变成一脸懵逼了。报一个错完全不知所措了。

我对机器学习的理解

  • 在很多情况下,正确地定义特征才是机器学习中最有挑战性的部分。并且提取特征并转化为特征向量是机器学习中很重要的一步。
  • 在工程领域,也就是说真正的企业中机器学习与大数据结合是必须的。
  • 平时的论文中,为了研究一个算法,或者改进一个机器学习算法,采用小数据集进行实验也是可以理解的,因为论文的重点在于理论的解释与实验效果的对比。
  • 关于自己的毕业论文,差分隐私,应该思考新形势下,新情景中的一些实际解决方案。

7月4日更新

数据处理引擎之于大数据就像CPU之于计算机,或大脑之于人类。Spark只是一个通用计算框架,利用Spark实现的应用才是其真正价值所在。

弹性分布式数据集是spark对分步式数据和计算的基本抽象


【版权声明】
本文首发于戚名钰的博客http://qimingyu.github.io/ ),欢迎转载,但是必须保留本文的署名戚名钰(包含链接)。如您有任何商业合作或者授权方面的协商,请给我留言:mingyuqi.java@qq.com
欢迎关注我的微信公众号:科技锐新

本文永久链接:http://qimingyu.github.io/2016/06/27/关于机器学习/

坚持原创技术分享,您的支持将鼓励我继续创作!

热评文章