戚名钰的博客

怀揣创业梦的信安践行者

关于机器学习

发表于 2016-06-27 | 分类于云安全 |

前言

最近搞spark和hadoop的机器学习，简直是搞成傻逼了。太他妈难了，简直搞的想哭。之前接触机器学习，都是在单机上面能够跑的机器学习，还没有和大数据结合起来，更没有和这些大数据的平台结合起来。一旦变成集群之后，首先是对远程控制服务器全命令行的不熟，然后是对大数据平台本身的不熟，结果真是变成一脸懵逼了。报一个错完全不知所措了。

我对机器学习的理解

在很多情况下，正确地定义特征才是机器学习中最有挑战性的部分。并且提取特征并转化为特征向量是机器学习中很重要的一步。
在工程领域，也就是说真正的企业中机器学习与大数据结合是必须的。
平时的论文中，为了研究一个算法，或者改进一个机器学习算法，采用小数据集进行实验也是可以理解的，因为论文的重点在于理论的解释与实验效果的对比。
关于自己的毕业论文，差分隐私，应该思考新形势下，新情景中的一些实际解决方案。

7月4日更新

数据处理引擎之于大数据就像CPU之于计算机，或大脑之于人类。Spark只是一个通用计算框架，利用Spark实现的应用才是其真正价值所在。

弹性分布式数据集是spark对分步式数据和计算的基本抽象

【版权声明】
本文首发于戚名钰的博客，欢迎转载，但是必须保留本文的署名戚名钰（包含链接）。如您有任何商业合作或者授权方面的协商，请给我留言：qimingyu.security@foxmail.com
欢迎关注我的微信公众号：科技锐新

本文永久链接：http://qimingyu.github.io/2016/06/27/关于机器学习/

坚持原创技术分享，您的支持将鼓励我继续创作！

热评文章