点评：火花灯机器学习

Spark将有效的机器学习到大型计算集群，并与Tensorflow进行深度学习

贡献编辑，infoworld. |

点评：火花灯机器学习 — redwolf518stock.（cc by 3.0）

乍看上去

Spark Mllib 2.4

学到更多
上Apache软件基础

作为我在今年3月写道，Databroks服务是数据科学家的优秀产品。它具有完全各种各样的摄入，特征选择，模型建设和评估功能，以及与数据源的大集成以及出色的可扩展性。Databroks服务提供了作为云服务的火花超集。Databricks公司由Spark，Matei Zaharia和来自U.C的其他人的原始开发者创立。伯克利的庞大。与此同时，Databricks仍然是Apache Spark项目的主要贡献者。

在这篇评论中，我会讨论火花ML.，火花的开源机器学习库。要更加准确，Spark ML是Spark的两台机器学习库的新手。由于火花1.6，推荐在Spark MLIB包中的RDD基API中的基于DataFrame的API以获得大多数功能，但不完整。现在，如火花2.0，Spark ML是初级和完整的，并且Spark MLLIB处于维护模式。

Spark ML特征

Spark ML库提供公共机器学习算法，如分类，回归，群集和协作过滤（但是不深神经网络）以及用于特征提取，转化，维度降低的工具，以及用于构建，评估和调整ML管道的选择和工具。Spark ML还包括用于保存和加载算法，模型和管道的实用程序，用于数据处理以及执行线性代数和统计数据。

Spark ML也称为MLLIB的文档中，这是令人困惑的。如果困扰着你，你可以忽略旧的火花mlrib包，忘记我曾提到过它。

Spark ML写在Scala中，并使用线性代数包装微风。微风取决于NetLib-Java进行优化的数值处理。如果您很幸运，平台上有机器优化的本机NetLib-Java二进制代理，这将使整个库比纯粹的JVM实现更快地运行。在Mac上，这将是Apple的Veclib框架，默认安装了该框架。

IT薪水调查：结果是

Spark Mllib 2.4

Spark ML特征