作为我在今年3月写道,Databroks服务是数据科学家的优秀产品。它具有完全各种各样的摄入,特征选择,模型建设和评估功能,以及与数据源的大集成以及出色的可扩展性。Databroks服务提供了作为云服务的火花超集。Databricks公司由Spark,Matei Zaharia和来自U.C的其他人的原始开发者创立。伯克利的庞大。与此同时,Databricks仍然是Apache Spark项目的主要贡献者。
在这篇评论中,我会讨论火花ML.,火花的开源机器学习库。要更加准确,Spark ML是Spark的两台机器学习库的新手。由于火花1.6,推荐在Spark MLIB包中的RDD基API中的基于DataFrame的API以获得大多数功能,但不完整。现在,如火花2.0,Spark ML是初级和完整的,并且Spark MLLIB处于维护模式。
Spark ML特征
Spark ML库提供公共机器学习算法,如分类,回归,群集和协作过滤(但是不深神经网络)以及用于特征提取,转化,维度降低的工具,以及用于构建,评估和调整ML管道的选择和工具。Spark ML还包括用于保存和加载算法,模型和管道的实用程序,用于数据处理以及执行线性代数和统计数据。
Spark ML也称为MLLIB的文档中,这是令人困惑的。如果困扰着你,你可以忽略旧的火花mlrib包,忘记我曾提到过它。
Spark ML写在Scala中,并使用线性代数包装微风。微风取决于NetLib-Java进行优化的数值处理。如果您很幸运,平台上有机器优化的本机NetLib-Java二进制代理,这将使整个库比纯粹的JVM实现更快地运行。在Mac上,这将是Apple的Veclib框架,默认安装了该框架。