联系方式

联系方式
电话:0592-5794349
业务咨询:17350028151 15359409915
QQ咨询:1803977211 491666614
地址:福建省厦门市湖里区岐山路一号亿华中心608A
当前位置:首页> 新闻中心

软件开发公司ApacheSpark 2.0技术预览

* 来源: * 作者: * 发表时间: 2020-01-27 0:30:06 * 浏览: 0
软件开发公司ApacheSpark2.0技术预览版。 ApacheSpark版本发布两年后,Databricks宣布了基于上游分支2.0.0-preview的ApacheSpark2.0技术预览版。此预览版在稳定性和API方面不适合生产环境,主要是在正式发布之前收集社区的反馈。这次发布的新版本主要基于社区的反馈以进一步改进各种功能。根据Spark的发展计划,主要的改进分为两个方面。 SQL是基于ApacheSpark的应用程序更常用的接口之一。 Spark 2.0可以支持所有99个TPC-DS查询,其中大多数基于SQL:2003规范。这些改进有助于以较少的应用程序堆栈重写将现有数据工作负载迁移到Spark后端。改进的第二个方面主要是编程API。同时,在这个新版本中,更多的重点放在了机器学习上。 spark.mllib程序包已由新的spark.ml程序包代替,该程序包更侧重于基于管道的API,这是一种从DataFrames派生的技术。机器学习管道和模型现在是持久性的,Spark支持的所有语言都支持此功能。同时,R已经可以支持K-Means,广义线性模型(GLM),朴素贝叶斯和SurvivalRegression。通过新的Datasets类,DataFrame和Datasets已统一,可以支持Scala和Java编程语言,还可以用作Structuredstreaming的抽象。不支持Compiletime类型安全性的语言尚不能做到这一点。目前,DataFrames只能用作主要的抽象。 SQLContext和HiveContext已由统一的SparkSession取代。新的AccumulatorAPI具有比基本类型更简单的类型层次结构,并支持基本类型的特殊化。旧的API已被弃用,但仍包含在新版本中,以实现向后兼容。新发布的结构化流API可用于管理流数据集,而不会增加复杂性,因此程序员和现有的机器学习算法将能够处理批量加载的数据集。在第二代钨引擎的帮助下,性能也得到了增强,执行速度可以提高10倍。技术预览已发布到DataBricks。