如何使CDSW能够帮助您更好的利用BDA一体机

没有人需要详细说明数据科学的重要性和重要性,所以我们不讨论为什么您应该关注框架和工具,以便在Hadoop基础设施上启用ai/ml和更多有趣的东西。在Oracle一体机上实现这一点的一种方法是使用Cloudera数据科学工作台(CDSW)。有关CDSW的一些信息和它的好处,请参阅本文的最后部分。

它是如何工作的?

假设您想要使用CDSW来满足您的数据科学需求,那么我们可以使用BDA一体机来支持对CDSW的支持。

CDSW将在集群上运行(一组)边缘节点。这些节点必须遵循一些特定的OS版本,因此我们发布了一个新的BDA基本镜像,用于提供Oracle Linux 7(UEK4)的边缘节点的支持。CDSW从CDSW 1.1开始支持Oracle Linux 7(更多版本信息请参考这里)。

随着操作系统版本的扩大,我们将支持CDSW,并且在一个包含8个节点的BDA(如下图所示)中,你需要把这两个边缘节点重新安装BDA OL7基本镜像,配置网络并将节点作为边缘节点集成到集群中。在此之后,你可以按照Cloudera的文档安装CDSW。

正如您在上图中看到的,这两个边缘节点运行在OL7上,但它们构成了BDA集群的一个完整部分。他们还覆盖了嵌入的Cloudera企业数据中心许可。集群节点的其余部分,就像在几乎所有的实例中所做的那样,仍然是您的常规OL6操作系统,安装了Hadoop栈。Cloudera管理器可用来管理集群(不需要任何更改)。

就是这样。

对于Oracle客户详细的步骤已经测试过了并且通过MOS发布了。

Cloudera数据科学工作台是什么?

[来自Cloudera - 以下既不是我也不是Oracle的功劳] 

Cloudera数据科学工作台(CDSW)是Cloudera企业数据科学的自助服务环境。基于Cloudera对数据科学初创公司sense.io的收购,CDSW允许数据科学家使用他们最喜欢的开源语言--包括R,Python以及Scala -- 以及使用本地Apache Spark和Apache Hadoop集成的安全企业平台上的库,以便从探索到生产加速分析项目。CDSW提供以下好处:

  • 对于数据科学家:直接从web浏览器使用R、Python或Scala,使用他们最喜欢的库和框架。使用Spark和Impala直接在安全的Hadoop集群中访问数据。与他们的整个团队分享关于可再生的,协作研究的见解。
  • 对于IT专业人员:让您的数据科学团队更自由地工作,无论他们想要什么,什么时候需要。保持对完整Hadoop安全的开箱即用支持,特别是Kerberos。在私有云、客户云或公共云上运行。

[Cloudera部分结束]

请阅读更多关于CDSW的文章

注:原文出自How Enabling CDSW Will Help You Make Better Use of Your Big Data Appliance

关注dbDao.com的新浪微博

扫码加入微信Oracle小密圈,了解Oracle最新技术下载分享资源

TEL/電話+86 13764045638
Email service@parnassusdata.com
QQ 47079569