Cloudera资讯|Cloudera如何使R用户优化其数据科学和机器学习工作流程
在Cloudera,我们使众多用户每天都能运行数据科学工作负载并在我们的平台上部署机器学习代码。 这些用户中有许多依赖R来完成从清理数据集到训练深度神经网络的任务。本文将会介绍Cloudera作为R的长期用户和程序包开发人员,是如何向R用户表达“爱意”的。
Cloudera如何向R用户表达“爱意”
Cloudera努力为开发和运行R代码的用户提供令人愉悦的体验。以下是向R用户和R社区表达爱意的一些方式:
- R是Cloudera机器学习中的一种本地语言:Cloudera机器学习(CML)使您能够在基于浏览器的直观环境中开发和运行R代码,使用容器隔离工作负载并按需提供可伸缩的计算资源。CML是为云优化的下一代Cloudera数据科学工作台(CDSW)。它提供了真正的自助服务访问权限,使您无需管理员的帮助即可在独立的项目环境中安全地安装和使用R软件包。
- 使用R代码训练,调整和部署模型:CML中的“实验和模型”功能使用户能够训练和测试机器学习模型,迭代确定模型和超参数的最佳组合,以及部署模型以实时生成预测——全部使用R代码。
- 在CML中使用RStudio:如果您了解并喜欢RStudio IDE,则可以使用内置的第三方编辑器功能启用的CML中的RStudio服务器。
- 无缝部署Shiny应用程序:CML中的Applications功能使数据科学家可以使用Shiny和其他基于Web的应用程序构建工具,只需单击几下即可创建,启动和安全共享长时间运行的交互式应用程序。
- 向专家讲师学习:Cloudera提供了一些可以使用R进行讲授的培训课程,包括Cloudera数据科学家培训(可以使用Sparklyr由私人讲师指导的培训)和CDSW培训(基于Cloudera OnDemand的基于视频的课程,其中包括R用户)。
- 放心地将Cloudera和RStudio产品一起使用:RStudio是Cloudera的认证合作伙伴。Cloudera和RStudio可以共同帮助您找到最能解决业务挑战的产品组合,并确保您获得所需的支持。
- 为R软件包的开放生态系统做出贡献:Cloudera致力于开发软件包,以帮助R用户在Cloudera平台上高效地工作。 通过资助诸如implyr(针对Impala的优化dplyr接口)和tidyquery(针对R数据框的SQL接口)等项目,Cloudera旨在为使用不同来源的各种规模数据的R用户提供更统一的体验。 请参阅下面突出显示此示例的示例。
SQL还是dplyr? 您 PICK 哪一个?
当客户可以使用熟悉的语法来处理数据时,无论数据的大小或来源如何,他们都会喜欢它。Sparklyr的流行就是一个很好的例子:它使R用户可以使用SQL或dplyr(大多数R用户都熟悉)来使用Apache Spark处理大型数据。在Cloudera开发的两个R软件包(implyr和tidyquery)旨在在使用Apache Impala查询表和操作R数据帧时为SQL或dplyr提供相同的选择。
要设置impr,首先请查看impr的自述文件中的详细信息。在安装了implyr软件包并按照此处所述连接到Impala之后,您可以使用dplyr函数(例如group_by()和summarise())或使用SQL SELECT语句来查询Impala表:
随着tidyquery的发布,您现在可以选择使用SQL SELECT语句查询R数据帧:
Cloudera试用和报价
关于Cloudera
在 Cloudera,我们相信数据可以使今天的不可能,在明天成为可能。我们使人们能够将复杂的数据转换为清晰而可行的洞察力。Cloudera 为任何地方的任何数据从边缘到人工智能提供企业数据云平台服务。在开源社区不懈创新的支持下,Cloudera推动了全球最大型企业的数字化转型历程。
慧都大数据专业团队为企业提供Cloudera大数据平台搭建,免费业务咨询,定制开发等完整服务,快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。
欢迎拨打慧都热线023-68661681或咨询慧都在线客服,我们有专业的大数据团队,为您提供免费大数据相关业务咨询!