代码|在数据分析与AI领域 GPU加速如何赋能行业

【 代码|在数据分析与AI领域 GPU加速如何赋能行业】在数字时代下,每家企业都面临着一场变革,这也使企业产生了比以往更多的数据。随着数据规模的指数增长,存储数据的载体,数据的处理技术,数据的使用的方式方法都在不断地演进。企业用户对数据价值的预期也不断增加。因此企业用户期望通过数据能快速带来商业价值。
??不过,随着大量数据的涌入,企业应该如何应对?Cloudera相信数据骤增将让企业有机会更快、更好地作出业务决策。
??日前,Cloudera推出使用NVIDIA?GPU加速Apache?Spark?3.0软件的Cloudera?Data?Platform(CDP)。最新版本的Cloudera?Data?Platform采用通过NVIDIA技术加速的Spark?3.0,能够帮助操作团队实现8倍性能提升,从而成功运行一项原本不可能完成的工作。
代码|在数据分析与AI领域 GPU加速如何赋能行业
文章插图
??GPU加速如何赋能Cloudera
??作为业界首个企业数据云,Cloudera?Data?Platform集成化数据平台可以帮助企业在向云迁移的过程中,更好地管理和保护数据。
??Cloudera相信数据骤增将让企业有机会更快、更好地作出业务决策。以NVIDIA?GPU计算功能支撑的Cloudera?Data?Platform可以利用近乎无限数量和种类的数据,支持企业加快决策速度。
??我们都知道,一直以来,CPU都无法通过有效扩展适应工作任务,继续采用CPU进行工作负载,就要牺牲速度或增加成本才能完成处理的需求。
??不过,GPU并行处理已成为加速海量数据分析和ETL管道,进而驱动这些工作负载的关键。数据中心通过大规模横向扩展这些功能支持复杂的数据分析项目。
??通过与NVIDIA的合作帮助Cloudera能够在集群中驾驭GPU,当出现此类技术进步时,需要一段时间来认识它们的力量并开发可以使用它们的应用。
??最终,结合Cloudera在大数据领域丰富的经验,Cloudera?Data?Platform与NVIDIA?RAPIDS和AI相结合,令使用Apache?Spark的企业能够以前所未有的速度获得业务洞察。
??如何应用
??这是一个来自美国国税局团队的案例。
??作为一名数据科学家,Deborah?Tylor的任务是整理美国国家税务局超过300?TB的数据库,寻找可能有助于识别身份盗窃和其他欺诈行为的规律。但即使她让一大批CPU服务器工作了一整夜,也无法完成这项数据整理工作。
??Cloudera的解决方案工程师Nasheb?Ismaily询问Tikekar的团队是否需要使用自带GPU加速Apache?Spark?3.0软件的Cloudera?Data?Platform(CDP)。
??对软件进行快速测试后,在没有修改任何代码的情况下,Tylor在这项工作中的许多步骤就立即加快了5倍,但有几个部分仍然滞后。
??Ismaily召集了NVIDIA数据科学家团队来检查代码的核心内容。他们很快就发现一些数据结构非常糟糕的任务仍在CPU上运行。于是他们编写了代码来处理这些工作并将其插入Spark的RAPIDS软件接口中。RAPIDS是一个在GPU上运行数据分析的开放资源库。
??Tylor又进行了一次测试,结果发现一切都能在分布式Spark集群的GPU上顺利运行,而且速度提升非常明显。她在一个四节点的集群上运行了整个程序。
??美国国税局研究和应用分析与统计部门技术主管Joe?Ansaldi表示:“通过Cloudera和NVIDIA的这一技术整合,我们能够利用以数据为依据的洞察来推动关键任务用例。”
??该团队计划把其成功经验运用在数据准备,也就是数据分析中的提取/转换/加载(ETL)方面的工作上。下一步重大计划是加速各类AI推理工作。
??Tikekar表示:“与Cloudera和NVIDIA的这一合作帮助我们能够在集群中驾驭GPU。当出现此类技术进步时,需要一段时间来认识它们的力量并开发可以使用它们的应用,所以Deborah?Tylor确实为我们制定了新的路线图——她是整件事中的主角。”