• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

滴滴云Notebook上使用 BlazingSQL 加速BI分析

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

滴滴云Notebook上使用 BlazingSQL 加速BI分析

BlazingSQL

BlazingSQL是RAPIDS生态系统的GPU加速SQL引擎,现在在 Apache 2.0 许可下开源。
RAPIDS 包含一组软件库(BlazingSQL、cuDF、cuML、cuGraph),用来在 GPU 上执行端到端的数据科学计算和分析管道。

BlazingSQL是一个基于RAPIDS生态系统构建的GPU加速SQL引擎。RAPIDS基于Apache Arrow柱状内存格式,cuDF是一个GPU DataFrame库,用于加载、连接、聚合、过滤和操作数据,

BlazingSQL是cuDF的SQL接口,具有支持大规模数据科学工作流和企业数据集的各种功能。

主要特性:

查询本地和外部存储数据 - 单行代码可以注册远程存储解决方案,例如 Google Cloud Storage。

简单的SQL - 非常容易使用,运行SQL查询,结果是GPU DataFrames(GDF)。

互操作性 - 任何RAPIDS库都可以立即访问GDF以获取数据科学工作负载。

滴滴云平台团队在此基础上打通了滴滴云对象存储S3,使得BlazingSQL可以直接用SQL操作S3上的文件对象。支持的文件格式包括:csv,parquet, orc, gdf,json。

 举例

如图创建 notebook SQL-GPU分析实例,输入大师码2048享受9折优惠。*注意选择16GB内存规格。然后在[我的对象存储密钥]拿到S3的AK,SK密钥, 成功创建 notebook 后,我们打开 python rapids 环境。

我们来看一个分析 Graphistry Netflow Analysis 实际的例子,
原始数据集来自:

https://blazingsql-colab.s3.amazonaws.com/netflow_data/nf-chunk2.csv

上图是读取S3 并进行SQL分析的例子。
https://github.com/BlazingDB/bsql-demos/blob/master/vs_pyspark_netflow.ipynb

这里是读取本地文件分析的例子,经过GPU加速后,比用spark分析快了6x。

 总结

在滴滴云GPU notebook产品里,我们将易用性更进一步。结合我们的DAI notebook产品,可以直接在基于jupyter环境的notebook里进行SQL开发、调试、运行,简单易用。

开发者不用关心底层CUDA和GPU技术细节,甚至不用了解CUDF,CUML的API,开发者可以聚焦和投入到数据分析最核心的业务逻辑上去,滴滴云DAI notebook产品和底层GPU云服务器,为这一切提供了强有力的底层技术支撑。更关键的是,物美价廉,性价比高!欢迎大家使用!

另外敬请期待SaaS 版的BlazingSQL!输入AI大师码【1122】,滴滴云GPU全线产品享9折优惠。



鲜花

握手

雷人

路过

鸡蛋
专题导读
上一篇:
老朱论坛:网站建设基础知识发布时间:2022-11-06
下一篇:
17 倍加速:PyTorch 模型的 GPU 优化剖析发布时间:2022-11-06
热门推荐
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap