在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
滴滴云Notebook上使用 BlazingSQL 加速BI分析BlazingSQL
BlazingSQL是RAPIDS生态系统的GPU加速SQL引擎,现在在 Apache 2.0 许可下开源。 BlazingSQL是一个基于RAPIDS生态系统构建的GPU加速SQL引擎。RAPIDS基于Apache Arrow柱状内存格式,cuDF是一个GPU DataFrame库,用于加载、连接、聚合、过滤和操作数据, BlazingSQL是cuDF的SQL接口,具有支持大规模数据科学工作流和企业数据集的各种功能。 主要特性: 查询本地和外部存储数据 - 单行代码可以注册远程存储解决方案,例如 Google Cloud Storage。 简单的SQL - 非常容易使用,运行SQL查询,结果是GPU DataFrames(GDF)。 互操作性 - 任何RAPIDS库都可以立即访问GDF以获取数据科学工作负载。 滴滴云平台团队在此基础上打通了滴滴云对象存储S3,使得BlazingSQL可以直接用SQL操作S3上的文件对象。支持的文件格式包括:csv,parquet, orc, gdf,json。 举例 如图创建 notebook SQL-GPU分析实例,输入大师码2048享受9折优惠。*注意选择16GB内存规格。然后在[我的对象存储密钥]拿到S3的AK,SK密钥, 成功创建 notebook 后,我们打开 python rapids 环境。
我们来看一个分析 Graphistry Netflow Analysis 实际的例子, https://blazingsql-colab.s3.amazonaws.com/netflow_data/nf-chunk2.csv
上图是读取S3 并进行SQL分析的例子。 这里是读取本地文件分析的例子,经过GPU加速后,比用spark分析快了6x。 总结 在滴滴云GPU notebook产品里,我们将易用性更进一步。结合我们的DAI notebook产品,可以直接在基于jupyter环境的notebook里进行SQL开发、调试、运行,简单易用。 开发者不用关心底层CUDA和GPU技术细节,甚至不用了解CUDF,CUML的API,开发者可以聚焦和投入到数据分析最核心的业务逻辑上去,滴滴云DAI notebook产品和底层GPU云服务器,为这一切提供了强有力的底层技术支撑。更关键的是,物美价廉,性价比高!欢迎大家使用! 另外敬请期待SaaS 版的BlazingSQL!输入AI大师码【1122】,滴滴云GPU全线产品享9折优惠。 |
2023-10-27
2022-08-15
2022-08-17
2022-09-23
2022-08-13