完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF,万众期待的功能终于支持啦,我怎么能不一试为快,今天就分享如何通过Studio进行Python udf开发。 前置条件 了解到,虽然功能发布,不过还在公测阶段,如果想要使用,可以申请开通。这里我就不介绍申请开通具体流程了。 环境准备 MaxCompute Studio支持Python UDF开发,前提需要安装python, pyodps和idea的python插件。 1. 安装Python:可以Google或者百度搜索下如何安装。 2. 安装pyodps:可以参考python sdk文档的安装步骤。即,在 Python 2.6 以上(包括 Python 3),系统安装 pip 后,只需运行下 pip install pyodps,PyODPS 的相关依赖便会自动安装。 3. Intellij IDEA中安装Python插件。搜索Python Community Edition插件并安装 4. 配置studio module对python的依赖。
开发Python UDF 环境都准备好后,既可在对应依赖的module里创建进行python udf开发。 新建python脚本 右键 new | MaxCompute Python,弹框里输入脚本名称,选择类型为python udf: 生成的模板已自动填充框架代码,只需要编写UDF的入参出参,以及函数逻辑: 本地调试 代码开发好后,可以在Studio中进行本地调试。Studio支持下载表的部分sample数据到本地运行,进行debug,步骤如下: 1. 右键python udf类,点击”运行”菜单,弹出run configuration对话框。UDF|UDAF|UDTF一般作用于select子句中表的某些列,此处需配置MaxCompute project,table和column(元数据来源于project explorer窗口和warehouse下的example项目): 2. 点击OK后,通过tunnel自动下载指定表的sample数据到本地warehouse目录(若之前已下载过,则不会再次重复下载,否则利用tunnel服务下载数据。默认下载100条,如需更多数据测试,可自行使用console的tunnel命令或者studio的表下载功能)。下载完成后,可以在warehouse目录看到下载的sample数据。这里用户也可以使用warehouse里的数据进行调试,具体可参考java udf开发中的关于本地运行的warehouse目录”部分)。 3. 然后本地运行框架会根据指定的列,获取data文件里指定列的数据,调用UDF本地运行。 注册发布Python UDF 1. 代码调试好后,将python脚本添加为MaxCompute的Resource:
2. 注册python 函数: 3. 在sql脚本中编辑MaxCompute sql试用python udf: 好了,一个简单完整的python UDF通过Studio开发实践分享完成。 |
|
相关推荐
|
|
PD诱骗取电芯片_PD_Sink端芯片之XSP05实战应用电路
1025 浏览 0 评论
BLDC、PMSM电机智能栅极驱动芯片之TMC6140知识分享
186 浏览 0 评论
国产电源芯片DP4054 软硬件兼容TP4054 规格书资料
761 浏览 0 评论
2211 浏览 3 评论
830 浏览 1 评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 粤ICP备14022951号 )
GMT+8, 2023-8-21 15:36 , Processed in 0.552130 second(s), Total 54, Slave 43 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 深圳华秋电子有限公司
电子发烧友 (电路图) 粤公网安备 44030402000349 号 电信与信息服务业务经营许可证:粤 B2-20160233 工商网监 湘ICP备2023018690号