总结
- 环境:chatgpt3.5
- 测试周期:一周
- 样本数据:实际线上数据
- 测试结论:通过线上数据输入给gpt,可以完成简单的sql查询、sql关联、标签生产和统计分析需求,针对复杂表和字段以及复杂sql逻辑无法满足需求;在实际练习prompt中,编写脚本人员需要具备数据sql能力、能够理解业务数据、对数据质量和结构有探查分析能力,可以提升10%~30%的人效;在数据产品链条中,如要实现智能化分析交互,需要连通大数据体系,通过产品封装prompt脚本的方式,并可调用python或r的统计包与第三方开源图形库结合,完成产品化方案;业内office365 copilot商业版推出基于chatgpt4.0的数据问答分析功能。
Prompt模版
Prompt结构、需包含的关键信息
- 基本结构Instruction(必须): 指令,即你希望模型执行的具体任务。Context(选填): 背景信息,或者说是上下文信息,这可以引导模型做出更好的反应。Input Data(选填): 输入数据,告知模型需要处理的数据。Output Indicator(选填): 输出指示器,告知模型我们要输出的类型或格式。
- CRISPE 结构CR: Capacity and Role(能力与角色)。你希望 ChatGPT 扮演怎样的角色。I: Insight(洞察力),背景信息和上下文(类似 Context的作用)。S: Statement(指令),你希望 ChatGPT 做什么。P: Personality(个性),你希望 ChatGPT 以什么风格或方式回答你。E: Experiment(尝试),要求 ChatGPT 为你提供多个答案。
场景一 数据探查
1 简单数据表查询
1、prompt脚本
脚本模板:
2、真实场景和数据
- 根据已有hive表进行临时查询,适用于一次性的取数、分析需求
3、输出截图
4、适用性结论
- GPT可以辅助生成SQL逻辑,但涉及具体数据内容的部分(包括字段名称、字段筛选条件、关联条件等)需要手动修正,无法直接使用
- 生成SQL需要手动输入表结构内容,该部分会占用比较多的时间成本
2 描述性统计分析
1、prompt脚本
2、真实场景和数据
- 针对数据指标异动做拆解和归因分析
3、输出截图
4、适用性结论
- 针对数据分析和异动归因需求,gpt能高效地提供分析思路和取数、建模、分析代码,代码的可用性较强
- 用户可以根据gpt提供的思路和代码,借助python编译器运营,进行归因分析
3 挖掘类统计分析
1、prompt脚本
- 你作为数据分析师,找出变量之间的关系;
请计算每个变量之间的相关性,并以表格形式输出;
直接执行结果,不要过程;
以下是具体的明细数据:
日期 订单数 Leads数 商分例产(元) 商分班转PV 商分班转GMV(元) 加微率 到课章节数
2023/3/1 68012 17013 86.5669588 1101 1472763.67 0.569035443 8759
2023/3/2 65808 17903 69.24266827 916 1239651.49 0.578338826 8774
2023/3/3 47214 17375 79.11275741 999 1374584.16 0.569266187 7575
2023/3/4 76057 25213 67.70309364 1250 1706998.1 0.557450522 9335
2023/3/5 83640 26343 63.06616938 1236 1661352.1 0.564817978 11163
2023/3/6 60660 13991 85.63047674 871 1198056 0.61110714 8360
2023/3/7 61122 14970 87.7749833 904 1313991.5 0.601736807 8458
2023/3/8 63243 17886 64.47397406 829 1153181.5 0.534608073 8501
2023/3/9 67973 16163 75.12878179 901 1214306.5 0.578234239 8420
2023/3/10 53685 18269 75.94559199 1004 1387450.02 0.550057474 8027
2023/3/11 87460 27695 65.79853764 1393 1822290.5 0.54071132 11631
2023/3/12 94646 28295 65.14135466 1366 1843174.63 0.543806326 12530
2023/3/13 67559 17568 83.11709756 1057 1460201.17 0.596311475 11166
2023/3/14 62369 15288 78.85356489 923 1205513.3 0.598508634 9095
2023/3/15 61495 14772 85.6081404 967 1264603.45 0.581844029 8231
2023/3/16 65559 16593 76.29699271 1008 1265996 0.565901284 8967
2023/3/17 45915 15697 78.3998745 947 1230642.83 0.560552972 7398
2023/3/18 76070 24816 67.23093972 1286 1668403 0.518415538 9740
2023/3/19 84536 24451 68.35997423 1245 1671469.73 0.518138317 10921
2023/3/20 64707 18523 65.9924116 936 1222377.44 0.591264914 14073
2023/3/21 61256 14535 98.26810458 1070 1428326.9 0.655383557 10386
2023/3/22 62543 16288 85.8921169 1010 1399010.8 0.614624263 11013
2023/3/23 65954 19609 64.63435157 952 1267415 0.596919782 13579
2023/3/24 50010 17741 78.92368638 1043 1400185.12 0.584408996 10587
2023/3/25 72948 22380 82.41319035 1394 1844407.2 0.598927614 12237
2023/3/26 80179 20491 74.74477576 1177 1531595.2 0.615538529 10649
2023/3/27 57568 12119 102.4557018 943 1241660.65 0.672745276 8160
2023/3/28 57857 13273 82.93021171 849 1100732.7 0.645747005 8782
2023/3/29 59034 13991 86.32892574 923 1207828 0.612751054 8885
2023/3/30 71963 25726 48.83025733 925 1256207.2 0.553175775 15177
2023/3/31 46188 14493 69.47301456 752 1006872.4 0.599737804 5624
2023/4/1 70408 21734 61.37465262 968 1333916.7 0.561056409 6534
2023/4/2 86008 23049 45.75617163 801 1054634 0.556770359 6536
2023/4/3 65581 16595 55.71696294 689 924623 0.591684242 4929
2023/4/4 46050 14279 52.10708033 552 744037 0.620141466 3861
2023/4/5 91096 21956 45.3689652 756 996121 0.590089269 5312
2023/4/6 75097 29377 16.67971542 370 490000 0.547026585 1882
2023/4/7 43092 13566 26.75446926 270 362951.13 0.567448032 746
2023/4/8 65872 20239 22.36582835 330 452662 0.535154899 533
2023/4/9 79118 24237 11.43837934 201 277232 0.475553905 148
2023/4/10 59717 13736 4.332265579 41 59508 0.49585032 34
- 你作为数据分析师,要做出预测;
请对未来7天进行预测,调用python的prophet包直接执行结果;
直接执行结果,不要过程;
以下是具体的明细数据:
日期 订单数 Leads数 商分例产(元) 商分班转PV 商分班转GMV(元) 加微率 到课章节数
2023/3/1 68012 17013 86.5669588 1101 1472763.67 0.569035443 8759
2023/3/2 65808 17903 69.24266827 916 1239651.49 0.578338826 8774
2023/3/3 47214 17375 79.11275741 999 1374584.16 0.569266187 7575
2023/3/4 76057 25213 67.70309364 1250 1706998.1 0.557450522 9335
2023/3/5 83640 26343 63.06616938 1236 1661352.1 0.564817978 11163
2023/3/6 60660 13991 85.63047674 871 1198056 0.61110714 8360
2023/3/7 61122 14970 87.7749833 904 1313991.5 0.601736807 8458
2023/3/8 63243 17886 64.47397406 829 1153181.5 0.534608073 8501
2023/3/9 67973 16163 75.12878179 901 1214306.5 0.578234239 8420
2023/3/10 53685 18269 75.94559199 1004 1387450.02 0.550057474 8027
2023/3/11 87460 27695 65.79853764 1393 1822290.5 0.54071132 11631
2023/3/12 94646 28295 65.14135466 1366 1843174.63 0.543806326 12530
2023/3/13 67559 17568 83.11709756 1057 1460201.17 0.596311475 11166
2023/3/14 62369 15288 78.85356489 923 1205513.3 0.598508634 9095
2023/3/15 61495 14772 85.6081404 967 1264603.45 0.581844029 8231
2023/3/16 65559 16593 76.29699271 1008 1265996 0.565901284 8967
2023/3/17 45915 15697 78.3998745 947 1230642.83 0.560552972 7398
2023/3/18 76070 24816 67.23093972 1286 1668403 0.518415538 9740
2023/3/19 84536 24451 68.35997423 1245 1671469.73 0.518138317 10921
2023/3/20 64707 18523 65.9924116 936 1222377.44 0.591264914 14073
2023/3/21 61256 14535 98.26810458 1070 1428326.9 0.655383557 10386
2023/3/22 62543 16288 85.8921169 1010 1399010.8 0.614624263 11013
2023/3/23 65954 19609 64.63435157 952 1267415 0.596919782 13579
2023/3/24 50010 17741 78.92368638 1043 1400185.12 0.584408996 10587
2023/3/25 72948 22380 82.41319035 1394 1844407.2 0.598927614 12237
2023/3/26 80179 20491 74.74477576 1177 1531595.2 0.615538529 10649
2023/3/27 57568 12119 102.4557018 943 1241660.65 0.672745276 8160
2023/3/28 57857 13273 82.93021171 849 1100732.7 0.645747005 8782
2023/3/29 59034 13991 86.32892574 923 1207828 0.612751054 8885
2023/3/30 71963 25726 48.83025733 925 1256207.2 0.553175775 15177
2023/3/31 46188 14493 69.47301456 752 1006872.4 0.599737804 5624
2023/4/1 70408 21734 61.37465262 968 1333916.7 0.561056409 6534
2023/4/2 86008 23049 45.75617163 801 1054634 0.556770359 6536
2023/4/3 65581 16595 55.71696294 689 924623 0.591684242 4929
2023/4/4 46050 14279 52.10708033 552 744037 0.620141466 3861
2023/4/5 91096 21956 45.3689652 756 996121 0.590089269 5312
2023/4/6 75097 29377 16.67971542 370 490000 0.547026585 1882
2023/4/7 43092 13566 26.75446926 270 362951.13 0.567448032 746
2023/4/8 65872 20239 22.36582835 330 452662 0.535154899 533
2023/4/9 79118 24237 11.43837934 201 277232 0.475553905 148
2023/4/10 59717 13736 4.332265579 41 59508 0.49585032 34
2、真实场景和数据
相关性分析和预测统计
3、输出截图
4、适用性结论
- 对于指定统计模型包的方式,可以准确提供结果,比较适用于探索性类数据需求
4 复杂结构解析
1、prompt脚本
输入:kv为{"flowPond":"appid%3Dhomework%26crowdid%3D0%26cuid%3D9ACFD8A4FCD3F2E9066ED49C23347E9C%257C0%26gradeid%3D2%26guideFrom%3Dvip%26guideUniqid%3D4227264d-c103-11ed-bc1d-9e6c409f06f5%26handleScheme%3D1%26lastfrom%3Din_zybAPP_vipdashou_L1650621172%26line%3D3%26priority%3D8%26skuid%3D14180004%26strategtype%3D1%26strategyName%3D%25E3%2580%2590%25E6%2596%25B0%25E6%2589%258B%25E3%2580%2591%25E5%2588%259D%25E4%25B8%2580%26strategyid%3D1488%26uid%3D4028408793%26usergroup%3D13%26vipName%3DVIP%25E6%2598%25A57%25E6%259C%259F%26vipid%3D176%26cubeSessionId%3D4c19d229-716b-4a4b-9d3b-9da792968d74%26fcid%3D6970274464728941816%26actId%3D6970274464728941816%26mofangActType%3D1%26lastpageid%3D9105377%26marketType%3DCUBE"};角色:作为数据分析师角色,你需要做数据探查;表结构:现在有3张表,1、订单表dws_order_d,时间分区为dt,下单时间为trade_time,广告位id为psid,订单状态为status,订单id为sub_trade_id,lastfrom为lastfrom,kv为复杂结构(map格式,包括flowPond,flowPond为json格式,包括pvid);2、广告位表dim_psid,时间分区为dt,广告位id为psid,广告位名称为adposname;3、lastfrom表dim_lastfrom,时间dt为每日增量数据,lastfrom为lastfrom,lastfrom名称为name,项目为product;目标:我需要根据3张表的关联,查询订单时间(订单时间为时间戳,需要转换为日期格式)、广告位名称、项目名称、pvid、订单量;关联规则:订单表外连接广告位表,外连接lastfrom表;过滤条件:需要过滤订单状态为1的数据,订单表的时间分区为昨天,广告位表的时间分区为昨天;输出:1、使用presto语句生成;2、使用hive语句生成;
2、真实场景和数据
针对kv嵌套json格式的解析
3、输出截图
4、适用性结论
复杂字段格式无法解析,并且对给定输入样本无法识别
场景二 标签生产
1 规则标签类
1、prompt脚本
2、真实场景和数据
- 画像规则类/常规标签,sql代码开发。
3、输出截图
4、适用性结论
- gpt可辅助画像研发,高效产出规则类标签的代码,用于研发提效;梳理、沉淀各类标签通用性规则后落地规范的prompt模版「需要有数据专业门槛来准确输入prompt 并 判定输出结果的准确性」。
- 因标签后续使用均为按日更新(ETL任务),此处初步调研无法实现库表数据的更新操作。
2 挖掘统计类
1、prompt脚本
2、真实场景和数据
- 画像基于现有样本数据,对用户做挖掘类分层规则时,前置分析探查。
3、输出截图
对数据的基础解读与描述:
输出的分层结果:
4、适用性结论
- 与分析师沟通,反馈比预期的效果更好。可以辅助运营/分析师输出大的分层框架和思路、但缺少业务特殊意义的考量,基于此结果做后续微调改动即可指导业务实际分层动作。
- prompt输入时若能够前置说明每个特征的实际意义及数值高低对应的优劣程度评估,可输出更准确的分层思路。
示例二:
- 场景和数据:北极星流量分析师周报
- prompt脚本:
问题1:
问题2:
- 输出结果
问题1结果:
问题2结果:
- 结论:异常问题定位,辅助探查思路
场景三 画像分析
1 用户洞察分析
- 场景: 会员用户与非会员用户特征分析,为推荐课程提供依据(样本:最近1年购买会员用户)
- prompt脚本
- 输出结果:
- 结论:可参考,待扩展多特征探索