在行业里做过较长时间策略或模型的人,一定会经历模型策略迭代的过程;而迭代过程中你总会遇到新策略是不是一定比旧策略好的问题。新老策略模型究竟孰好孰坏呢?如何分辨?本文提出了4种解决方法,希望能给你带来帮助。
任何在这个行业里做过较长时间策略或模型的人,一定会经历模型策略迭代的过程;任何经历过模型策略迭代的人,只要有过独立思考,一定会遇到新策略是不是一定比旧策略更好的问题。
贷前也好,贷中也罢,当前的风险表现都是当前的这套风险策略的结果。当我们要迭代模型策略的时候,KS也好,Lift值也罢,你会高估新模型策略的效果,更为可靠的说法是,你会高估新版对旧版的提升效果。
因为评估的样本,并非完全是应用的样本,这就由此产生了选择偏差,或者说幸存者偏差,我们是在“幸存者”上确保了B好于A。
常见的现象是,新模型永远比旧模型好,但却并不一定是真的好。试问,如果新模型新策略永远比旧模型旧策略更好的话,为什么业务没有变得更好?
因为上述问题的必然性和重要性,新老策略模型究竟孰好孰坏,可以说是这个行业最经典的问题。
我们今天来聊一聊解决办法。思来想去,解决办法似乎有四种,是哪四种呢?这四种又具备哪些优劣点呢?
01 随机流量
最彻底的一种是随机流量。随机一部分流量例如1%,让其通过,给随机额度随机息费,任其表现。也不需要100%通过,政策风险、欺诈风险等前置稳定不变的策略还是可以照常有。
这部分流量,可以用来建模,可以用来评估,最重要的是用来评估。任你选什么样本,任你做多少模型,任你套什么算法,只要在这个随机流量上效果是更优的,就有理由认定为模型是更优的。策略当然也是一样。
当前,普适的前提还是需要满足,例如样本量得足够大、时间窗口得足够长、模型本事稳定性可靠性得尽可能高。因为,真正的目标是未来的随机流量上的效果好。
这个办法没有任何坏处,除了费钱。信贷领域,随机流量的成本太高了,年化24%的产品,多少个好客户的收益才能弥补一个坏客户的成本?
所以,这个办法用的并不多。只有头部效应明显、营收稳定的平台有可能会预留一部分资产预算用于随机流量。
也不对,远超过24%年化的那个黄金年代,也适用,只是他们不是为了随机流量而随机,而是没有太多风控,暴力催收+高息可以搞定。
02 拒绝推断
顾名思义,拒绝推断就是对拒绝的样本进行表现的推断,是去解决幸存者偏差的问题。有了全量样本的表现,模型策略孰好孰坏一算便知。
上面说的随机流量,其实就可以看作拒绝推断的一种解决办法。其他的办法,不管是推断拒绝样本的表现也好,还是获取拒绝样本在其他产品上的表现也好,总归是非真实的。你说引入了信息,我说引入了噪声。
引入不精确的信息来解决精确性的问题,总归是值得怀疑的。
所以,对于拒绝推断,实际上在用的是少之又少。因为太多假设,因为不准,就不如不用,就像判别模型大体总是比生成模型有效。
03 冠军挑战者
国外来的叫法,但其实就是ABtest。
当前线上的策略作为冠军组,拟上线的策略作为挑战组,挑战组可以有多个。因为表现期滞后且损失大,随机切小部分流量给挑战组,不宜过多,例如10%。任其表现,优劣自明。
挑战成功,则挑战者成为新的冠军者,可以全部切换新策略。但也可以不全切,甚至可以永远保持50%:50%的冠军挑战者。好处当然是对比得更充分,且可以应对突发情况,其一下线其一递补。
ABtest当然具备很强的严谨性,但在风控领域,效率不行。前已备述,风控不需要做ABTest?
ABtest最大的优势是在当你无法评估多个方案的优劣时,你不知道哪种字体、哪个颜色、哪种文案、多少度的倒角,究竟哪个好哪个坏,试了才知道。
而风控领域,你做了一个模型,然后跟老板说我也不知道有没有更好,测了才知道。祝你好运!
你做的模型一定是要离线评估更优的,当然,离线评估没有线上真实去测的可靠性那么高,但也可以尽可能高。
04 分群评估
上述办法的弱点都很明显,那有没有弱点没那么明显的办法?有,那就是分群评估。
请君静听。
分群评估当然就是把整个客群分成很多的客群,分别看这些客群下的效果。关于分群的艺术,可以说是互联网业务中最重中之重的法宝。不信?我的客群观,互联网业务的流量之争。
分群评估的奥秘在于,不同客群的通过率或者额度定价是不同的,受策略影响大的客群评估效果离真相越远,那受策略影响小的客群评估效果则离真相就会越近。
在一个通过率10%的客群上,新模型优于旧模型易如反掌;在一个通过率90%的客群上,新模型优于旧模型才是真的更优。
分群评估在这个问题上有效,取决于一个假设,那就是一个模型相比另一个模型要好,那会是全方位地好。如果模型B优于模型A,那么不管是整体,还是各个客群,都是B更好。
反之亦然。在受样本有偏影响更小的客群上,即可靠性高的客群,新模型优于旧模型,则有理由认为在其他客群上也会更优。
值得强调的是,我们所讨论的是模型策略迭代的对比,如果你针对的就是局部客群的优化,则不在此列。
总结
前面三个你大概率都看过,那第四个值得你看四遍。
仅存的问题是,局部客群的提升幅度能多大程度上代表整体?
我不喜欢过度依据数据来判断道理,道理很多时候是可以跨越数据而成立的。如果一个数据不符合某个道理,我更倾向于怀疑数据而不是道理,但程度问题必然还是依靠数据。
上述程度问题我无法判断。如你们有这样的试验数据,或者有这样的文献结果,请告知我。以飨读者。
专栏作家
雷帅,微信公众号:雷帅快与慢,人人都是产品经理专栏作家。风控算法工程师,懂点风控、懂点业务、懂点人生。始终相信经验让工作更简单,继而发现风控让人生更自由。
本文原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。