欢太数科智造OPPO钱包(2):联邦学习打破“数据孤岛”

2023-02-16 15:07:25 作者: 欢太数科智造

    我们小的时候都学过“盲人摸象”这个成语,几个盲人摸一头大象,摸到腿的说大象像一根柱子,摸到身躯的说大象像一堵墙,摸到尾巴的说大象像一条蛇,比喻对事物了解不全面,胡乱猜测。

这个成语故事其实很好地说明了人工智能学习的特点:用户在日常行为习惯中,会不断的产生类似“象腿”、“象尾巴”这样的数据,人工智能只有把这些数据都学习到,才能得出是一头大象的概念。而如果只输入了如“象腿”、“象尾巴”等单个数据,人工智能也会得出是柱子、墙这样的错误结论。

但是,用户作为“大象”自己,是不愿意也不应该把这些数据都交出来的,这就产生了数据隐私保护的需要。将在2021年11月1日实施的《中华人民共和国个人信息保护法》,就强化了对个人信息权益的保护,并对企业的隐私合规实践提出进一步要求,可见国家层面对于数据隐私保护的重视。

用户的隐私保护,无可置疑地应该被放在首位。但是客观上科技的进步想要为用户带来更加便捷的服务,不可避免的会进行一些数据上的交互。同时,企业的数据垄断将带来“数据孤岛”问题,必然会带来用户使用成本的提升和商业效率的下降,因此在保护用户隐私的前提下打破数据孤岛,成为了人工智能应用必须要面对的问题。

作为OPPO钱包APP的运营者,欢太数科的工程师就遇到了同样的问题:在与合作机构共同为用户提供数字金融服务的过程中,如何在不暴露用户行为特征的前提下,让合作机构评估用户信贷风险,从而尽量规避掉可能的逾期行为。他们选择采用联邦学习(Federated Learning)来解决这一难题。

联邦学习是一种在保证数据隐私安全及合法合规的基础上,进行共同建模的人工智能学习框架。还记得盲人摸象的故事吗?合作的双方或多方加密过后的样本进行特征比对后,发现都是蛇,但实际上呢,样本数据是“大象的尾巴”,而更加精确的“大象”的面貌就更不可见了。但是蛇这个“近似特征”,已足够数据使用方进行数据的清洗使用了。然后双方再通过加密训练进行联合建模,让得出结果的速度更快,精确度更高。这个并不算精确的比喻,大概可以描绘出联邦学习的特点。

根据数据分布的不同,联邦学习可以分为三类:横向联邦学习、纵向联邦学习和联邦迁移学习,欢太数科在日常的应用中,更多的是采用纵向联邦学习的形式。

如图显示,根据用户的特征维度和用户的自身维度,欢太数科和合作的金融机构都有不同的用户群,纵向联邦学习就可以依据信贷打分,在原始数据不离开用户本地的情况下,找出双方重叠(符合合作方信贷需求)的群体。这样的优势在于既保护的用户的隐私,又提升了机器的学习效果。

联邦学习在不同业态下数据的特征联合上,拥有着广泛的意义。对于欢太数科这样的企业,其运营的钱包APP有着亿级用户的体量,与包括金融、交通、生活服务等不同行业的合作方存在着广泛的合作,多方的数据交叉比对十分的频繁,因此,选择用联邦学习来打破数据孤岛,实现在保护用户隐私下的数据共享,是十分必要的。

从更长远的角度来看,联邦学习作为前沿的数字科技,在欢太数科探索人工智能学习,打造开放数字科技平台的道路上,也必然将发挥越来越重要的作用。

关于欢太数

欢太数科是数字科技开放平台,是OPPO、realme和OnePlus等品牌的官方合作伙伴。欢太数科通过AI、大数据等前沿技术与开放互联的数字平台模式,携手金融、电商、交通等多领域合作伙伴构建和扩展数字生态开放体系,为机构合作伙伴、实体企业与生态内用户提供高效、便捷的数字生活服务与数字金融服务。

(推广)