算法负责人 |
工作经历:长期从事算法工作,先后历经金融软件技术、社交网络、互联网金融、电子商务、数据安全等不同领域公司。
技能领域:隐私保护计算, 机器学习, 自然语言处理, 个性化推荐, 复杂网络等。
个人亮点:擅长运用算法解决实际业务问题,具备突出的算法创新能力,并且能够取得显著的业绩成果。
富数科技-产研中心
算法专家TL
2020-至今, 算法部,领导最多8人规模算法团队
2020年同期获得滴滴出行D7 offer(用户增长方向)
贝贝集团-研发中心大数据团队
算法专家(P7)
2020-2020,数据平台搜索推荐组
挖财-数据智能部&集团风控部
算法建模专家(P7)
2019-2020,集团风控部
2015-2019,数据智能部
2015年同期获得中国有赞offer(搜索推荐方向)
腾讯-社交网络事业部
访问学生研究员
2015-2015,SNG数据平台
信雅达-研发中心
研发实习工程师
2012-2012,金融软件创新产品研发
【专利】已授权算法领域发明专利23项,在审专利18项。
【富数-全匿踪算法技术】设计并实施行业首创的全匿踪系列算法,包括全匿踪联邦学习、全匿踪混合求交营销算法,入选2022年信通院“星河”最高级别十大标杆案例,23年获得首届数商大赛金融数据创新应用赛道的全国一等奖。
【富数-多方安全计算系统】系统功能及算子性能位列行业第一梯队。在2021年,与腾讯、蚂蚁一同成为当年首批通过信通院多方安全计算性能评测的厂商, 与微众、蚂蚁成为第一批通过多方安全计算金融应用技术测评(BCTC)的业内厂商。
【富数-纵向联邦学习平台】推动完善和提升纵向联邦学习平台,该平台可以理解为具备数据安全保护能力的sklearn机器学习算法库,支持类似阿里pai的低代码拖拽式的联邦学习平台。功能覆盖主流算法,包括特征预处理、特征衍生、二分类、多分类和回归等,功能及性能在业内处于第一梯队。
【富数-隐私集合求交】针对生产环境下低带宽亿级甚至百亿级安全求交的需求,率先在业内引入基于vole&okvs版本的安全求交算法,是目前开源领域最快的版本,整体能力处于业内的前列。
【贝贝-贝店个性化Push2.0系统】设计开发基于IFTTT概念的实时推送系统开发及上线应用,引入Bert、w&d、强化学习等技术,优化后相对于1.0阶段,DAU均值提升约 290%,引导gmv提升140%,个推引导DAU占全站5.33%。
【挖财-智能记账产品】引入基于cnn的文本分类模型实现挖财记账由手动向自动化类目识别的转变,极大提升用户记账效率,提升留存。
【挖财-社保政务知识库及问答系统】设计开发融合句法结构模式识别的注意力定位机制短文本问题匹配算法,自助解决率达90%+,用户满意率超过人 工,缓解客服人力&提升用户满意度。
【挖财-信贷拒绝推断产品】在业内率先引入基于vae的半监督算法实现信用风险评估模型,应用与信贷拒绝推断场景,捞回率可观,超过预定捞回率目标约83%。
【研究生】2015年6月获得计算机应用技术硕士学位
硕士从事复杂网络与数据挖掘方向,入学成绩365分。
北师大-系统科学学院
2014-2014
阿里巴巴复杂科学研究中心(阿里巴巴-杭师大-电子科大-University of Fribourg联合实验室)
2012-2015
【本科】2012年6月获得信息管理与信息系统相关学士学位。
【论文】SCI、EI等9篇学术论文。
【论文】硕士论文入选中国优秀硕士学位论文。
【竞赛】首届中国互联网数据平台数据挖掘竞赛全国第一名。担任本次比赛的评委分别是:中国互联网络信息中心研究员沈烁;北京大学计算机科学与工程系研究员、博士生导师崔斌;微软亚洲研究院主管研究员,中国科技大学兼职博士生导师谢幸;数据堂共同创始人、中国计算机学会大数据专家委员会委员齐红威;腾讯数据平台部助理总经理蒋杰。
【竞赛】第十届华为杯全国研究生数学建模比赛三等奖。
【绩点】本科期间绩点约4.07/5, 专业第二。
【英语】四六级英语分别为579、572, 上海中级口译证书。
【竞赛】担任学院创新实验班核心成员,曾获计算机学院首页编程设计大赛等多类奖项。
富数科技-产研中心
算法专家TL
2020-至今, 算法部:领导8名算法同学
(1)设计并实施行业首创的全匿踪联邦学习算法方案,旨在解决行业合规痛点,并通过全流程保护隐私数据集合求交的交集和非交集,引领行业技术发展。隐私安全求交是数据安全的重要组成部分,解决多方数据求交集的任务,在风控黑名单、广告投放、用户属性查询等领域得到广泛应用。该方案的成功实施支撑中信证券成为2022年信通院最高级别“星河”标杆案例中首个全匿踪隐私计算案例的入选项目。我们不断优化方案,推出了基于MPC的高带宽算法版本以及基于Opprf的低带宽算法版本,以满足不同算法运行环境的需求,并提供最优解决方案。基于全匿踪隐私求交技术,我们进一步推出了全新的全匿踪混淆求交营销方案,解决了银行在使用安全求交技术时存在的安全合规问题。该方案在真实业务场景中展现出可观的营销效果,为行业提供了可靠的解决方案。
(2)带领团队研发落地基于tensorflow2.x版本的多方安全计算系统,该系统功能可以类比为具有数据安全保护能力的python标准库。算法遵循秘密共享机制,引入行业创新的明密文混合计算框架和异步化的弱网计算稳定性方案,实现两方、三方、多方的150+规模的MPC协议算子,可支持亿级数据的高效计算,在加法、乘法、比较、逻辑运算、中位数、最大最小值、百分位数等基础算子及统计算子性能上位于业内第一梯队。进一步地,将MPC应用于纵向联邦学习、全匿踪联邦学习、深度学习生物识别、混淆求交营销算法、风控决策引擎等场景,为公司在中信证券、中银金科、中移金科、国网电力等ToB领域的交付实施提供有力的技术支撑。研发的MPC系统,在2021年,与腾讯、蚂蚁一同成为当年首批通过信通院多方安全计算性能评测的厂商, 与微众、蚂蚁成为第一批通过多方安全计算金融应用技术测评(BCTC)的业内厂商。
(3)推动完善和提升纵向联邦学习平台,该平台可以理解为具备数据安全保护能力的sklearn机器学习算法库,支持类似阿里pai的低代码拖拽式的联邦学习平台。功能覆盖主流算法,包括特征预处理、特征衍生、二分类、多分类和回归等。特征预处理算法包括缺失值、异常值、特征转换、采样、标准化和归一化等联邦分布式技术。特征衍生部分涵盖了OneHot编码、Label Encoding、Target Encoding、IV&WOE以及特征筛选等分布式安全计算方法。特征分析方面实现了Pearson相关系数、Spearman系数和VIF方差膨胀系数等联邦学习指标。学习算法方面涵盖了逻辑回归(BGD/Nesterov/Adam/Nadam)、决策树、LightGBM、XGBoost(二分类、多分类、回归)、随机森林、线性回归、softmax多分类(lbfgs)、KMeans和DNN等算法。针对分类任务评估指标包括模型稳定性PSI、特征影响显著性P-value、AUC、KS值、lift曲线、F1-score、Precision、Accuracy和Recall。多分类任务评估指标包括Micro-F1、Macro-F1和Weighted-F1。回归任务评估指标包括MSE、RMSE、MAE、R-squared和SSE。支持批量预测和API预测功能。算法可面向两方、三方(包括无数据发起方场景)和多方场景。建立相对完备的大规模数据分批预测、API预测等serving服务。进一步地,我们针对联合营销场景,推出基于集成树模型的人群包和匿踪评估营销算法能力。针对联邦算法的性能提升方面,针对高带宽和低带宽场景分别做了优化,采用了基于MPC和同态加密算法的纵向联邦算法,提出并落地全新的明密文混合的最小化MPC创新技术方案,引入量化压缩方案和低带宽友好的OU加密算法,联邦学习二分类、多分类、回归等算法性能在业内处于第一梯队。算法底层基于MPC(秘密共享)、半同态(Paillier、ZPaillier、OU)和全同态(CKKS)加密算法,以及密文打包和密文量化技术。针对联邦算法服务能力及稳定性方面,具备基于Ray的分布式计算能力,同时针对生产环境的弱网和机器性能,推动开发了断点续算、低配置适配等能力。对于提升模型效果,引入基于k-fold交叉验证的联邦模型权重初始值预训练方案加速模型学习指标提升。
(4)带领团队在隐私集合求交算法面向生产环境下低带宽亿级甚至百亿级安全求交需求满足,率先在业内引入基于vole&okvs版本的安全求交算法,通信量级降低到187n bit规模,是目前开源领域最快的版本。统计安全参数40的条件下,相对于已有的cm20版本求交算法,性能最大提升3倍,整体能力处于业内的前列。同时引入一种基于BufferingSocket的协程通信模式,算法底层只是发送/接收数据到缓冲区, 不用处理网络层的任何事情,封装的python接口只需要提供从缓冲区获取数据, 以及写数据到缓冲区的方法,所有的网络传输的事情都是由python框架层实现,通过额外的接口 getOutbound 获取一轮通信的全部信息,通过该模式,较好地与现有框架实现共存,快速实现算法的落地应用。
贝贝集团-数据平台推荐算法组
算法专家
2020-2020, 研发中心大数据团队: 虚线带1名算法同事
负责社群电商独角兽贝店业务:基于DAU用户增长的个性化Push2.0系统。
结果:优化后相对于1.0阶段,DAU均值提升约 290%,引导gmv提升140%,个推引导DAU占全站5.33%。
a. 负责面向用户生命周期个性化 push2.0 技术方案设计,涵盖推送文案、内容、时间、敏感度等个性化。
b. 推动完成项目离线个性化推送&基于IFTTT概念的实时推送系统开发及上线应用。
c. 产品化思维&全链路漏斗分析&线上服务指标监控。开发Multi-armed bandits(Exp3/ε-greedy/topk softmax/UCB 等)个性化文案优选算法&基于Bert的文本相似性度量智能文案元生成。上线基于用户行为 Retarget、u2i2i、Embedding元推荐、Wide&Deep Learning个性化选品模块。探索DNN个性化时 间模型及频控等个性化策略对uv提升影响。针对用户反馈数据及服务监控指标,及时提出改进方案。
挖财-数据智能部
算法专家
2015-2020, 数据智能部&集团风控部:带4名实习生)
(1)风控业务:贷前拒绝推断&风险识别&贷后催收
结果:扩大信贷业务放贷量,提出并落地半监督算法, 捞回率可观,超过预定捞回率目标约83%。
主导半监督算法的实施,设计开发融合 label spreading、variational auto-encoder、outlier detection的半监督算法。
a. 结合业务实际思考,提出新的模型评估指标及训练目标,有效降低入催率。
b. 提升放贷资产质量,优化用户信用风险排序模型,放款用户坏账率得到改善,多期逾期率增速降低。
c. 设计开发“面向topK优化的adaptive风险评估模型”,排序靠前用户的坏账率降低。分析还款行为类型 的多期转移概率,发现贷后用户在主动还款意识上的差异。实施“融合还款意愿识别的 stacking 模型”, 放款用户主动还款比例明显提升。
d. 贷后催收, 基于贷后用户还款意愿度分层,制定不同催收策略,提升回款率,提出并完成还款序列模式与逾期行为的关系,挖掘有效行为模式。探索开发“结合还款序列信息的逾 期风险识别模型”, 对贷后用户进行分层。
(2) 社保公积金业务:政务知识库及问答系统
结果:建立知识萃取链路,解决政务知识低质量。开发自有对话机器人,自助解决率 90%+,用户满意率超过人 工,缓解客服人力&提升用户满意度。问答系统在社保掌上通、闪电公积金、掌上社小保等多产品上线。
a. 社保知识库体系化,提升完备度及城市覆盖度。主导设计完整的爬虫知识萃取链路,提出基于社保地图 的知识完善思路,从源数据到问答对入库。 开发语义相似度匹配的重复问题过滤算法及Q2Q相似问法扩展。
b. 完成 IR-based 多轮对话机器人架构设计开发(工程策略&知识图谱&匹配算法召回排序多条解决路径), 使用 QP-召回-排序框架思路,其中工程策略包含 ES,AIML 等功能。基于 fasttext 混合意图识别算法; 基于 slot-filling&知识图谱意图完整性检测算法;推动设计构建 neo4j 知识图谱;开发“融合句法结构模 式识别的注意力定位机制短文本问题匹配算法”;上线短文本语义匹配的召回排序API。
c. 横向扩展,丰富应用场景以及纵向迭代预研。对话系统推广到公积金场景,处理冷启动适配工作。开发 CNN 表征学习聚类算法的热门问题识别功能,支持调整首页&针对性完善知识。迭代基于 Bert&向量召回 解决方案。
(3) 挖财记账业务: 快速记账、变现商转及用户留存
a. 智能记账,实现用户语音快速记账,缩短记一笔耗时。挖财记账app和微记账app上线使用 主导设计解决方案,涉及类目体系化、分类&金额提取自动化、用户反馈利用。开发上线基于Gated TextCNN 的账目文本分类算法; 基于NER的金额提取算法; 基于boosted bagging filter 的用户主动标注数据利用算法。
b. 记账端流量变现,提升理财、贷款、办卡、保险4类变现渠道的转化效率,模型排序top30%用户对 目标用户召回率为 70%-87%,转化率相比运营选择人群包提升近5倍。整合 BI、数仓、研发,推进多数据源的特征开发,模型选型实验(FM,GBDT&LR,XGBOOST), 多轮A/B线 上测试,完成最优效果模型上线使用。迭代Wide&Deep,DeepFM 等CTR模型。
c. 用户留存,通过资讯个性化推送,唤醒用户,相比运营精选帖子推送,在线打开率提升约25%。 设计推荐算法整体框架(包括数据维度、存储结构、模型组件、应用层(召回排序)、策略)。引入基于用户类 目偏好、协同过滤、操作行为、相似扩展等召回手段(涉及 ALS/序列 word2vec 等 embedding),结合 文章质量分、时间衰减及业务规则过滤,通过GBDT/BPR等模型排序得到最终推送资讯。
(4) 业务算法支持:针对理财、结算等部门提供算法支持
a. 社交亲密度识别:以应对风险为目的,主导开发基于通话行为的亲密号码识别算法。从不同视角,深入 挖掘通话行为模式,提取有效特征,落地多层次分类器,有效识别亲密号码。业务部门多场景上线应用。
b. 设备指纹:推动建立集团自有的设备指纹体系,以应对渠道刷单、多头借贷、精准营销、支付安全等多 需求。从无到有进行摸索,制定信息采集方案,推动完成 Android、iOS必要设备信息落库。并设计开发 设备指纹匹配系统,包含精准匹配、模糊匹配、级联贝叶斯匹配算法,具备较高的设备识别唯一性和稳定 性。相关成果在风控反欺诈、信用评估、竞品分析、关系网络等场景得到应用。
c. 资金流出预测:应清结算部门评估头寸需要,有效预测每日资金流出(用户提现),设计开发基于主因及波 动因子的层次残差拟合算法来预测每日用户提现额。真实数据显示该算法预测值相比于之前用的移动平均 模型,误差平均缩小58.4%,在超过亿元的真实提现额规模预测上,误差稳定在3%以内。
d. 基于 LBS 的高净值用户挖掘:为理财运营团队挖掘集团内高净值客群。基于记账GPS经纬度轨迹数据, 结合 POI 信息,设计开发用户家庭&工作地址识别算法,并采集家庭所在小区房价、地段、工作地办公性 质等价值评估信息,来推测用户是否是潜在高收入人群,为理财团队持续提供价值人群进行营销。
【授权发明专利】一种随机分组的方法及装置、计算机程序产品、电子设备
尤志强, 卞阳, 涂志鹏, 张伟奇
国家发明专利, CN116319084B, 公告日2023.09.29
【授权发明专利】使用联邦学习模型进行人群包统计的方法及装置
尤志强, 王兆凯
国家发明专利, CN116521952B, 公告日2023.09.05
【授权发明专利】多方安全计算方法、装置、系统、电子设备和存储介质
尤志强, 卞阳, 赵东
国家发明专利, CN116055049B, 公告日2023.07.04
【授权发明专利】多方安全的数据重排方法、装置、电子设备及存储介质
尤志强
国家发明专利, CN115982785B, 公告日2023.06.30
【授权发明专利】短文本问题语义匹配方法和系统
尤志强, 潘琪
国家发明专利, CN109597994B, 公告日2023.06.06
【授权发明专利】一种信息推荐方法及装置
尤志强, 卞阳, 王兆凯
国家发明专利, CN115795174B, 公告日2022.04.25
【授权发明专利】全密态数据处理方法、装置、设备、介质
尤志强, 卞阳, 赵东
国家发明专利, CN115587382B, 公告日2023.04.11
【授权发明专利】隐私计算进程的安全监控方法、装置、设备、介质
尤志强, 卞阳
国家发明专利, CN115664839B, 公告日2023.04.11
【授权发明专利】基于异构联邦学习的预测方法、模型生成方法及装置
尤志强, 卞阳
国家发明专利, CN114611712B, 公告日2022.08.26
【授权发明专利】一种数据中位数确定方法及装置
尤志强, 卞阳, 赵东, 朱崇炳
国家发明专利, CN114595479B, 公告日2022.08.26
【授权发明专利】多方安全计算方法、电子设备及可读存储介质
尤志强, 赵东, 陈立峰, 卞阳
国家发明专利, CN114615282B, 公告日2022.08.23
【授权发明专利】一种纵向联邦学习模型的训练方法及系统
尤志强, 卞阳
国家发明专利, CN114330759B, 公告日2022.08.02
【授权发明专利】信贷申请的逾期风险预测方法及装置
尤志强, 车曦, 潘琪
国家发明专利, CN108389125B, 公告日2022.06.07
【授权发明专利】用户关系的识别方法、对象关系的识别方法及装置
尤志强, 潘琪, 车曦
国家发明专利, CN107392781B, 公告日2021.11.02
【授权发明专利】短文本分类方法及装置
尤志强, 车曦, 潘琪
国家发明专利, CN107301225B, 公告日2021.01.26
【授权发明专利】联邦学习代码生成方法、装置、电子设备及存储介质
卞阳, 尤志强, 赵东, 朱崇炳
国家发明专利, CN114282257B, 公告日2022.07.15
【授权发明专利】一种智能语义处理方法
康洪雨, 尤志强, 车曦, 潘琪
国家发明专利, CN109062895B, 公告日2022.06.24
【授权发明专利】基于移动端日志行为数据的用户流失预测方法及装置
车曦, 尤志强, 潘琪
国家发明专利, CN109034861B, 公告日2022.06.07
【授权发明专利】用于评估联邦学习模型的方法及装置
王兆凯, 卞阳, 尤志强
国家发明专利, CN116541870B, 公告日2023.09.05
【授权发明专利】一种数据匿名化方法、装置、电子设备及存储介质
赵东, 卞阳, 尤志强
国家发明专利, CN115982779B, 公告日2023.05.23
【授权发明专利】一种融合网络结构和文本信息的社交关系预测方法
张子柯, 许帅帅, 尤志强, 周鸽, 刘闯
国家发明专利, CN107729569B, 公告日2020.01.17
【授权发明专利】一种安全多方计算方法、装置、电子设备及存储介质
孙小超, 陈立峰, 卞阳, 尤志强
国家发明专利, CN114595483B, 公告日2022.08.02
【授权发明专利】特征分箱方法、装置、电子设备和计算机可读存储介质
陈立峰,李腾飞,卞阳,杨云波,尤志强
国家发明专利, CN116244650B, 公告日2023.10.03
【已受理】第一方联合第二方挖掘目标对象的方法及装置
尤志强, 陈立峰, 赵东
国家发明专利
【已受理】第一方对第二方进行非法数据识别的方法及装置
尤志强, 赵东, 陈立峰
国家发明专利, CN117688589A, 申请日2023.12.25
【已受理】在相互连接的多个子网中发现目标资源的方法及装置
尤志强, 赵东
国家发明专利, CN117829993A, 申请日2023.12.15
【已受理】用于在多个节点中进行资源推荐的方法
尤志强, 赵东
国家发明专利, CN117609621A, 申请日2023.11.30
【已受理】从多个数据集节点中筛选数据集的方法
尤志强, 王兆凯, 赵东
国家发明专利, CN117493630A, 申请日2023.11.27
【已受理】数据访问方法、装置、计算机设备和介质
尤志强, 王兆凯, 赵华宇
国家发明专利, CN117573827A, 申请日2023.11.21
【已受理】对目标节点进行数据质量评估的方法及装置
尤志强, 陈立峰, 赵东
国家发明专利, CN117574105A, 申请日2023.11.14
【已受理】用于数联网的算力撮合方法
尤志强, 卞阳, 王兆凯
国家发明专利, CN117579629A, 申请日2023.10.31
【已受理】利用数联网中的分布式算力执行计算业务的方法
尤志强, 卞阳, 赵东
国家发明专利, CN117579310A, 申请日2023.10.31
【已受理】用于XGBoost联邦学习模型训练的数据处理方法和装置
尤志强, 卞阳, 王兆凯
国家发明专利, CN117648992A, 申请日2023.10.31
【已受理】多方安全计算、学习模型的训练方法、系统、设备及介质
尤志强, 王兆凯, 赵东
国家发明专利, CN116305195A, 申请日2023.02.15
【已受理】纵向联邦学习模型的训练方法、装置、电子设备、介质
尤志强, 赵东, 朱崇炳
国家发明专利, CN117332872A, 申请日2022.09.08
【已受理】安全求交、联邦学习模型的训练方法及系统、设备及介质
尤志强, 陈立峰
国家发明专利, CN115392480A, 申请日2022.08.05
【已受理】基于MPC的联邦学习模型训练和预测方法、系统、设备及介质
尤志强, 赵东, 卞阳
国家发明专利, CN115525921A, 申请日2022.01.18
【已受理】数据混合处理方法、系统、设备、介质及数据处理系统
朱崇炳, 赵东, 尤志强
国家发明专利, CN115604010A, 申请日2022.10.18
【已受理】全匿联邦学习模型的训练方法、设备和存储介质
陈立峰, 卞阳, 尤志强, 王兆凯
国家发明专利, CN115438370A, 申请日2022.08.05
【实审】一种计算引擎与平台解耦的方法及系统
朱崇炳、赵东、 尤志强
国家发明专利, CN114444136A, 申请日2022.02.08
【已受理】一种生物特征提取方法及装置
王琪, 杨燕明, 高鹏飞, 周雍恺, 张高磊, 孙小超, 赵东, 尤志强, 张饶波
国家发明专利, CN115439903A, 申请日2022.08.16
Empirical studies on the network of social groups: the case of Tencent QQ
Zhi-Qiang You, Xiao-Pu Han, Linyuan Lü, Chi Ho Yeung
PloS one 10 (7), e0130538. [PDF]
The role of research efficiency in the evolution of scientific productivity and impact: An agent-based model
Zhi-Qiang You, Xiao-Pu Han, Tarik Hadzibeganovic
Physics Letters A, Volume 380, Issues 7–8, 22 February 2016, Pages 828-836[PDF]
Website-oriented recommendation based on heat spreading and tag-aware collaborative filtering
Zi-Ke Zhang, Lu Yu, Kuan Fang, Zhi-Qiang You, Chuang Liu, Hao Liu, Xiao-Yong Yan
Physica A, Volume 399, 1 April 2014, Pages 82-88[PDF]
Reconstruction of social group networks from friendship networks using a tag-based model
Yuan-Pan Guan, Zhi-Qiang You, Xiao-Pu Han
Physica A, Volume 463, 1 December 2016, Pages 485-492[PDF]
Modelling temporal patterns of news report
You Zhi-Qiang, Zhu Yan-Yan, Han Xiao-Pu, Lü Linyuan
Chinese Control Conference (CCC), 2015 34th Chinese, 10.1109/ChiCC.2015.7259829, 1345 - 1350[PDF]
基于任务队列的新闻报道模型
尤志强, 朱燕燕, 韩筱璞, 吕琳媛
电子科技大学学报, 2016, 45(2): 295-300[PDF]
基于社交网络的社群生长模型
尤志强, 管远盼, 韩筱璞, 邓小方, 吕琳媛
复杂系统与复杂性科学, 2015, 12(2): 72-77[PDF]
基于相关性的上海世界博览会行人流分析
尤志强, 韩筱璞
上海理工大学学报, 2013, 35(4), 313-320[PDF]
在线社交网络的结构分析, 建模及预测
尤志强
2015中国优秀硕士学位论文全文数据库[PDF]