个性化推荐系统:从内容库到排序
个性化推荐是一种通过推荐引擎实现高效连接的特定场景下人和信息的联系方式。在这个场景中,左边是内容,右边是用户,而推荐引擎则在中间实现两者的链接。个性化推荐的核心在于识别用户的兴趣爱好并将高质量的内容推荐给他们。在内容库中,需要通过各种黑盒子剔除无法分发或影响体验的内容,以建立一个高质量的内容库。这些黑盒子包括硬质量过滤、低俗色情过滤、敏感恶心过滤、高度一致过滤、政审安全过滤、推荐优化等。而内容库中的内容则根据一定规则形成内容候选,机器则开始挑选内容进行后续的个性化推荐。
用户画像是一种标签化的用户模型,根据用户自然属性、社会属性、阅读习惯和线上行为等信息抽象出来。用户画像的建立需要处理数据时的噪音处理、时间衰减、反向惩罚、归一化等关注点。在建立用户画像时,需要分为长期画像和短期画像,以更好地为个性化推荐提供丰富而精准的用户画像。除了用户在APP中的阅读行为外,还可以通过外部渠道数据、产品设计和运营活动等途径完善用户画像。在优化用户画像时,需要评估画像覆盖率、人均画像个数以及画像准确率等指标。
关于用户画像,需要了解的一点是:拥有用户画像并不能直接提高业务,而是为了驱动和提高业务,才需要用户画像。NLP蓝忘机已经建立了画像,那么在打魏无羡的标签时,应该采取什么方法呢?常见的资讯推荐标签包括分类、兴趣点、关键词、主题,其中颗粒度由小到大分别为:关键词<TAG<POI<TOPIC<CATEGORY。对于关键词,可以通过与文章关联度越高,出现频次越高,与其他词关联度越高,重要度就越高的思路来进行标记,算法可以采用tfidf、textrank和embedding。对于TAG标签,可以通过人工标注和机器候选的方法来实现,算法可以采用分词、关键词提取和词典匹配的方式(保留命名实体)。对于POI标签,可以通过人工整理基于关键词的实体兴趣点(POW,如彩票)和概念兴趣点(POC,如财经)的思路来进行标记,算法可以采用分词、关键词抽取和词典匹配的方式。对于TOPIC标签,可以采用隐式主题的思路,粒度比分类更细,算法可以采用机器无监督学习、聚簇等方法,但难点在于数据预处理和调参。对于CATEGORY标签,可以采用有监督的机器学习模型或深度学习模型,还需要考虑分类权威性和信息完备性问题,避免因为子节点覆盖不全或分类错误导致的认知问题。近年来,向量化(embedding)推荐也得到了广泛应用,即把特征表征为多维向量,通过距离衡量语义相关性,YouTube的视频推荐率先实践。
在召回环节,通过索引,几十个召回模块一共召回几千条内容,各召回模块的召回条数有限制,例如本地召回限制最多召回30条内容,召回的内容会根据一定条件(例如CTR、篇均时长、互动指标等)排序后截断,所有召回模块召回的内容汇总到一块,成为一个初步的候选集。这些召回模块都有他自己存在的理由,例如根据地理位置、分类兴趣、关键词、热议度等召回,都是产品经理或开发的想法的一种尝试,大致可分为四类:兴趣、协同、热门和本地。在召回模块的探索中,可以考虑增减召回模块、召回模块逻辑/效果优化、调整召回条数配额等,需要进行AB测试,除了关注整体指标外,还需要关注对召回模块的影响。在召回过后会有一个小的过滤环节,主要是一些拉黑过滤、重复过滤等等,把一些不能推或影响体验的内容过滤掉。此环节的过滤和索引前内容候选的过滤不同,前者是具有普适性的过滤(例如低点击过滤、过期过滤等),后者和用户的行为、属性有关。
魏无羡正在进行CTR PK环节,这个环节按照模型、特征和权重进行排序。模型可以是单模型或多模型融合,特征数有几百个,包括分类、兴趣点、阅读时长和阅读速度等等。特征之间相互PK,权重高的特征对排序结果影响较大。CTR工程师的工作就是选择模型、采样数据优化、增删特征和调参。
在重排重排环节中,进行业务规则的处理。例如,视频推荐占比不超过60%、第2个位置固定出运营内容、相同兴趣点新闻黏连不能超过3条等等,都需要在重排环节处理。规则是最快的上线生效途径,可以用于纠偏、提权等操作。总地来说,短期的人工干预应该逐步被长期的机制所替换。过多的“补丁”会严重增加系统的复杂度,降低可理解性。
最终,魏无羡下发8-12条,奔向屏幕前的蓝忘机,为用户提供个性化推荐服务。个性化推荐的过程不仅具有个体进化意义,还具有群体评估意义。当用户点击“喜欢”按钮时,是主动表达他喜欢这类内容,可加权推荐此类内容。当内容的“不喜欢”数累积到一定阈值,将进入人工复审进行质量判断。以上是智能推荐系统的整体概念,其中的每一模块都可以是独立业务,需要精细化处理。
结语引用闫泽华在《内容算法》里写的:个性化的好是在既定的指标体系下,借助技术手段不断追求更好的数据表现,是生意。好的个性化是在不改变用户目的的前提下,借助技术手段达成用户效率和体验提升,是理想。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请您通过400-62-96871或关注我们的公众号与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~