推荐系统总结——什么是标签?

标签是用来描述信息的关键字。标签可以用来描述项目的客观属性以及用户对项目的兴趣和偏好。在推荐系统中,可以通过消费品的标签计算出用户的兴趣模型,进行更好更精准的推荐。

标签来源

从标签的来源来看,一般可以分为三种:

(1)业主给物品贴上标签。

②专家标注物品。

③普通用户标注物品。

业主一般会在物品发布时进行标注,专家标注一般由平台发起,由人组织完成标注。这两种方法适用于标注区分物品客观属性的标签。;比如PGC内容发布商可以选择自己的内容属于娱乐还是军事;在电商平台上加载商品时,会选择衣服的颜色、尺码等属性;音乐平台会有专人对音乐进行标注,比如作者、发布时间、风格等信息。

用户标签一般是描述当前用户在消费物品后的主观感受和认知的标签;比如,用户在资讯平台上看完文章后,可以标记文章是否好看;用户在听完一首歌后,可以认为这首歌是悲伤的或是安静的。

基于标签的推荐方法

如前所述,标签可以帮助我们进行更好更精准的推荐,本质上是一种标签+协同推荐的方式。大致思路如下:

①用户喜欢标签A,推荐标签B与标签A相似的商品。

②用户A和用户B兴趣模型相似,向用户A推荐用户B喜欢的带有标签A的项目。

③用户A喜欢的物品中含有标签A,推荐其他含有标签A的物品。

④用户A喜欢的商品包含标签A,推荐标签B与A相似的商品。

⑤结合以上方法进行推荐,每种方法赋予不同的权重?

不同的用户场景会有不同的偏向。首先,应该用不同的方式来定义。比如新闻内容平台,新闻不涉及订购,阅读如是,新闻内容用户需要一定的多样性。如果直接采用第三种推荐方式,必然会导致内容单一,用户很快会产生厌烦情绪;但在其他场景,比如某些群体的标签,比如“女性”标签,可以使用这种方法;在确定推荐策略时,要考虑用户群体和目前推荐的使用场景,但具体效果是一个长期的优化过程。一般算法调整后,会有一个7天左右的数据波动期,遵循AB测试的原理(搭建单变量环境),7天后通过看数据就能得到一个相对准确的效果评估。

标签的优化

除了标签推荐策略的调整,标签优化也是优化标签推荐效果的重要途径。我们可以通过以下方式提高标签的准确性和偏好清晰度:

①尽量提供能反映用户对物品看法和偏好的标签,供用户选择;比如一首歌,歌手、发行年份、专辑的标签属于客观性,安静、悲伤的标签可以反映用户对该项目的看法。这个主管标签的集合有助于我们更准确的建立用户兴趣模型。

②提高标签兴趣的准确性;用标签来建模会给热门标签带来很大的权重,在长尾状态下用户兴趣模型的准确率可能会下降。TF-IDF可以用来减轻流行标签的重量。

(3)根据标签关联的标签相似性和标签扩展;当没有标签相似度时,所有与用户A相关的标签都只是A的直接收藏标签。标注相似度后,用户A喜欢的标签物种也可以引用相似度的标签?

(4)清理无用标签。对于一些词频较高的停用词,通过合并表示差异的同义词来提高标注的准确性。

注意:TF-IDF:如果一个词或短语在一篇文章中频繁出现,而在其他文章中很少出现,则认为该词或短语具有良好的分类能力,适合分类。TFIDF实际上是:TF * IDF,TF词频($ Term频)和IDF逆文档频。特定文件中的高频词和整个文件集中的低频词可以产生高权重的TF-IDF。所以TF-IDF倾向于过滤掉常用词,保留重要词。

链接:/p/43a76f1784da