天池新闻推荐比赛1:赛题理解+baseline
天池新闻推荐比赛1:赛题理解+baseline
一、比赛信息
比赛链接:
https://tianchi.aliyun.com/competition/entrance/531842/information
比赛简介:
赛题以预测用户未来点击新闻文章为任务,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。
评价指标:
以MRR作为评价指标,MRR(Mean reciprocal rank)是一个国际上通用的对搜索算法进行评价的机制,即第一个结果匹配,分数为1,第二个匹配分数为0.5,第n个匹配分数为1/n,如果没有匹配的句子分数为0。最终的分数为所有得分之和。对于本次比赛,每个用户都会向推荐Top5的文章,故每个用户的MRR定义如下:
( ext {score}(u s e r)=sum_{k=1}^{5} frac{s(u s e r, k)}{k} )
最终的得分为所有用户分数的平均值。大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!
二、赛题理解大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!
本次比赛是新闻背景下的推荐系统,可用的特征为新闻特征+用户特征。新闻特征主要是文章的长度、文章类型和文章创建时间,而用户特征为用户本身的信息+之前的点击日志构成。最终的预测值用户的最后一次点击的文章。关键是如何将真实场景下的用户日志转化为可以作为模型输入的特征,这是本次比赛的一个挑战。
三、赛题Baseline
Baseline采用item-based协同过滤,item-based协同过滤常见思路如下:
构建物品相似度矩阵
根据相似度矩阵和用户之前购买过的物品,找出TopN个相似物品
对TopN个物品排序
具体的代码和思路如下:
导入相关的库
按点击时间排序,获取用户:[点击文章,点击时间] 字典
获取点击最多的文章,为后面缺失值补充
用全部数据集,构建物品相似度矩阵
基于相似度矩阵进行召回大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!
定义提交文件函数
设置基本的参数
得到测试集结果
四、总结
这个baseline虽然只是最基础的模型,而且还有许多的用户和新闻的信息并没有利用起来。但让我们熟悉了新闻推荐的基本流程,了解了常见的数据处理方法,最终从用户日志中得到可以使用的特征。
版权声明
本文仅代表作者观点,不代表xx立场。
本文系作者授权xx发表,未经许可,不得转载。