首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Labeled LDA模型的歌手分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京酷我科技有限公司

摘要:本发明涉及一种基于LabeledLDA模型的歌手分类方法,包括如下步骤:S1收集歌手的人工标签并进行预处理;S2建立基于用户行为的歌手分类模型并收集用户行为数据;S3清洗用户行为数据,过滤其中不利于模型训练的数据;S4分配用户行为数据中每个歌手对应每个用户的权值;S5合并用户行为数据与人工标签数据,生成训练数据;S6基于训练数据,参考标签组合关系,进行基于优化Gibbs采样的LabeledLDA模型训练。本发明,以用户的播歌行为作为训练数据,对用户的覆盖高且兼顾各个用户群体的偏好特征,用户行为的变化反映社会热点、公众认知而变化,模型可以周期性训练以跟随变化,适应性强,精确程度高,提高标签覆盖率,划分类别足够细。

主权项:1.一种基于LabeledLDA模型的歌手分类方法,其特征在于,包括如下步骤:S1,收集歌手的人工标签并进行预处理,作为训练基准;所述收集歌手的人工标签,按维度划分不同的人工标签;所述预处理包括:对各维度包括的人工标签进行准确度评估,取超过或达到预设阈值的维度中的人工标签,形成标签体系;S2,建立基于用户行为的歌手分类模型,并收集用户行为数据;所述建立基于用户行为的歌手分类模型,通过将歌手分类问题转化为一个文档主题分类问题,然后应用文档主题分类模型对歌手进行分类,具体包括:将用户作为单词聚合成代表歌手的文章作为训练数据,所述用户为完整播放歌手的歌曲的用户;为每个歌手分别作一篇文章,文章与歌手为一一对应的关系,即:文章对应歌手,文章的内容由单词构成,单词对应用户,该用户满足“在行为时间窗口w内,完整播放该歌手歌曲”的条件;具体包括:设定一个行为时间窗口w,判读行为时间窗口w内的如下用户行为:在行为时间窗口w内,完整播放该歌手歌曲,则将该用户作为单词,将该单词合并到与歌手对应的文章中;所述收集用户行为数据,是指:在行为时间窗口w内,获取完整播放某位歌手的歌曲的所有用户的用户行为;所述用户行为具体包括:完整播放的歌曲,该歌曲对应的歌手;S3,清洗用户行为数据,过滤其中不利于模型训练的数据;S4,分配用户行为数据中每个歌手对应每个用户的权值;通过对用户行为数据进行权值分配,进一步凸显特征;其中,用优化TF-IDF公式作为单词的权值,公式如下: 其中为文章a中单词u的权值,Na,u代表文章a中包含单词u的次数,代表文章a中包含最多的单词出现的次数,D代表总文章数,Du代表D中包含单词u的文章数,代表D中出现在最多文章中的单词出现的文章数;S5,合并用户行为数据与人工标签数据,生成训练数据;S6,基于训练数据,参考标签组合关系,进行基于优化Gibbs采样的LabeledLDA模型训练;LabeledLDA采用Gibbs采样算法进行学习,加入优化的TF-IDF权重后,其采样模型概率公式为: 其中为当前单词ui属于分类标签k的概率,为除当前单词外,文档a中标签k出现概率,为除当前单词外,单词ui对应标签k的概率,αk、βi为模型超参数,为改进的当前单词对当前文档的优化的TF-IDF权重;考虑到标签组内各标签的相关关系,进一步优化采样概率公式为: 其中为采样时认为当前单词ui属于分类标签k的概率,T为所有标签组,|T|为标签组大小,Ⅱ·为指示函数,函数中的参数为真则函数值为1,反之则函数值为0,λ为一个大于0小于1的超参数。

全文数据:

权利要求:

百度查询: 北京酷我科技有限公司 一种基于Labeled LDA模型的歌手分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。