买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西安交通大学
摘要:本发明公开了一种基于自动编码机的在线学习潜在退出者预测方法,包括:首先,将学习平台学习日志数据中的文本和非文本信息并进行预处理;其次,构建符合潜在退出者检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;再次,基于所构建的深层网络结构,采用BP训练策略通过交叉验证训练在线学习潜在退出者检测网络;最后,利用网络的重构误差对学习者进行异常检测,识别出潜在退出者。本发明利用在线学习者的行为判断在线学习者的学习状态发现潜在退出者,为学生提供有效帮助与指导。
主权项:1.一种基于自动编码机的在线学习潜在退出者预测方法,其特征在于,包括以下步骤:1将学习平台学习日志数据中的文本和非文本信息并进行预处理;具体实现方法为:Step1.清理编码异常数据将所有数据的编码转换为可变长的字符统一编码,然后再针对乱码数据单独从数据源重新采集或删除;Step2.删除无关数据删除学习日志数据中包含的浏览器、操作系统和网络状态,以及涉及学生个人隐私信息的一些记录;在数据库中选取仅与学生学习相关的字段,包括各课程的学习时长,课程笔记内容,学生互动信息在内的字段;Step3.处理异常学习时间的数据针对异常数据,采用相邻日志记录的时间间隔长度作为替代,相邻日志数据异常则按照学习活动类型选取时间间隔作为替代;Step4.统一数据格式由于不同类型的数据量纲数量级不同,在进行模型训练前将同种类型的数据进行标准化;使用z-score标准化方法对数值型属性进行处理,具体步骤为:对数值型数据进行标准化处理根据数值型属性的均值和方差对样本数据进行标准化,具体形式为: 其中,是z-score处理后的结果,Xi是第i个数值型属性对应的列向量,ui表示第i个数值型属性的均值,σi表示第i个数值型属性的方差;使用One-Hot对学习者的类别型属性进行编码,在异常检测算法中,数据之间距离的度量是必要的,然而类别型属性的取值是离散的,离散型取值具体代表一种标识而非数值大小,需要对类别型属性重新进行编码,编码后的属性值能进行距离的度量,详细步骤为:a.设置K位的数组,每一个状态编码只有一位是1其余都是0,通过这种设置方式将类别型数据的差异转化为欧式空间中的距离;b.将K种状态编码分别和种离散值一一对应,确定每个属性的取值都为一个K位数组,该向量表示属性取值的One-Hot编码;2构建符合潜在退出者检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;具体实现方法为:网络结构确定后,确定具体的网络参数;其中,所有的网络层都是全连接网络,第一层,第二层和第四层的激活函数采用Sigmoid形式,其形式化表示为: 第三层层网络的激活函数设置和其它层的不同,该层网络的激活函数为ReLU的激活函数,形式化表示为:fx=max0.02x,x第五层输出层采用tanh激活函数,使得输出层的数据为[0,1]之间的概率值,其形式化表示为: 3基于所构建的深层网络结构,采用BP训练策略通过交叉验证训练在线学习潜在退出者检测网络;具体实现方法为:为了使数据在经过多层神经元后保持在合理的范围,网络参数的初始化采用Xavier初始化,Xavier初始化以均匀分布的方式实施初始化,具体形式为: 其中ni是参数所在层的输入维度,ni+1是参数所在层的输出维度,θ是参数矩阵;训练自动编码网络包含两个部分的参数更新:编码网络和解码网络,编码网络包括第一层和第二层网络用fφ表示,解码网络包括第四层和第五层网络用fπ表示;训练的过程就是优化网络参数,学习编码网络参数φ和解码网络参数π,形式化表达为: 其中X表示学习完成者的特征矩阵;在实际训练中先初始化参数,然后利用BP算法更新编码网络和解码网络参数,更新方法为: 其中u是梯度下降算法的学习率;4利用网络的重构误差对学习者进行异常检测,识别出潜在退出者;具体实现方法为:由步骤3得到具备对学习者信息数据进行自编码能力的网络模型,然后对测试样本对样本进行自编码处理,计算重构误差,其形式化表示为: 其中,N表示输入层和输出层的神经元个数,xi表示学习者的第i个特征,fθ表示训练好的自动编码网络;最终把计算出来的每个学习者的重构误差作为异常指标;由上面公式得到的异常值是[0,1]之间的连续数值,该异常值越接近于1代表该学习者为潜在退出状态的概率越大,异常值越接近于0代表该学习者是正常学习状态的概率越大;在潜在退出者检测评估中,设置重构误差阈值ε,如果样本的重构误差大于ε,判定该样本为潜在退出者。
全文数据:
权利要求:
百度查询: 西安交通大学 一种基于自动编码机的在线学习潜在退出者预测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。