买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:复旦大学附属肿瘤医院;北京谷海天目生物医学科技有限公司
摘要:本发明涉及一种鳞状细胞癌组织起源位点蛋白标志物预测模型的构建方法,包括如下步骤:1、收集肿瘤样本的临床诊断数据和蛋白质表达谱数据,构建常见鳞状细胞癌蛋白质表达谱数据库;2、蛋白表达谱预处理和实验过滤;3、鳞状细胞癌组织起源模型分类器特征蛋白的选择;4、建立鳞状细胞癌组织起源位点蛋白标志物预测模型,利用鳞状细胞癌组织起源位点蛋白标志物预测模型判断常见鳞状细胞癌的原发位点。与现有技术相比,本发明通过分子流行病学研究手段,结合生物信息学分析及机器学习,整合微观与宏观鳞状细胞癌组织起源判读因素,建立常见鳞状细胞癌组织起源预测模型,为最终构建针对性的鳞状细胞癌诊断治疗策略打下基础。
主权项:1.一种鳞状细胞癌组织起源位点蛋白标志物预测模型的构建方法,其特征在于,包括如下步骤:S1、收集肿瘤样本的临床诊断数据和蛋白质表达谱数据,构建常见鳞状细胞癌蛋白质表达谱数据库;S2、蛋白表达谱预处理和实验过滤:获得常见鳞状细胞癌组织生物样本的蛋白质表达谱数据,然后进行如下处理:2.1高置信蛋白筛选:高置信蛋白筛选时,选择符合满足如下任一要求的蛋白:条件1:US≥1并且S≥2条件2:S≥3条件3:Ionscore≥40其中,U表示Uniquepeptide,S表示Strictpeptide,US表示Uniquestrictpeptide;Uniquepeptide是指这条肽段不与其他蛋白共享,是这个蛋白的唯一肽段;Strictpeptide是MascotIonscore--离子打分大于20,即二级谱鉴定时的严格程度;Uniquestrictpeptide是指同时满足肽段是蛋白的唯一肽段且Mascot离子打分大于20的肽段;2.2基于总和的定量数据标准化2.3实验过滤剔除蛋白鉴定总数低于第一阈值的样本,选择第一阈值为1500;S3、鳞状细胞癌组织起源模型分类器特征蛋白的选择,选择同时满足如下要求的蛋白作为特征蛋白:1至少在一种起源位点的50%以上的肿瘤样本中被鉴定;2在一种起源位点肿瘤样本中的平均丰度与其他几种起源位点组的平均丰度的比值超过第二阈值,第二阈值为2;3分组表达值的F检验的Benjamini-Hochberg法校正的p值应小于第三阈值,第三阈值为0.01,检验方法使用R语言limma包进行;S4、建立鳞状细胞癌组织起源位点蛋白标志物预测模型通过蛋白质谱检测分析、标志物组合及数据挖掘算法的联合应用来建立鳞状细胞癌组织起源位点蛋白标志物预测模型,利用鳞状细胞癌组织起源位点蛋白标志物预测模型判断常见鳞状细胞癌的原发位点:4.1特征消除:根据最小绝对值收敛和选择算法进行特征选择和正则化,使用交叉验证来选择惩罚参数lambda,选择平均误差最小的lambda对应的特征集作为模型分类预测的特征分子,筛选出40个与肿瘤组织起源密切相关的基因;4.2交叉验证选取最佳超参数将全部训练集S分成k个不相交的子集折,依次选取任一折作为测试集用以判断支持向量机模型性能,以剩余k-1折样本作为训练集训练模型,同时每个模型依次遍历超参数nu取值,每个超参数下对应k个模型,根据如上步骤对某超参数下的k个模型的测试准确性的均值作为模型性能,选取使得模型性能最佳对应的超参数nu;4.3构建支持向量机分类器以所得特征分子、超参数、nu-classification分类机和线性核来构建支持向量机分类器,其中nu-classification分类机使用参数nu来控制支持向量的数目,该方法由R语言工具包e1071提供。
全文数据:
权利要求:
百度查询: 复旦大学附属肿瘤医院 北京谷海天目生物医学科技有限公司 鳞状细胞癌组织起源位点蛋白标志物预测模型的构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。