培养基开发过程的数据特征2021-11-22 09:02:04
过分析历史项目实验数据,得到培养基开发过程的数据特征。然后改良混合实验设计以提高数据利用率,其次根据数据特征设计全局变量重要性分析方法,并挑选预测试表现最好的 LOESS方案与PLS方案进行 ANOVA验证对比。最后确立了基于最大欧式距离的混合实验设计和基于 LOESS的全局变量重要性分析算法。主要结果如下:(1)分析历史项目实验数据发现,培养基组分与产量线性建模的残差呈非正态分布实验设计中培养基组分间普遍存在线性相关;培养基组分与产量间存在复杂的非线性关系;产量呈非正态分布。(2)基于实验室自主开发的49个培养基配方进行测试,结果表明,采用最大欧氏距离选择滉合培养基库的混合实验设计空间指标为1.80,而随机挑选方案的设计空间指标在99%的情况下均小于该指标;组分间相关性指标为0.50,随机挑选方案在40%的情况下小于该指标。而PCA算法设计空间指标为1.30,组分间相关性指标为0.60。进步将PCA主成分数目与其可解释方差作图,发现在实际应用中使用PCA选择培养基库信息损失较多,与理论上推测其次于欧氏距离方案的原因一致。
(3)将三类候选高维算法(LOESS、PLS、L/L2- Regularization)在虚拟数据上进行测试发现, LOESSi准确率最高,达到60%,其次为PLS(40%),LI/L2- Regularization( LASSO为20%, Ridge为20%, Recursive Variable Elimination为0%)。将 LOESS算法与PLS算法以细胞株A为对象进行实验验证,发现 LOESS和PLS筛出的基础重要变量差异较大,且经 ANOVA分析发现 LOESS准确率达到60%,PILS仅为20%,由此证明 LOESS/作为全局变量重要性分析算法的优势。
出自《基于高维算法辅助CHO细胞培养基开发方法的建立及应用》作者邹茂。
。
上一篇: 培养基开发中的现代数学统计方法
下一篇: 培养基作为抗体苭物生产的关键原材料