近红外分类在酱油糟水分的应用

近红外分类在酱油糟水分的应用

摘要:文章旨在利用近红外分类建模法定量分析酱油糟中水分、粗蛋白和脂肪含量。首先采集来自国内共200个酱油糟样品,并进行湿化学检测;其次通过SPSS软件对数据集进行聚类分析,并结合镜检与光谱分析,将酱油糟分为大豆型和豆粕型两类;最后,根据分类结果分别建模、扩充数据,并比较分类建模和混合建模的数据差异。结果显示:大豆型酱油糟和豆粕型酱油糟模型各预测指标的交叉检验标准误差(SECV)和扣除系统偏差的验证标准偏差(SEPC)均低于混合酱油糟模型,验证集决定系数(RSQ)值均高于混合酱油糟模型。分类建模后的两种酱油糟模型SECV均低于0.5,SEPC均低于0.5,RSQ值均高于0.9。说明酱油糟分类建模的预测效果优于混合建模,且准确度高。此研究为工艺复杂型原料及配方饲料的精准建模提供了借鉴。

关键词:近红外;酱油糟;分类建模;水分;粗蛋白;粗脂肪

近红外预测结果的重现性明显优于传统湿化学方法,已经很大程度上替代了传统湿化学方法。随着饲料行业的发展,玉米、豆粕、鱼粉等常规饲料原料资源日益紧张,迫使饲料企业不断地去开发新的替代原料,饲料原料的种类和复杂性也不断增加。这些复杂的饲料原料如果按照传统的建模技术,往往应用效果不佳,对于这些复杂体系样本的近红外模型优化研究也鲜有报道。酱油糟是制作酱油后的残渣经干燥制成。酿造酱油常用的原料主要有大豆、豆粕、麸皮、小麦等[8]。酱油糟中仍含有20%~30%的粗蛋白、7%~18%的粗脂肪[9]。由于酱油糟蛋白质营养价值相对较高,所以具有很大的再利用价值[10]。当前,受国际大环境影响,饲料原料资源日益紧张,酱油糟为生产酱油后的废弃品,价格低廉,使用酱油糟替代部分蛋白质原料可为饲料企业缩减成本。由于原料种类、生产工艺的不同,酱油糟的成分组成差异较大。过去,一般将所有酱油糟收集到同一个数据集直接建模,预测效果不理想。可能由于生产工艺的复杂性,导致酱油糟组分差异大,直接建模会影响其预测效果。而目前对近红外光谱法的研究多集中于计量方法,忽略了对数据集的前处理。本试验先将酱油糟数据集进行统计学分析,依据统计学规律调研实际规律,再针对不同类别的酱油糟进行单独建模,并比对混合建模和分类建模两种方式的预测效果,以期为工艺复杂型原料和配方饲料的精准建模提供新思路。

1材料与方法

1.1试验设计

1.2样品的采集与制备

样品为国内采集的200个酱油糟样品,主要集中在华中和华南区域。将样品粉碎至90%以上过40目样品筛,供采集近红外光谱用,并按水分、粗蛋白、粗脂肪含量测定的国家标准要求处理后进行实验室化学分析。

1.3样品实验室化学分析

酱油糟样品水分、粗蛋白、粗脂肪含量测定方法参考GB/T6435—2014、GB/T6432—2018和GB/T6433—2006,每个样品测两次平行,取“平均值”作为定量分析模型的参考值。

1.4光谱采集方法

采用DS-2500F光栅型近红外光谱仪(nearinfra⁃redspectrometer,NIRS,丹麦福斯)在实验室静态条件下采集样品光谱,光谱采集参数设置为:光谱范围850~2500nm,光谱分辨率0.5nm,每个样品扫描7个子样本,每个子样本扫描4次,取平均光谱作为样品的光谱。

1.5模型的建立与评价

光谱预处理方法:全波段(850~2500nm)进行标准正常化和去散射一阶导数(SNVandDetrend)处理,求导间隔点为4,一次平滑处理间隔点为4。近红外定量分析模型的建立使用改进偏最小二乘(modifiedPLS)算法,使用WINISI4.0定标软件(美国Infrasoft公司)进行运算,并通过内部验证剔除异常值。模型评价参数主要有预测标准偏差和决定系数。对于内部交叉验证,通过交叉检验决定系数(1-VR)和交叉检验标准误差(SECV)来评价定标模型的优越性;外部检验是验证集样品对于定标模型预测性能的评价,通过验证集决定系数(RSQ)和扣除系统偏差的验证标准偏差(SEPC)来判定定标模型的预测性能。在验证集浓度范围相同的前提下,1-VR和RSQ越接近1,回归或预测效果越好;SECV和SEPC越小,预测结果越准确[11-13]。1.6数据集前处理使用IBMSPSSStatistics23软件进行聚类分析。

2结果与分析

2.1SPSS聚类分析寻找统计学规律

使用IBMSPSSStatistics23数据处理软件,对1.3中测得的所有酱油糟化学检测数据进行分析,采用平方欧式距离、组间平均距离连接法进行系统聚类(Hi⁃erarchicalCluster),结果如图2所示,当组间距为5~25时,200个样品共分为两大类,对两类酱油糟的数据进行分析(见表1),发现第一类酱油糟粗蛋白含量为10.35%~21.53%,粗脂肪含量为20.14%~31.68%,第二类酱油糟粗蛋白含量为21.17%~40.82%,粗脂肪含量为6.82%~21.5%。两类酱油糟的粗蛋白和粗脂肪含量差异较大,可总结为第一类为高脂肪低蛋白型,第二类为低脂肪高蛋白型。

2.2调研分析寻找实际规律

2.2.1镜检分析(见图3)借助Stemi-305型体视显微镜(德国蔡司)。将两类样品进行成分组成分析,图3为样品放大10倍后图像。图3a为第一类酱油糟,所属华南地区,主要以大量豆仁为主,少量豆皮、麦皮;图3b为第二类酱油糟,所属华中地区,主要以大量麦皮、豆皮为主,少量豆仁。目前国内酱油生产工艺主要分为高盐稀态发酵和低盐固态发酵,其中高盐稀态发酵主要以大豆、面粉或小麦为原料,大多分布于华南地区,因主要原料为全粒大豆,糟渣脂肪含量较高,蛋白质含量较低;低盐固态发酵主要以豆粕、麸皮为原料,分布于华中华北地区,因主要原料为脱脂大豆,糟渣脂肪含量较低,蛋白质含量较高[14]。由此可认为酱油生产工艺的差异导致了酱油糟最终成分组成不同,结合此规律,将聚类分析中的第一类酱油糟称为大豆型酱油糟,将第二类称之为豆粕型酱油糟。2.2.2近红外光谱分析(见图4和图5)根据2.1和2.2.1中的分类结论。将200个酱油糟近红外光谱图经数学处理后如图4、图5所示,可以看出,在波长范围1680~1710nm和2330~2348、2465~2490nm处,两类不同的酱油糟光谱差异明显,说明酱油糟成分组成差异大,从而影响样品的吸收系数、散射系数,体现在其近红外光谱上的差异[15-16]。在波长范围1680~1690nm处存在芳香族和甲基中C-H伸缩振动一级倍频;2329~2336nm处存在C-H、-CH2伸缩和弯曲振动合频,这类甲基和次甲基来源于淀粉和纤维素;2336~2340nm存在纤维素的C-H伸缩和弯曲振动;2344~2348nm存在油脂C=O伸缩振动;2465~2490nm存在C-N-C伸缩振动一级倍频、C-H与-CH2伸缩振动合频,这类碳氮基和碳氢基来源于蛋白质。综上,造成两类酱油糟光谱差异的因素可能来源于蛋白质、脂肪、纤维素、淀粉的含量差异,这些差异是由生产工艺不同造成的。近红外光谱分析误差大致有一半来自于建模数据,校正集中样品的变异范围越宽,则建模过程中所遇到的非线性或异质性问题越严重,干扰因素也越多,对某些样品而言其预测能力会下降[17]。有学者指出,若不同类型的样品成分组成差异大,很难通过线性的校正算法(如偏最小二乘法)得到光谱与性质间精确的数学关系,须对同类样本单独建立校正模型[13],尝试将两类酱油糟单独建模。

2.3模型建立与验证

将数据分为大豆型和豆粕型单独建模,并与混合酱油糟模型进行比较。对于内部验证,由软件依次选取样本进行交叉检验;对于外部验证,分别从大豆型和豆粕型数据各随机选取20%作为验证集,各自剩余80%及两种模型剩余80%的合集分别作为大豆型、豆粕型和混合酱油糟模型的校正集。采用改进偏最小二乘法(modifiedPLS)建立模型,模型参数如表2所示。从内部交叉验证来看,大豆型和豆粕型模型水分、粗蛋白和粗脂肪的SECV分别与混合酱油糟模型对比,共6组数据中,有5组数据的SECV值明显降低。而1-VR值却普遍低于混合酱油糟模型,分析原因,由于在内部验证时,混合酱油糟模型验证集的浓度范围涵盖大豆型和豆粕型的浓度范围,与大豆型和豆粕型的验证集浓度范围不一致,因此比较单独模型和混合模型的1-VR没有意义。从外部验证来看,大豆型和豆粕型模型水分、粗蛋白和粗脂肪的SEPC分别与混合酱油糟模型对比,共6组数据中,有3组数据的SEPC值有所降低;对应RSQ的6组对比数据中,有5组数据的RSQ值较混合酱油糟模型明显提升。综合分析,与混合酱油糟模型相比,单独建模的大豆型酱油糟模型和豆粕型酱油糟模型有更好的预测效果。对于部分参数,例如豆粕型的粗蛋白的SEVC,水分和粗蛋白的SEPC等较混合酱油糟模型有所增加的情况。从图6和图7可以看出,可能与单独建模的酱油糟模型校正集浓度分布均匀度欠佳有关。

2.4扩充模型数据库

单独建模后的大豆型和豆粕型酱油糟校正集仅80份左右,还不足以覆盖更广泛的营养特性。为了提高模型的稳定性和适用性[18],收集了近2年内市面上的酱油糟样品检测数据,扩充模型数据库,扩充后的模型各指标评价值如表3。扩充后,模型各指标浓度分布更加均匀,RSQ均在0.9以上,说明模型的稳定性得到了提升。将扩充后的大豆型、豆粕型模型分别与混合酱油糟模型进行比较,从内部验证数据来看:大豆型和豆粕型模型水分、粗蛋白和粗脂肪的SECV分别与混合酱油糟模型对比,共6组数据的SECV值均低于混合酱油糟模型;从外部验证来看,大豆型和豆粕型模型水分、粗蛋白和粗脂肪的SEPC分别与混合酱油糟模型对比,共6组数据的SEPC值均低于混合酱油糟模型,对应6组数据的RSQ值均高于混合酱油糟模型。由此可看出,扩充酱油糟模型数据后,分类建模的优势体现得更加明显。王涛等[19]也发现将米糠分为粳米米糠、籼米米糠单独建立模型的效果优于混合模型。分类建模后的两种酱油糟模型SECV均低于0.5,SEPC均低于0.5,RSQ均高于0.9,说明模型预测效果较好,可用于实际检测。

3结论

本研究首先借助SPSS数据分析软件,将酱油糟数据集进行聚类分析;其次结合镜检分析确认分类依据;最后根据光谱差异寻找对应关系,将酱油糟分为大豆型和豆粕型两类。将两类酱油糟单独建模,并扩充数据,使用SECV、SEPC和RSQ评估模型的预测准确性。结果表明,从总体来看,大豆型和豆粕型酱油糟模型各指标的SEPC值和SECV值优于混合酱油糟模型,预测效果要优于混合酱油糟模型;特别是模型扩充后,大豆型和豆粕型酱油糟模型水分、粗蛋白、粗脂肪的SEPC值和SECV值均明显低于混合酱油槽模型,RSQ值均高于混合酱油糟模型,分类建模的优势体现得更明显。分类建模后的两种酱油糟模型SECV均低于0.5,SEPC均低于0.5,RSQ均高于0.9,模型准确度高,可用于实际检测,即先进行显微镜检测后再采用相应模型进行扫描分析。在实际生产应用中,对于某些工艺复杂型原料及配方饲料,并非数据库越大、成分含量变化幅度越大越好,若数据集中样品组成成分不统一,则可能出现预测效果不理想的情况,此时可考虑借助分析软件,结合镜检,在先验知识的指导下对模型进行细分,能取得更好的预测效果。本研究为工艺复杂型原料及配方饲料的精准建模提供了借鉴。

作者:孙涵 邱代飞 廖淑娜 吴仕辉 江春 单位:广东海大集团股份有限公司 农业农村部微生态资源养殖利用重点实验室