中國(guó)報(bào)告大廳網(wǎng)訊,食用油作為人們?nèi)粘o嬍持胁豢苫蛉钡慕M成部分,其品質(zhì)與安全直接關(guān)系到消費(fèi)者的健康。其中,山茶油作為我國(guó)特有的傳統(tǒng)食用油,因富含不飽和脂肪酸、維生素 E 和植物甾醇,在保護(hù)心血管健康、抗氧化和護(hù)膚等方面具有顯著作用,有著 “東方橄欖油” 的美譽(yù)。隨著消費(fèi)者對(duì)健康飲食重視程度的提升,山茶油的需求量不斷增加,部分不良商家為降低成本、獲取非法利潤(rùn),將其他低廉植物油摻入山茶油中以次充好,這類(lèi)摻偽食用油的質(zhì)量和安全性無(wú)法保證,嚴(yán)重危害消費(fèi)者利益與健康。當(dāng)前,食用油摻偽檢測(cè)技術(shù)中,氣相色譜法、液相色譜法、氣相色譜 - 質(zhì)譜聯(lián)用法、液相色譜 - 質(zhì)譜聯(lián)用法等雖檢測(cè)精度和可靠性出色,但存在設(shè)備成本高、操作復(fù)雜、設(shè)備要求高的問(wèn)題,難以廣泛應(yīng)用。光譜分析法憑借快速、無(wú)損、靈敏度高的優(yōu)勢(shì),在食用油行業(yè)摻偽檢測(cè)中潛力巨大,而高光譜成像技術(shù)作為光譜分析法的前沿技術(shù),具有高分辨率、非侵入性、高效快速的特點(diǎn),已在農(nóng)業(yè)、醫(yī)學(xué)、環(huán)境監(jiān)測(cè)、食品檢測(cè)等多個(gè)領(lǐng)域應(yīng)用,將其用于摻偽食用油鑒別,可為食用油安全檢測(cè)提供新路徑。以下是2025年食用油行業(yè)技術(shù)分析。
為開(kāi)展基于高光譜成像技術(shù)的摻偽食用油快速鑒別研究,從市場(chǎng)購(gòu)入常見(jiàn)的山茶油、玉米油和大豆油,具體信息如下:山茶油品牌為納福匯,名稱(chēng)為納福匯有機(jī)山茶油;玉米油品牌為長(zhǎng)壽花,名稱(chēng)為長(zhǎng)壽花壓榨一級(jí)玉米油;大豆油品牌為金龍魚(yú),名稱(chēng)為金龍魚(yú)精煉一級(jí)大豆油。
研究制備了 4 類(lèi)食用油樣品,涵蓋純山茶油到不同摻偽比例的樣品。以 100% 山茶油作為純濃度樣品,按不同比例將玉米油、大豆油與山茶油混合,得到 3 類(lèi)多元摻偽樣品。其中,摻偽比例 20% 的為低度摻偽樣品,摻偽梯度 5%,共 5 種;摻偽比例 40% 的為中度摻偽樣品,摻偽梯度 10%,共 5 種;摻偽比例 60% 的為高度摻偽樣品,摻偽梯度 15%,共 5 種。
樣品充分振蕩混合均勻后,在實(shí)驗(yàn)室靜置 6 小時(shí),使用移液槍將樣品分別滴在均勻、平整的牛皮紙上,標(biāo)記樣品編號(hào),置于通風(fēng)處自然干燥,避免陽(yáng)光直射和灰塵。
《2025-2030年全球及中國(guó)食用油行業(yè)市場(chǎng)現(xiàn)狀調(diào)研及發(fā)展前景分析報(bào)告》指出,摻偽食用油樣品每個(gè)編號(hào)采集 24 次,純山茶油采集 120 次,共得到 480 組數(shù)據(jù)。采用軟件 ENVI 5.1 確定感興趣區(qū)域(Region Of Interest, ROI),選取區(qū)域大小為 20×20 pixel,計(jì)算每個(gè) ROI 區(qū)域平均反射強(qiáng)度作為樣本的原始光譜值,得到隨波長(zhǎng)變化的光譜曲線。
高光譜數(shù)據(jù)采集過(guò)程中,背景干擾、雜散光、基線漂移、噪聲等因素會(huì)對(duì)數(shù)據(jù)產(chǎn)生影響,通過(guò)光譜預(yù)處理可有效減少或消除這些干擾。現(xiàn)有光譜預(yù)處理方法根據(jù)效果可分為平滑處理、散射校正和基線校正,平滑處理能減小噪聲、提高信噪比,散射校正可減少或消除由樣品表面不均勻性或粒徑分布引起的散射效應(yīng)、改善數(shù)據(jù)真實(shí)性,基線校正能消除基線漂移和背景干擾。
本研究選擇 Savitzky - Golay 卷積平滑(SG)、標(biāo)準(zhǔn)正態(tài)變換(SNV)、連續(xù)小波變換(CWT)三種方法對(duì)食用油高光譜數(shù)據(jù)進(jìn)行預(yù)處理。其中,SG 通過(guò)對(duì)光譜中移動(dòng)窗口內(nèi)的數(shù)據(jù)進(jìn)行多項(xiàng)式分解并用最小二乘進(jìn)行數(shù)據(jù)擬合,保留數(shù)據(jù)的細(xì)節(jié)和峰值信息;SNV 對(duì)每個(gè)光譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使每個(gè)光譜具有相同的均值和標(biāo)準(zhǔn)差,通過(guò)消除散射差異改善數(shù)據(jù)的一致性;CWT 通過(guò)將信號(hào)與一組小波函數(shù)進(jìn)行卷積實(shí)現(xiàn),這些小波函數(shù)由縮放和平移一個(gè)母小波函數(shù)得到,有助于分離信號(hào)和噪聲,提取不同頻率信息。
競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS):是從高維數(shù)據(jù)中高效篩選最重要特征的算法,原理是模擬生物進(jìn)化中的競(jìng)爭(zhēng)機(jī)制,利用偏最小二乘回歸(PLS)模型評(píng)估特征子集的適應(yīng)度,自適應(yīng)調(diào)整每個(gè)特征的權(quán)重,通過(guò)多輪迭代優(yōu)化和重加權(quán)抽樣,逐步淘汰不重要的特征,最終提取對(duì)模型預(yù)測(cè)最有貢獻(xiàn)的特征子集。交叉驗(yàn)證均方根誤差(Root Mean Square Error of Cross - Validation, RMSECV)是其重要指標(biāo),衡量模型預(yù)測(cè)值與實(shí)際值之間的差異,通過(guò)交叉驗(yàn)證計(jì)算,能有效評(píng)估模型的泛化能力和穩(wěn)定性。
連續(xù)投影法(SPA):通過(guò)逐步選擇與已選特征投影距離最大的特征,減少特征之間的多重共線性。先從所有特征中選擇一個(gè)作為起始點(diǎn),每一步迭代計(jì)算剩余特征在已選擇特征集合中的投影,選擇與已選特征集合正交距離最大的特征加入特征子集,重復(fù)該過(guò)程直至選出預(yù)設(shè)數(shù)量的特征,確保選出的特征相互獨(dú)立、信息冗余最小。均方根誤差(Root Mean Square Error of Calibration, RMSEC)為其指標(biāo),RMSEC 越小,模型擬合效果越好。
無(wú)信息變量消除法(UVE):通過(guò)多次偏最小二乘回歸建模評(píng)估每個(gè)變量的重要性和穩(wěn)定性,計(jì)算每個(gè)變量在多次建模中的回歸系數(shù),得到其均值和標(biāo)準(zhǔn)偏差,根據(jù)變量的重要性和穩(wěn)定性,去除對(duì)模型預(yù)測(cè)貢獻(xiàn)較小的變量,保留最具代表性的特征。
隨機(jī)森林(RF):是一種集成學(xué)習(xí)方法,通過(guò)構(gòu)建多個(gè)決策樹(shù)并綜合它們的預(yù)測(cè)結(jié)果,提高分類(lèi)的準(zhǔn)確性和魯棒性。從訓(xùn)練數(shù)據(jù)中隨機(jī)抽取多個(gè)子樣本,在每個(gè)子樣本上訓(xùn)練一棵決策樹(shù),每個(gè)節(jié)點(diǎn)隨機(jī)選擇部分特征進(jìn)行分裂。預(yù)測(cè)時(shí),每棵決策樹(shù)輸出一個(gè)預(yù)測(cè)類(lèi)別,最終預(yù)測(cè)類(lèi)別為被最多決策樹(shù)選擇的類(lèi)別,即采用多數(shù)投票。
極度梯度提升樹(shù)(XGBoost):基于梯度提升框架的機(jī)器學(xué)習(xí)算法,訓(xùn)練過(guò)程中逐步構(gòu)建多個(gè)決策樹(shù),每個(gè)新樹(shù)通過(guò)優(yōu)化前一輪模型的殘差提高整體預(yù)測(cè)精度。每次迭代使用二階泰勒展開(kāi)近似優(yōu)化損失函數(shù),并引入正則化項(xiàng)控制模型復(fù)雜度,防止過(guò)擬合。
邏輯回歸(LR):通過(guò)線性回歸模型估計(jì)二分類(lèi)問(wèn)題中樣本屬于某一類(lèi)別的概率,將線性組合的結(jié)果映射到 0 到 1 之間的概率值。處理多分類(lèi)問(wèn)題時(shí)通常使用 Softmax 函數(shù),對(duì)多個(gè)類(lèi)別進(jìn)行歸一化處理,將每個(gè)類(lèi)別的得分轉(zhuǎn)換為概率值,確保所有類(lèi)別的概率和為 1,實(shí)現(xiàn)多分類(lèi)。
對(duì)原始光譜數(shù)據(jù)分別進(jìn)行 CWT、SG、SNV 預(yù)處理,得到預(yù)處理前后的光譜平均反射強(qiáng)度曲線,不同處理方式下的光譜曲線存在差異,預(yù)處理方法對(duì)光譜數(shù)據(jù)的優(yōu)化效果各不相同。
對(duì)3種預(yù)處理后的全波段光譜數(shù)據(jù)分別建立 RF、XGBoost 和 LR 分類(lèi)模型,將原始光譜數(shù)據(jù)和經(jīng)過(guò)預(yù)處理后的光譜數(shù)據(jù)進(jìn)行比較。
不同預(yù)處理方法對(duì)食用油分類(lèi)模型性能的影響存在顯著差異。SNV 預(yù)處理效果最佳,在 RF 模型中準(zhǔn)確率和精確率分別達(dá)到 83.33% 和 84.01%,在 LR 模型中也達(dá)到 83.33% 和 83.79%,展現(xiàn)出在消除食用油樣本間差異和提取有效特征方面的優(yōu)勢(shì)。CWT 在 XGBoost 模型中表現(xiàn)較為出色,準(zhǔn)確率和精確率分別為 80.21% 和 81.33%。相比之下,RAW 數(shù)據(jù)(未經(jīng)預(yù)處理的原始數(shù)據(jù))整體表現(xiàn)優(yōu)于 SG,可能是因?yàn)?SG 的平滑處理未能有效保留食用油光譜中的重要特征,甚至可能引入信息損失。RAW 作為未經(jīng)處理的原始數(shù)據(jù),保留了數(shù)據(jù)的完整性,適合用于初步分析,以評(píng)估其他預(yù)處理方法的效果,而 SNV 能夠顯著提高食用油分類(lèi)性能,是本研究中的最佳預(yù)處理選擇。
由全波段的分類(lèi)識(shí)別結(jié)果可知 SNV 能得到良好的預(yù)處理效果,因此采用 SPA、CARS 和 UVE 分別對(duì) SNV 預(yù)處理后的食用油光譜數(shù)據(jù)進(jìn)行特征波段篩選。
CARS 算法的蒙特卡洛迭代次數(shù)設(shè)置為 50,最大主成分?jǐn)?shù)設(shè)置為 8,使用 10 折交叉驗(yàn)證法對(duì)訓(xùn)練集進(jìn)行特征篩選,在固定的訓(xùn)練集上訓(xùn)練模型,測(cè)試集用于性能評(píng)估,以 RMSECV 最小值對(duì)應(yīng)的變量個(gè)數(shù)作為特征波段數(shù)量。特征波段變量數(shù)目隨著采樣次數(shù)逐步增加而減少,在第 14 次迭代時(shí),RMSECV 達(dá)到最低點(diǎn) 0.42,經(jīng)過(guò) CARS 篩選的特征波段數(shù)量為 91,占原始數(shù)據(jù)的 25.21%。
SPA 算法的初始變量為隨機(jī)選擇,最大變量數(shù)設(shè)為 200。隨著變量數(shù)目增加,RMSEC 先下降后減緩下降,當(dāng)變量個(gè)數(shù)為 197 時(shí),RMSEC 為 0.52,此時(shí)該數(shù)量波段為最佳特征。
UVE 算法迭代次數(shù)為 200,采用 10 折交叉驗(yàn)證法,得到的特征波段共計(jì) 38 個(gè),占原始數(shù)據(jù)的 10.53%。特征穩(wěn)定性隨著索引的變化呈現(xiàn)一定的波動(dòng)趨勢(shì),UVE 剔除波動(dòng)較大的特征波段,保留穩(wěn)定性較高的關(guān)鍵波段。
從特征波段選擇方法來(lái)看,CARS 顯著優(yōu)于 SPA 和 UVE,在所有食用油分類(lèi)模型中均表現(xiàn)最優(yōu),表明其能有效提取食用油光譜中的關(guān)鍵特征;UVE 次之,準(zhǔn)確率和精確率等都能達(dá)到 90% 以上;SPA 也能提升分類(lèi)表現(xiàn),但整體效果較前兩者稍有遜色。
三種分類(lèi)模型中,RF 表現(xiàn)最佳,尤其是在 CARS 特征篩選后,其準(zhǔn)確率、精確率、召回率和 F1 分?jǐn)?shù)均達(dá)到最高,展現(xiàn)出極強(qiáng)的魯棒性和對(duì)食用油光譜特征的捕捉能力;XGBoost 次之,但在 CARS 和 UVE 方法下表現(xiàn)略有下降,表明其對(duì)食用油特征波段選擇的依賴(lài)性較高;LR 在所有波段篩選方法下的表現(xiàn)相對(duì)較弱,尤其在經(jīng)過(guò) SPA 和 UVE 預(yù)處理的數(shù)據(jù)集中,可能是因?yàn)楦呔S的食用油光譜數(shù)據(jù)復(fù)雜性超出了其線性建模能力的限制。
綜上,SNV - CARS - RF 方法在食用油光譜分類(lèi)任務(wù)中具有最佳性能,適用于復(fù)雜食用油光譜數(shù)據(jù)的高精度分析。
混淆矩陣是可視化分類(lèi)結(jié)果的有效方法,能直觀展示分類(lèi)模型在不同類(lèi)別食用油上的表現(xiàn)。Label 1、Label 2、Label 3、Label 4 分別對(duì)應(yīng)純山茶油、低度摻偽食用油、中度摻偽食用油、高度摻偽食用油。
在原始數(shù)據(jù) RAW 下,分類(lèi)模型的整體表現(xiàn)較為一般,受到不同類(lèi)別食用油間特征重疊的顯著影響。整體來(lái)看,三種模型對(duì)純山茶油和高度摻偽食用油兩類(lèi)表現(xiàn)較為良好,但個(gè)別純山茶油樣本被誤分類(lèi),而對(duì)低度摻偽食用油和中度摻偽食用油的分類(lèi)效果并不理想,存在將兩種類(lèi)型誤分類(lèi)的現(xiàn)象,特別是將較多的低度摻偽食用油識(shí)別為中度摻偽食用油。特征冗余和噪聲可能限制了模型的分類(lèi)能力,由此可見(jiàn),預(yù)處理和特征篩選對(duì)提升食用油分類(lèi)模型性能至關(guān)重要。
經(jīng)過(guò) SNV 預(yù)處理的數(shù)據(jù),通過(guò) CARS 波段篩選后,在三種分類(lèi)模型里有效減少了不同類(lèi)別食用油間的混淆,分類(lèi)模型的整體性能相較于 RAW 顯著提高,特別是針對(duì)低度摻偽食用油和中度摻偽食用油的誤分類(lèi)現(xiàn)象明顯改善。其中,SNV - CARS - RF 能夠?qū)崿F(xiàn) 97.92% 的準(zhǔn)確率、98.08% 的精確率、97.92% 的召回率、0.98 的 F1 指標(biāo),較 RAW - RF 分別提高 18.75%、19.22%、18.75%、0.19,是最佳的食用油分類(lèi)模型。
本研究圍繞摻偽食用油行業(yè)快速鑒別展開(kāi),通過(guò)高光譜成像技術(shù)獲取不同濃度食用油的高光譜數(shù)據(jù),經(jīng)光譜預(yù)處理、特征波段篩選、建模分析等步驟,得出以下結(jié)論:
第一,對(duì)比不同預(yù)處理方法在全波段的識(shí)別效果,建立了 RAW、CWT、SG、SNV 的全波段模型。其中,SNV 能有效消除食用油樣本的散射效應(yīng)和粒度變化帶來(lái)的影響,增強(qiáng)信號(hào)一致性和對(duì)比度;CWT 對(duì)改善食用油分類(lèi)效果較為有限;SG 未能有效保留食用油光譜中的重要特征,因此選擇 SNV 作為預(yù)處理方法。
第二,采用 CARS、SPA、UVE 對(duì) SNV 處理后的食用油光譜數(shù)據(jù)進(jìn)行特征波段提取,發(fā)現(xiàn) CARS 優(yōu)于 SPA、UVE,尤其與 RF 結(jié)合時(shí),展現(xiàn)出在高維食用油光譜數(shù)據(jù)處理中的優(yōu)越性。在分類(lèi)模型方面,XGBoost 對(duì)食用油特征篩選的依賴(lài)性高于 RF,而 LR 受限于線性建模能力,在復(fù)雜的食用油光譜數(shù)據(jù)中表現(xiàn)相對(duì) RF 較弱,綜上,最佳分類(lèi)模型為 SNV - CARS - RF。
第三,SNV - CARS - RF 模型最適用于鑒別摻偽山茶油,這一結(jié)果證明高光譜成像技術(shù)對(duì)食用油摻偽的快速無(wú)損鑒別具有可行性和參考價(jià)值,同時(shí)也為相關(guān)部門(mén)打擊摻偽食用油行為提供了新的思路和方法,為保障公眾健康和打擊經(jīng)濟(jì)犯罪提供了重要支持,對(duì)推動(dòng)2025年食用油行業(yè)技術(shù)發(fā)展、提升食用油安全檢測(cè)水平具有重要意義。
更多食用油行業(yè)研究分析,詳見(jiàn)中國(guó)報(bào)告大廳《食用油行業(yè)報(bào)告匯總》。這里匯聚海量專(zhuān)業(yè)資料,深度剖析各行業(yè)發(fā)展態(tài)勢(shì)與趨勢(shì),為您的決策提供堅(jiān)實(shí)依據(jù)。
更多詳細(xì)的行業(yè)數(shù)據(jù)盡在【數(shù)據(jù)庫(kù)】,涵蓋了宏觀數(shù)據(jù)、產(chǎn)量數(shù)據(jù)、進(jìn)出口數(shù)據(jù)、價(jià)格數(shù)據(jù)及上市公司財(cái)務(wù)數(shù)據(jù)等各類(lèi)型數(shù)據(jù)內(nèi)容。
本文來(lái)源:報(bào)告大廳
本文地址:http://www.74cssc.cn/k/shiyongyou/72196.html