k-means算法在白酒品牌鉴别中的应用及改进开题报告

 2023-01-20 09:19:08

1. 研究目的与意义

白酒是我国的传统产品之一,有着具有悠久的历史。由于其独特而多样化的酿造工艺造就了其独特的风味。由于科学技术及酿造工艺的发展,市场出现各种香型、口味及品牌的白酒。近年来,市场上不断出现各种以劣充优、假冒名牌白酒的现象,不仅严重影响名牌白酒的信誉、扰乱市场的正常秩序,也严重危害了消费者的利益和健康,这些假冒名牌白酒很难用传统的方法加以辨别。此外,白酒文化的传承,已经使得一些名牌白酒成为收藏品,逐渐形成了白酒藏品市场。因此,迫切需要一种可靠、可行的白酒分类识别方法。

白酒商品,通常从其品牌、香型、年份等方面进行鉴别,这不仅是从真伪方面进行考量,而且不同品牌白酒的收藏价值也不尽相同。不同品牌的白酒具有不同的口感、味道,对其挂壁程度、挥发程度等感官上的指标进行评价是能够作为区分酒类产品的标准。但是,这种方法对于检验者的经验及水平要求过高,由于人类受到工作状态受环境、时间、工作程序、工作量、心理活动等诸多因素的影响,分析结果往往带有一定的主观性和不稳定性。

K-means聚类分析是一种可靠、可行的分类识别方法,通过以往的实验证实,这种方法也可应用于白酒品牌的鉴别。

2. 研究内容和预期目标

研究内容

(1) K-means与LDA其他研究方法在白酒品牌鉴别中应用的比较及选择的原因;

(2) K-means在白酒鉴别中应用的国内外最新研究的综述;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

白酒是中国传统的蒸馏酒,为世界七大蒸馏酒之一。白酒的主要成分是乙醇和水(占总量的98 %~99 %),而溶于其中的酸、酯、醇、醛等种类众多的微量有机化合物(占总量的(1 %~2%) [1]。近年来,应用仪器手段进行酒类品质鉴别已经得到了广泛的认同,除了采用感官品评识别外,越来越多的识别技术被研究人员应用在了白酒的分析中。

化学谱图基于分析样品相关物理性质,对其组分进行分解与剖析。杨建磊等(2009)[2]基于三维荧光光谱的白酒分类鉴别系统,探究各种单体物质对白酒荧光光谱的影响范围及其影响程度。相较于其他质谱仪,飞行时间质谱仪具有灵敏度好、分辨率高、分析速度快等优点。陈焕文等(2010)[3] 利用常压快速分析质谱技术是泛指能够在无需样品预处理的条件下直接对各种复杂基体样品进行快速分析。程言平等(2013)[4] 以浓香型洋河大曲不同等级酒为例,研究顶空固相微萃取质谱( HS-SPME-MS) 技术结合偏最小二乘-判别分析( PLS-DA) 、逐步判别分析( SLDA) 和神经网络( ANN) 等化学计量分析法鉴别白酒质量。

模式识别中,利用数学变换对质谱数据进行预处理是非常重要的,并且变换后得知谱特征将更加有效地揭示质谱与分子结构之间的关系,谱图数据的预处理过程应当包括数据的降噪、归一标准化问题,模式特征的提取与筛选问题。孟辉等(2009)[5]利用针对MALDI-TOFMS和SELDI-TOFMS开发数据预处理系统对蛋白质的质谱数据进行了有效的预处理。张玉玺(2007)[6]通过对原始质谱进行一定数学转换产生新的质谱特征,有效揭示了质谱与分子结构之间的关系。

分类模型选取与实现是模式识别的关键问题。K-means是一种高效、快速的分类方法,牛晓颖等(2012)[7] 使用等离子体发射光谱仪对样品进行了金属微量元素的测定,并根据这些微量元素含量的数据,使用化学计量学和K-means算法对大米的产地进行了鉴别取得了很好的预测效果。D. R. Cox(1957)[8]介绍了K-means算法的基本思想及解决问题的思路。随着K -means算法研究的深入,该算法的一些不足纷纷暴露出来,主要包括:需要预先确定K 值 会受到初始聚类中心影响 难以处理分类属性数据以及容易收敛于局部最优解等,在最初的算法中,Cox以平方距离和Wn为目标函数,作为聚类质量的衡量标准,并证明Wn的收敛性,但是只能保证Wn的收敛。Pollard(1982)[9]考察了多维空间的情况,并将Hartigan 的一维理论推广到多维空间,提出了K-means 算法新的聚类量评价标准,即在保证Wn收敛的同时,还需保证各类中心也收敛到最优解证明了可以用概率收敛点来定义最佳的分割点。由于目标函数Wn存在局部极小值点,K-means 算法会陷入局部最优解,为更全面地反映聚类的质量,大多数的改进都是采用类内紧密性与类间分散性的比值来作为收敛函数,著名的是Dunn 指数( DI),Dunn(2012)[10]指数是计算类内距离和类间距离的最值之比。K的取值对分类结果影响很大,张逸清等(2007)[11]在K-means 算法的目标函数中加入个新的数据项 该数据项用于衡量其他邻近聚类中与当前聚类中心的距离平方和,并引入一个权值,于调节新数据项在整个目标函数中所占的比例算法初始K 值过大时, 在聚类算法的前期训练中, 新数据项的引入就可以使得聚类中心彼此靠近,然后考察聚类中心两两之间的距离值,若小于设定阈值,则将其合并,这样得到的K值更加接近最优解。随着研究的深入,遗传算法在K 值选择的研究中也得到了学者的重视。Bandyopadhyay(2009)[12] 等提出了基于遗传算法的,染色体采用字符串方式编码的GCUK 算法。Liu(2011)[13]等在此基础上提出了AGCUK 算法,在染色体编码时为每一个染色体选用 K#215;m个基因( K为随机选取的聚类数目,m 为数据点的维度),前m个基因表示第一个初始聚类中心的坐标,接着 m 个基因表示第二个初始聚类中心的坐标,以此类推完成编码,通过染色体的逐代交叉动态改变K 值。初始聚类中心是随机选取的,因此可能造成在同一类别的样本被强行当作两个类的初始聚类中心,使聚类结果最终只能收敛于局部最优解。SANDER J(2009)[14]借助k-dist 的差值(Difference of K-dist,DK) 图分析k-dist(一个点到它的第k个最近的点的距离)曲线变化,从k-dist 图中主要密度水平的曲线上确定初始聚类中心。王汉芝等(2010)[15]对k-d图法做了进一步改进,利用超立方体技术,首先将数据中心划分为几个区间,并计算每个区间的超立方体编码,再利用超立方体编码计算K-means算法的初始聚类中心。孤立点的解决是一个难题,Kau Fan L等(2009)[16]提出K-means算法计对样本的输入序敏感, 有可能产生局部最优解, 而且容易受到孤立的影响。本文利用密度法解决了聚类中心是随机选取的问题,遗传算法解决了K的取值问题;虽然较传统方法有了较大改进,但是还是发现一些问题:K-means 聚类思想主要应用#8220;距离#8221;进行量,因此这种方法只适用于#8220;圆形#8221;聚类区域的处理;#8220;孤立点#8221;的存在可能会对聚类效果产生影响。这里的孤立点以视作数据较少的#8220;簇#8221;,我们可以将其视为一个#8220;簇#8221;。孤立点产生因素很多,比如原始数据的采集条件可能存在突变性。

4. 计划与进度安排

(1)研究计划:

(1) 资料收集

在论文工作开始之前完成资料的收集,资料包括相关领域的研究现状及研究方法,通过文献阅读加深对课题的理解。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 参考文献

[1]徐成勇, 郭波, 周莲等. 白酒香味成分研究进展[J]. 酿酒科技, 2002, (3):38-40.

[2]杨建磊. 基于三维荧光光谱的白酒分类鉴别系统研究[D]. 江南大学, 2009.

[3]陈焕文,胡兵. 复杂样品质谱分析技术的原理与应用[J].分析化学,2010. (8):1069-1088.

[4]程言平,范文来,徐岩. 基于质谱与化学计量学的浓香型白酒等级鉴别[J].食品与发酵工业,2013.

[5]孟辉,洪文学等. 蛋白质组学质谱数据预处理技术综述[J]. 中国生物医学工程学报, 2009.

[6]张玉玺. 特征挑选方法在有机谱图解析中的应用[D]. 四川大学, 2007.

[7]牛晓颖,夏立娅,张晓瑜. K均值和分层聚类法在大米产地鉴别中的应用[J]. 农机化学研究, 2012 (6): 25-29.

[8]D. R. Cox, 'Note on grouping,' J. Amer. Statist. Assoc., Vol. 52 (1957), pp. 543-547.

[9]Pollard D.A Central Limit Theorem for K-means Clustering[J]The Annuals of Probability,1982,10( 4) : 919-926.

[10]Dunn J CA Fuzzy Relative of the Isodata Process and Its Use in Detecting Compact Well Separated Clusters.[J]Cybernetics and Systems,2012,3( 3) : 32-57.

[11]张逸清,刘文才.聚类数的确定[J].计算机与数字工程,2007,35( 2) :42-44.

[12]Bandyopadhyay S,Maulik U.Genetic Clustering for Automatic Evolution of Clusters and Application to Image Classification[J].Pattern Recognition,2009,35( 6) : 1197-1208.

[13] Liu Y,Ye M,Peng J,et al.Finding the Optimal Number of Clusters Using Genetic Algorithms[C].In: Proceedings of IEEE International Conference on Cybernetic Intelligent Systems.2011: 1325-1330.

[14]ESTER M, KRIEGEL H- P, SANDER J, et al. A density- based algorithm for discovering clusters in large spatial databases with noise [C] / / KDD- 96: Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining.Menlo Park: AAAI Press, 2009: 226-231.

[15]王汉芝,刘振全.一种新的确定均值算法初始聚类中心的方法[J].天津科技大学学报,2010,20( 4) : 76-79.

[16]Kau Fan L, Rousseeuw Pj. Finding Groups in Data: an Introduction to Cluster Analysis [M]. New York: John Wiley Sons, 2009.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。