基于多种回归算法的白酒质量预测研究

发布时间：2022-02-16 08:41:28

浏览数：

摘要：目前国内制酒业达到了空前发达的水平，人们也越来越关注各种酒业的发展趋势。随着白酒逐渐走入了人们的生活，白酒质量的问题也逐渐引起人们的关注。本文主要是针对白酒质量的问题进行预测研究，使用了多种回归算法。具体的，本文主要使用KNN，SMOreg，BP神经网络和多元线性回归四种回归算法来进行研究，旨在探究出本实验的最优预测模型，来达到一个最好的白酒质量预测效果。

关键词：白酒质量预测;KNN;SMOreg;BP神经网络;线性回归

中图分类号：F713. 56

文献识别码：A

文章编号：2096-3157（2019）02-0082-02

一、研究背景

白酒为中国特有的一种蒸馏酒，是世界六大蒸馏酒（白兰地Brandy、威士忌Whisky、伏特加Vodka、金酒Gin、朗姆酒Rum、中国白酒Liquor and Spirits）之一，在中国广受炊迎。白酒的历史也源远流长，最早可以追溯到元朝，经历了几个时代的变革，如今已成为人们牛活中很重要的一部分。随着白酒逐渐走人了人们的牛活，白酒质量的问题也逐渐引起人们的关注。

数据挖掘是日常生活中普遍存在并被广泛应用的一个方法，由于其技术的先进性，牛活中的诸多问题都可以利用它来解决。面对一些高维数据，运用数据挖掘方法可以更高效地处理解决问题。本文中运用的KNN、SMOreg，BP神经网络和多元线性回归四种回归算法也是该领域中表现较好的一些模型，能对本文中的实验提供很好的帮助。

当前国内白酒业已经非常成熟了，但由于市场等诸多问题，白酒存在质量检测方面的漏洞，因此，在该产业不断发展的过程中，同时也带来了一系列问题需解决。因此，关于白酒质量评估的相关研究也体现了极大的意义和价值。本文使用数据挖掘的方法对白酒质量问题进行研究，具体地，本文使用KNN、SMOreg，BP神经网络和多元线性回归四种算法对白酒质量进行回归预测。本文从UCI数据仓库官网上下载了关于白酒质量预测的公开数据集，并通过比较4种回归算法模型来寻找本实验的最优回归预测模型，并得出相关实验结论。

二、相关工作

K最近邻（KNN）模型是一种基于距离度量方式的模型，是十大数据挖掘技术之一，又叫做K近邻算法。其优点和缺点并存，优点是精确率高，缺点是计算复杂，内存空间要求高，因此该算法特点鲜明。KNN的具体算法，是先获得距离较近的K个训练数据，之后依据分类决策规则预测测试数据的模型。其中K的取值是个关键，取值过小，则会导致估计误差较大，反之，则会导致近似误差较大。

SMOreg是建立在SVM基础上的一种通用学习方法。SVM可以很好地解决一些小样本、局部极小点及高维空间等实际问题，但其缺点也很明显，即是运算量大，消耗内存大，计算时间过长。往往限制了该模型的具体操作和应用。由于这些原因，在SVM原有的基础上，由John C Platt提出了新型算法，对该原有模型进行了改进和补充，即是序列最小优化方法。该方法凭借其速度快，扩展计算能力强的特点得到最广泛的应用，基于同定工作样本集，进行简化解析处理。其主要思想是将一个较大较复杂的优化问题简化为只含2个变量的问题来解决，之后又被改进为新的一类，即SMOreg算法。

线性回归则针对于现实牛活中的含有多个变量的问题，这些问题大都需要依赖多元线性回归来解决。其基本操作是建立多元线性回归方程，分析影响并作出判断，即建立两个或两个以上白变量与一个因变量之间的关系，来建立数学方程，从而求解实际问题的方法。通过白变量，因变量各自的检验，分析，从而测定最优解方程的偏离度，是一元回归模型的拓展。该方法被广泛应用到许多领域，如地质学，气象学，医学，牛物学和一系列环境问题等。

BP神经网络，又名反向傳播神经网络。该网络在层内无互联，并包含了一些隐藏层来实现各层神经元之间的全连接。其没计顾名思义，模仿了人脑的结构和功能，以其白行处理和高效，白适应强的能力和特点，在诸多方面和领域得到了极广泛的应用。更重要的，随着当前科技的发展，人工神经网络会得到更好的发展，前景将更广阔。其在止向传播和逆向传播过程中，通过输入层，输出层及它们之间的隐藏层的联系和判断，来处理信息，使实验结果更准确。这种算法通常与遗传算法结合，通过遗传算法缩小范围之后，再用BP神经网络来求解。

三、实验设置

本文研究的主题是白酒质量检测，数据集是从UCI数据仓库网上下载的公开数据集，是关于白酒质量预测的数据集。特征共有十一个，分别是非挥发性酸，挥发酸，柠檬酸，残余糖分，氯化物，游离二氧化硫，总二氧化硫，稠密度，Ph值，硫酸盐和酒精含量。本实验进行的是回归实验，每一条实验数据的标签是一个实数值，数值位于3到8之间。本数据集一共有4898条数据。本实验使用weka3.6软件进行实验，实验只是用了训练集，没有使用测试集和验证集，因此实验中使用了5交叉的方式进行实验。

四、实验结果

本文首先使用线性回归模型，实验结果的相关系数（Correlation coefficient）为0.5254，均方误差（Root meansquared error）为0.7535，训练时间为0.03秒。

本文之后使用SMOreg算法进行实验，SMOreg模型的实验结果的相关系数为0. 5223，实验误差为0.7567，训练时间为8. 37秒。对比两种模型，可以看出使用线性回归模型所做出的实验效果与SMOreg类似，但用时明显短，因此这两种模型中，线性回归表现更好。

表1是KNN模型的实验结果。为了找到最优参数，实验中使用了多组K值，分别为1，3，5，10，各参数的实验结果如表1所示。因为KNN模型没有训练过程，因此训练时间都为O。分析实验结果的相关系数可知，当K值为1时有最大值0. 6039，随着K值变大，相关系数整体呈递减趋势。分析实验误差可知，随着K值变大，实验误差整体呈递减趋势，当K为5时误差最小是0. 7202。综上所述，虽然K值为1时相关系数最大，但实验误差也相对来说较大一点，相比之下，K值为5时的实验结果最好。因此本实验中，K值为5的KNN模型属于最优模型。

本文使用BP神经网络进行实验。表2是BP神经网络隐层节点个数的探究实验。本实验将神经网络设置为一个隐层，隐层节点个数依次设置为5，10，15，20，由表可以看出，实验结果的相关系数先变大冉变小，当隐层节点个数为10时，实验结果的相关系数为最大。随着节点个数变大，实验结果的误差先变小再变大，当节点个数为10时，实验误差取得最小值。分析训练时间可以，随着节点数的增加，训练时间也在增加。因此，BP神经网络模型的最优隐层节点个数为10。

在BP神经网络的实验中，本文还探究最优的隐层个数。表3是实验结果，由之前实验可知，神经网络隐层节点个数的最优值是10，因此本实验中，所有的隐层节点个数都设置为10。本实验中。依次设置隐层的個数为1，2，3，可以发现，当隐层个数为3时，相关系数为三种情况中最大，实验误差为三种情况中最小。训练时间则是随着隐层个数的增加而逐渐增加。凶此，BP神经网络模型含有的最佳隐层个数为3。

最后，将本文的四种模型进行对比，如表4所示，相关系数最高的是KNN模型，其次是BP神经网络模型，实验误差方面最低的是KNN，约为0.72，其余模型都大于0.75。SMOreg模型和线性回归模型在相关系数方面和实验误差方面都比较相似，在训练时间方面线性回归的用时几乎为O，SMOreg的用时则较长。训练时间方面KNN没有用时，而其余几种都或多或少需要训练时间，其中BP神经网络的用时最长，接近50秒的训练时间。综上所述，KNN模型是4种模型中最突出的一个模型，相关系数最大，实验误差最小，所以本实验的最优模型是KNN模型。

五、总结

本文主要针对了白酒质量检预测问题进行研究，利用数据回归算法来预测白酒质量。本文使用了KNN，SMOreg，BP神经网络，线性回归四种回归算法模型，并且运用了5交叉的实验方式，实验结果表明，本文的最优模型是KNN模型，实验结果有最高的相关系数和最低的实验误差。

参考文献：

[1]林翠香，基于数据挖掘的葡萄酒质量识别[D].中南大学，2010.

[2]于滨，邬珊华，王明华等.K近邻短时交通流预测模型[J].交通运输工程学报，2012，12（2）：109-115.

[3]吴佳，蔡之华，高哲超，改进的KNN - SMOreg算法及在铀矿床典型蚀变矿物赤铁矿含量预测中的应用[J].应用基础与工程科学学报，2011，19（5）：842-851.

[4]冷建飞，高旭，朱嘉平，多元线性回归统计预测模型的应用[J].统计与决策，2016（7）：82-85.

[5]周晨，冯宇东，肖匡心，基于多元线性回归模型的东北地区需水量分析[J].数学的实践与认识，2014，44（1）：118 -123.

[6]高玉明，张仁津，基于遗传算法和HP神经网络的房价预测分析[J].计算机工程，2014，4O（4）：187～191.

上一篇：应用型园艺本科实践育人课程体系建设

上一篇：人工影响天气在农业生产服务中的应用探讨