江南大学吴小俊：大数据运用需要简单高效不要滥用

2017.09.13 13:58:50来源: 网易智能作者:网易智能

由中国人工智能学会主办，网易科技、网易智能、网易本地、江南大学等共同承办的“人工智能高峰论坛”在无锡华邑酒店正式开启。会上，江南大学博导、科研院院长吴小俊先生做了主题为《大数据时代的人工智能：人工智能的发展是否存在局限》的演讲。

吴小俊称，我们每天都面临大量的不同的数据，这个数据量的增长速度也非常快，事实上我们对大数据的理解，无论是政府还是学术界，大数据事实上在中国某程度上存在被滥用的现象。大数据非常的复杂，它所面临的挑战也会非常多。大数据给了我们挑战的同时，事实上也给了我们很多的机遇。

在吴小俊看来，大数据和人工智能，让我们面临一个非常矛盾的问题，一方面我们的数据量大、复杂，数据的关联，深度学习是非常复杂的模型，这种大的模型得到了非常令人惊喜的效果，比如说AlphaGo，还有翻译系统，这都是深入学习带给我们的新变化，但是这两者事实上是有一些矛盾的，因此学术界最近正在向这两者融合，如何找到既简单又很高效的大数据处理方法？我想，人和机器协同工作，会使得我们大数据的问题得到解决。

吴小俊称，人工智能的主要技术都可以在物联网当中得到很好的应用。有人认为，聚类对我们大数据的分析非常重要，因为我们的大数据当中大部分数据都没有标签的支持。当然这个聚类分析既是一个老话题又是一个新话题，因为面对我们的大数据聚类实际上非常复杂，我们很难解决。“如果认为现在的大数据的聚类方法跟过去是一样的，那是一个大的错误。我们会有一些新的方法和要求，比如说我们用了一些分布式的算法，我们还可以对大数据进行适当的分类。”吴小俊说到。

对于人工智能的发展，吴小俊通过对近年来的一些人工智能的期刊和会议做了一些归纳和分析，发现现在很多主流的人工智能期刊的会议都被深度学习给霸占了，所以使得做原来一些传统研究的人无所适从。深度学习需要海量的计算资源，如何得到比较简捷的资源呢？如何得到更好的模型呢？这将是未来一个很好的方向。

吴小俊称，大数据的人工智能有很多视角，今天我仅仅是给出了非常有限的视角。现在这种简单暴力的模拟事实上是离我们完整的模拟和超越还有非常多的路要走，深度学习应该说也不是人工智能发展的唯一——比如说有人最近提出了宽度学习这样的问题。

吴小俊说到，爱因斯坦曾经说过，他说任何事情都是越简单越好，直到不能更简单。我们在寻找大数据挖掘发展的时候既要找到简单，同时也要有效的方法。

据悉，吴小俊从事模式识别与人工智能方面的研究，主持国家精品课程《人工智能概论》和国家双语示范课程《人工智能》的建设工作。（易智）

以下为吴小俊教授演讲实录：

吴小俊：谢谢主持人对我的介绍，我来自江南大学。大家都知道在大数据我们有很多的机遇，比如说美国的智慧地球、联合国的全球大数据脉动以及我们中国提出来的感知中国，实际上这都会给我们的大数据提供很多的机遇。所以我今天主要谈一谈大数据当中人工智能的一些思想，以及通过大数据时代下人工智能的若干视角，对人工智能未来的走向做一些判断。

我这个PPT是临时做的，所以非常不好意思。因为我考虑到今天有部分国外的嘉宾，所以我也采用了中英结合的方式来介绍。

比如说我们每天都面临大量的不同的数据，这个数据量的增长速度也非常快，事实上我们对大数据的理解，无论是政府还是学术界，大数据事实上在中国大陆也是有一定被滥用的。大数据非常的复杂，如果说用现有的工具能够解决的话就不叫大数据了，所以事实上它的挑战是会非常多的。大数据给了我们挑战的同时，事实上也给了我们很多的机遇。世界上主流的媒体都对大数据给予了很大的关心，都进行了关注。在面向大数据时代的人工智能，主要是说我们有没有一些新的方法来处理大数据。实际上我们面对大数据、人工智能，我们面临一个非常矛盾的问题，一方面我们的数据量大、复杂、数据的关联，深度学习是非常复杂的模型，这种大的模型得到了非常令人惊喜的效果，比如说AlphaGo还有翻译系统，这都是深入学习带给我们的新变化，但是这两者事实上是有一些矛盾的，因此学术界最近正在向这两者融合，如何找到既简单又很高效的大数据处理方法。如果说你没有领域的知识，没有办法来处理大数据。包括大数据的数据资源比较丰富，但是因为太大了，所以会带来一些新的挑战，人和机器是协同工作，今后会一起工作，使得我们大数据的问题得到解决。

我下面将从物联网、大数据的聚类、深度学习还有我们大家关心的人脸识别四个维度来解读一下我们大数据人工智能的新趋势。比如说我们大家关心的物联网，比如说我们的智能家居、智慧医疗、无人驾驶，这个地方有很多的人工智能问题，我们的物联网掀起了新的技术的革命和挑战，这个当中大数据、人工智能就是新的技术。在物联网当中的人工智能技术可以说无处不在，我们人工智能的主要技术都可以在物联网当中得到很好的应用。因为这个数据量非常大，我们如何进行分析呢？可能聚类是一个很好的方法，所以有人就给出了一个很好的观点，就是说聚类对我们大数据的分析非常重要，因为我们的大数据当中大部分数据都没有标签的支持。当然这个聚类分析既是一个老话题又是一个新话题，因为面对我们的大数据聚类实际上非常复杂，我们很难解决。如果说我们面对我们几百个聚类分析的算法，如果说认为现在的大数据的聚类方法跟过去是一样的，是一个大的错误。

我们会有一些新的方法和要求，比如说我们用了一些分布式的算法，我们还可以对大数据进行适当的分类。大家知道智慧城市涉及到非常多的数据，最主要的是如何为我们的市民、民生服务，这些大数据问题怎么办？这是我们遇到的一些挑战。比如说最近我们在做一些智慧医疗方面的数据处理，因为在医疗系统当中大家可以看到到医院去医生先不给你看病，先叫你做各种各样的检查，做了各种各样的检查以后再对各类数据进行分析。大家都知道现在的深度学习，我们也在研究深度学习，深度学习实际上是对我们大脑的一个很简单的模拟，我这个地方给出了一些我的理解和观察。比如说在深度学习当中最重要的模型就是CNN，这是一个保障，这个保障目前为止全世界的人都在挖这个金矿，每个人挖到的东西是不一样的，这方面我们也在做。这是我们江南大学的图象美景，我们运用深度学习来表示，这个方面很有意思。

我对近年来的一些人工智能的期刊和会议做了一些归纳和分析，发现现在很多主流的人工智能期刊的会议都被深度学习给霸占住了，所以使得搞原来一些传统研究的人无所适从。我们总结一下深度学习的方向是什么，因为它需要海量的计算资源，如何得到比较简捷的资源呢？如何得到更好的模型呢？这将是未来一个很好的方向，我们也在里面做了一些工作。最后是讲人脸识别，在这方面我们也有遇到一些挑战，比如说姿态、光照、遮挡、表情、模糊、低分辨率的问题等等。我们面对这样的一些问题提出了一些方法，也就是说我们把深度学习、神经网络做了相关工作，同时我们把从深度学习当中获得的一些营养元素，我们对人脸的支撑做了一些研究，也得到了一些结果。有一个结果是这样的，比如说我们今年在夏威夷的一个全世界的竞赛当中我们获得了全世界第四名，我们的方法是唯一没有用深度学习的方法，这是感到振奋的。这个方面我们事实上还有一些其他的工作，我的学生和同事们在这个方面做了一些初步的工作，时间关系我就不一一介绍了。

对于大数据的人工智能，我们遇到的挑战是很多的，比如说这个图象怎么用机器来理解？比如说这个裤子有几条腿，简单来看是3条腿，但是我们人通常是几条腿呢？我们是2条腿，所以这些方面我们遇到很多的挑战。还有比如说这个上面有几个台阶，这个图当中有几个人，你让任何一个现在最好的计算机算法来做都做不好，所以这个方面我们遇到的挑战是非常多的。人工智能的发现是否会存在极限呢？

这是一些主要的观点，最后我做一个简单的总结。大数据事实上从研究来看，应该说才刚刚开始，我们面对的挑战非常多。不是说业界的声音越大这个技术就越成熟了，事实上我们遇到了很多的挑战。大数据的人工智能有很多视角，今天我仅仅是给出了非常有限的视角。现在这种简单暴力的模拟事实上是离我们完整的模拟和超越还有非常多的路要走，深度学习应该说也不是人工智能发展的唯一。比如说有人最近提出了宽度学习这样的问题。

最后用爱因斯坦的一句话，他说任何事情都是越简单越好，但是不能再简单。我们在寻找大数据挖掘发展的时候既要找到简单，同时也要有效的方法。非常感谢网易给了我这样一个机会向大家分享，谢谢大家。（完）