苏宁人工智能平台详细介绍你想知道的都在这里了

2017.09.15 10:59:00来源: 雷锋网作者:雷锋网

在 AI+互联网论坛上，苏宁人工智能实验室技术总监李伟作为嘉宾以《人工智能在苏宁的应用》作了演讲，就智能视频内容理解、全场景个性化、苏宁智能机器人平台三大部分做了详细介绍。此外，李伟在接受媒体采访时，就苏宁无人零售店等方面的情况进行了解答。

关于苏宁人工智能平台的真面目，你想知道的都在这里了

以下为李伟演讲内容实录，雷锋网做了不改变原意的编辑：

智能视觉内容理解

这部分内容在苏宁应用的比较广泛，也算比较成熟。重点介绍两块，第一块是敏感和夸张的表达识别。《中华人民共和国广告法》发布以后，我们禁止一些夸张的词语或者一些敏感词语在广告，包括文本内容和图片内容中出现。所以，我们要尽可能把我们自营的一些商家或者联营商家中上传的图片和文本表达比较夸大的部分，比如世界第一、很好等等这样的字眼去掉。

这部分内容主要涉及到电商图片处理，一个是自动反面分析，另一个是单字符识别，另外一部分是视频监控，主要是用在线下门店的。因为我们都知道苏宁易购有很多线下门店，包括易购、苏宁小店、苏宁超市等等，所以我们在很多情况下是需要做一些店面流量监控以及热力图，可以发现用户进店以后会对哪些区域比较感兴趣，是不是有些用户经常到门店里面去，这样一边做客流量分析，一边在店面选址和线下个性化方面做一些辅助。这部分主要涉及到的是单摄像头和多摄像头目标检测和跟踪，以及在实体店中的一些流量分析。

首先看一下敏感和夸大表达识别，主要是两个例子。这是我们刚才介绍的，在图片中如果有这样一些字，我们会做检测，最后做一个基本的校正。

关于苏宁人工智能平台的真面目，你想知道的都在这里了

这是一些识别样例，我们会自动做一些反面分析，然后做字符区域检测，最后做文字识别。这是我们检测出来相对来说敏感或者夸大的表达，比如说电池广告有最持久、业绩第一等等，这样的表达是新《广告法》禁止的，我们有可能把类似这样的图片做一个识别和去除。

第二部分，视频监控是我们部署在门店里的一个摄像头，主要是在入口区域。这部分是我们希望去监测客流量的，实际上这个摄像头目前我们部署的并不是特别多，主要是做人脸识别，目前只是针对个人做一些去重。

然后是我们部署在店中的摄像头，通过热力图分布可以看到用户对于 3C 数码产品，看展品的用户分布非常多，在其他桌面上是非 3C 数码的线下产品，那些区域用户分布并不是特别多。这样我们给店面的展品布局一些指导意见，如果发现有一些展品持续一周、两周，甚至一个月时间没有什么人观看，我们会及时做展品的上下架。

全场景的个性化

苏宁易购有线上电商和线下门店，线上电商基本有 PC 和手机端 APP，我们会在很多页面上，像首页以及商品详情页和购物车都会做一些个性化，基本方法是采用业界比较主流的用户画像，包括用户基本描述，以及对类别品牌偏好等等。另外一部分是商品画像，主要是商品自身的一些描述，用当前比较主流的模型做个性化推荐。

首先看一下会话系统，这是一个基于搜索的问答系统以及基于回顾模型智能客服，然后是简单的 Demo。70 年代主要是用图书馆搜索的方法，延续到 90 年代以及 2000 年初的时候，Library Search 已经兴起，2015 年随着搜索技术发展，基于社区的问答、基于知识图谱和知识库的问答不断的兴起，这个时候会话系统已经逐渐的成熟，但实际上会话系统也不是 2015 年出现的，而是存在了很长的时间，只是之前没有引起足够的重视，2015 年出现了很多聊天机器人、客服机器人，学术界和工业界特别重视这个领域的研究。

接下来是 Question Answering Overview 的解说，自动问答是有一个自动算法的，能够自动回答用户提出的问题。目前来说，自动问答有一个基本分类，按照问题类型可以分为是否类问题、观点类问题、事实类问题和比较类问题。按照内容类型来分可以分成文本回答和可视化回答。

文本回答就是用户的问题以及答案，其实都是文本的，但是可视化问答就是你的提问可以用图片来表达，机器人回复的时候也可以给你一个图片，这是多模态问答系统。总的来说，自动问答是整个会话系统后面的一个核心的技术。

关于苏宁人工智能平台的真面目，你想知道的都在这里了

这个是基于信息检索系统 Q&A 的基本架构。刚才我们介绍，Q&A 的实验可以分三大类，一类是基于信息检索的，还有一类是基于社区的问题，像百度知道，还有知乎等等。另外一类是基于知识库或者知识图谱的问答，这个相对来说比较火。

首先我们会做一个问题的提问，根据问题预定一个答案，做一个基本的分类。第一步是去检索一些相关文档，从文档中检索一些相关段落，最后再从段落中提取出我们想要的答案，再反馈给用户。

举个例子，比如我想买一部苹果手机，这个时候的答案可能是一些商品推荐或者说商品建议。如果事先不做问答设置的话，有可能反馈回来的是富士苹果，我们知道苹果手机是 3C 产品，跟我们吃的苹果是不一样的。

接下来介绍一下会话系统类型，可以分成两类，一类是 Chatbot，闲聊陪伴机器人；另一类是助理型任务型机器人，它可以帮你完成某一项具体的任务。闲聊陪伴机器人像微软小冰和百度的小度机器人。任务型机器人像微软小娜，苹果 Siri 等等。一些大公司和创业公司都有很多闲聊型机器人和助理型机器人推出，效果也都很不错。

关于苏宁人工智能平台的真面目，你想知道的都在这里了

接下来看一个助理型机器人基本架构以及它的工作流程。用户说一段话之后，首先我们要进行语音识别，比如用户的话是让机器人播放一首本周比较流行的爵士音乐，用户说完这段话之后，我们要做一个语音识别，识别成文本，接下来我们就要做自然语言理解，试图理解用户所说的具体的语义。

我们用的比较多的模型是框架语义模型，要做相应信息抽取，把用户想要听的歌手，想要听哪个类型的歌曲，以及具体时间抽出来，把它填充到具体预定义播放的语义里面。

比如，风格是爵士乐，日期是本周，歌手是缺失的，因为这里面的信息没有抽取出来。这种情况下，机器人可能会主动发问你想听谁的爵士乐，对应的槽值达到一定数量以后，我们可能不会主动发问，因为它已经检索到用户想要听的歌曲。接下来有一个会话管理，这部分主要是会话状态跟踪，主要任务是根据当前会话状态以及用户输入决定怎么去响应用户。

基于刚才的例子，播放本周最流行的爵士乐，这时候我会问你想听谁的爵士乐，另外一种类型是直接给用户播放本周最流行的音乐，用户点击之后就可以播放。这一步之后要经过自然语言生成，根据当前用户输入和当前会话状态，决定是反馈用户一首音乐的播放链接，还是再询问用户希望听哪个歌手的爵士乐。这部分要根据响应做一个自然语言的生成，返回用户，这样就是一个多轮交互或者单轮交互的过程。

关于苏宁人工智能平台的真面目，你想知道的都在这里了

接下来重点介绍一下自然语言理解。再细分有三个模块，一个是领域分类，比如说我想知道用户到底是想听音乐、问天气，还是电商购物，如果是电商购物，就会涉及到智能导购。第二步是要去理解用户意图，你是想买手机还是想买其他的商品。最后是一个 Slot Filling（槽填充）模型，我们希望根据用户会话中的信息，抽取出我们要完成这项任务所需要的一些槽位里面的槽值。抽取完毕以后，我们就会做相应的响应。比如说我们直接调动电商的搜索引擎，把用户想要的商品反馈给用户，或者根据用户想听的歌曲搜索一首歌，返回给用户。

我们经常用到的是框架语义模型。有两个例子，一个是购物领域的例子，一个是听音乐的例子，都是具体要完成某一个任务的助理型机器人。比如，用户需求是我想买一个红色苹果手机，适用人群是男士，这个时候我们的框架语义模型就会把颜色、品牌以及适用人群这三个槽值抽取出来填充到对应的槽位，一个是颜色、一个是品牌、一个是适用人群。

有了这三个属性以后，我们可以根据会话管理的状态控制，再询问用户是不是还需要其他的属性。比如说你需要网络支持吗？也有可能我们的属性已经到达了一定的阈值，这个时候可以帮用户搜索满足用户需求的手机。

听音乐的例子也是一样，比如说我这个月想听詹姆斯的爵士乐，最后音乐的风格就是爵士乐，歌手就是詹姆斯，时间就是本月。这个时候我们就可以把用户这段语言中所需要槽位的值抽取出来，采用一些信息抽取方法，填充了缺失的槽位之后就可以帮助用户完成指定的功能或者任务。

关于苏宁人工智能平台的真面目，你想知道的都在这里了

这里面涉及到三个具体的子模块，一个是用户分类。比如说用户说了这么一段话，我想买一部红色手机，适用人群是女士，这个时候我们就把它分到用户购物领域，识别到用户的具体意图是购物，而不是听音乐或者问天气。

识别出用户需求领域，我们就要看用户意图，具体是要买手机还是买衣服，还是买瓶装水这些快消品。我们会根据用户表达的 Mobile phone，就知道用户要买 3C 数码产品。接下来我们要做 Slot Filling，比如红色是手机其中的一个属性，女性是手机中的一个适应人群。然后是参数，把对应的槽值填充到缺少的这些槽位上去。