以一杯典型的酸奶为例。它是素食,有活性和活的培养物,并提供每日推荐剂量的15%的钙。但是你的莉莉阿姨来了,她有乳糜泻。所以在亚马逊上买酸奶之前,你想知道它是否无麸质。

通常情况下,你必须根据品牌查找酸奶,并查看标签,看看它是否被认证为无麸质。但如果有更简单的方法呢?如果你能在亚马逊上搜索到认证的无麸质酸奶呢?或者你可以说,“Alexa,什么酸奶是无麸质的?”

现在,有了亚马逊消费者组织的科学家和工程师团队正在开发的产品图表,你就可以了。

什么是乘积图?

董欣露是亚马逊产品图谱团队的首席科学家。Luna的团队负责将亚马逊上的每个产品与具体和抽象概念联系起来,这是一项极其复杂的任务。这将使消费者可以搜索“野餐用品”、“新生儿最佳玩具”、“中世纪现代家具”或“最耐用的手表电池”等搜索词来搜索符合他们需求的最佳产品。

不用说,对于由数百万个项目组成的目录,为每个产品附加属性可能是一个令人生畏的过程。这是露娜最擅长的任务。

卢娜说:“我们的产品图谱将构建世界上所有的信息,因为它与亚马逊上所有可用的东西有关。”“例如,《Party in USA》是一首很适合在夏季烧烤时播放的歌曲。一个即时读取温度计也是一个伟大的项目为你的烧烤聚会。因此,如果你在亚马逊上搜索夏季烧烤,你可以选择播放这首歌和购买温度计,尽管它们来自不同的产品系列。”

这样,亚马逊的产品图将使用产品和非产品概念描述每一件商品,并在不同实体之间形成链接。此外,该图表将帮助客户在寻找商品时使用更大的搜索词变化。

你说番茄,我说番茄,你说“泳衣”,我说“泳衣”,但不管谁说什么,亚马逊都会帮助购物者找到适合他们的商品。

构建产品图

Product Graph团队使用各种机器学习技术从亚马逊详细页面和整个互联网获取产品相关信息。显而易见的挑战是,互联网上的产品信息在很大程度上是非结构化的。例如,并不是每个网站或博客都会在预先定义的字段(如“演员”)下整齐地列出汤姆·汉克斯。

为了克服这一问题,产品图团队使用了远程监督学习技术——在将算法释放到更大的网络上之前,训练算法从一个更小、更结构化的数据库中识别参与者。然后应用开放IE技术来形成各种概念之间的关系(汤姆·汉克斯,演员,阿甘)。

亚马逊的真正不同之处在于,我们可以应用最先进的机器学习技术,不是因为它们很酷或令人兴奋,而是因为它们解决了客户的实际需求。
董昕露-亚马逊产品图的首席科学家

团队还应用了知识链接和清洗,以确保数据的可靠性。使用的一种技术是根据来源来判断信息的有效性。例如,一个个人博客可以将《阿甘正传》的上映年份列为1993年,而IMDb则将电影的上映日期列为1994年。在这种情况下,算法将知道使用来自更可信的来源(IMDb)的信息。

最终,该团队应用图挖掘技术来识别有趣的隐藏模式。这将应用于提供诸如“购买A的人也购买了B”之类的建议。例如,图表可以发现,购买有机宠物食品的购物者也更有可能对Fitbit感兴趣,因为关注宠物健康的人通常也会关注自己的健康。

卢娜说:“亚马逊真正的不同之处在于,我们可以应用最先进的机器学习技术,不是因为它们很酷或令人兴奋,而是因为它们解决了客户的实际需求。”“人们来亚马逊不仅仅是为了购买产品。他们访问亚马逊是为了看看有什么新鲜或有趣的东西,或者是为了发现简化和丰富生活的方法,我很高兴有机会帮助他们做到这一点。”

Xin Luna Dong谈到了亚马逊的产品图在KDD 2018会议上。事实上,亚马逊的几位研究和数据科学家发表论文和演讲在活动现场。Luna最近还被计算机协会(ACM)评为杰出工程师。