视觉搜索之变，变得不仅是搜索？_热闻

文/陈根

在智能搜索时代，搜索引擎日益成为高效连接我们和信息的核心技术，而随着移动设备智能化程度也越来越高，搜索的过程除了逐渐从PC端转到了移动设备，比如智能手机中，搜索方式也正发生转变，文字、声音已无法满足人们的搜索要求，视觉搜索则显得更加符合人们随时随地搜索的特性。

要知道，人类有近80%的信息获取来自双眼，人们对所看到的事物总是充满了好奇心。而当图像遇到搜索引擎，视觉搜索便应运而生，给到人们想要的答案。如今，贴近自然的搜索模式正在取代传统的搜索方式，带来智能搜索的新变。

从文本搜索到视觉搜索

互联网发展到今天，人们已经对搜索太过熟悉，人们习惯了搜索技术的存在，以至于感受不到其中技术的变革。但实际上，从古早的文本检索到今天的人工智能，网络世界的网页数量已经从千万级别，增长到了千亿级别，其中囊括的内容甚至比世界上所有图书馆加起来还要丰富。

我们都知道，早期的搜索引擎采用的是文本检索的方式，只能做到用户查询关键词和网页文本内容的匹配。虽然这样的方式也能把不同网页的关联度进行排序，但总体的搜索质量却是比较差的。

相较于文本检索，网页之间有着更丰富的链接关系，就像高引论文往往本身质量更高，高质量的网页通常也会被更多的网页链接。为了进一步挖掘和利用这种链接信息，1996年，李彦宏开发了Rankdex，即超链分析算法。这是世界上首个使用超链接来衡量网站质量的搜索引擎。

也就是说，搜索引擎在收到一个用户查询之后，不仅仅会去匹配网页的内容，还会看看其他网页对这个页面的“评价”。在此之后，谷歌也提出并使用了类似的PageRank技术，并大获成功。可以说，超链分析算法，就是当今每个主要搜索引擎排名算法的基础。

在搜索引擎从文本搜索转向网页搜索的同时，智能手机也加快了普及。相比较于传统PC的搜索，智能手机的移动搜索发生了许多的变化，除了搜索方式从PC端的Web网页演变为App外，人们的搜索诉求也不再是仅单纯地获取信息，而是对本地化、生活化的具体实体展开搜索。

在新的搜索需求下，再加上智能手机丰富的传感器，人们搜索的输入方式开始从传统的文字输入演变为文字、声音、图像、位置、体感等的综合输入，因搜索场景的移动性和网络环境的变化而发生变化。

如今，在移动端，基于语音的搜索技术已经较为成熟，具有代表性的就是苹果的“Siri”，它可利用人们的口述信息进行检索，Siri的出现让搜索更加符合人们的自然需求，使人与机器的交互演变为人与人的自然交流。此外，还有基于位置的搜索，当人们旅游至某地后，就可以收到相应的酒店、餐馆等方面的提示信息，快速让我们熟悉所在地。在文字、声音、位置等搜索外，视觉搜索则是一种更加深度影响人们生活的搜索，并日益成为搜索技术的未来。

视觉搜索是通过搜索视觉特征，为人们搜索互联网上相关图形、图像资料检索服务的专业搜索引擎系统。简单来理解的话，视觉搜索就是当我们拍摄一张照片后系统会提取此图片的信息，然后和图片库中的图片进行比对，最终找出和图片具有极高相似度的一张图片。

相较于视觉搜索来讲，语音搜索识别率低，对使用者的说话语速、语气、口音等具有较高的要求；语音搜索适合相对独立和安静的空间使用，受使用场景局限，使用手机语音会干扰周围的人，也极容易被周围环境干扰。而视觉搜索则是在移动场景下对“线下实体”的搜索，包括环境、商铺、餐厅、招牌、商品、图书、菜品、景点等，具有天然的技术优势。

比如，当我们对路边一只小狗感兴趣时，使用视觉搜索软件进行识别，我们就会知道它属于哪一种狗，它的成长历史和基因信息，它的生活习性，如何养好它，周围是否有宠物医院，在什么地方可以买到这种狗等一系列的相关信息。就像PC时代的搜索框一样，摄像头就是移动互联网时代的入口，而流量入口又是搜索引擎之源，这也是谷歌和百度等搜索巨头都对视觉搜索投入大量资源的原因。

不只是搜索

如果说视觉搜索在PC端上的优势还是有限的，那么，当把视觉搜索技术“移动”起来，其功能便显得异常强大。

移动智能手机几乎已经成为了人们生活的必须，借助移动终端在生活中发现新东西的概率，远比在网页浏览时发现新东西的概率要大得多，而利用传统搜索无法准确地完成对事物的描述，很多时候这就成了一个有头无尾的搜索过程。但在移动端选用视觉搜索的话，借助所拍影像或图片资料，马上就能得到我们想要的结果，快捷、高效且符合人们的自然习惯。

阿里巴巴于2014年推出了视觉搜索引擎Pailitao， Pailitao用户可以使用图像进行搜索，并在阿里巴巴的在线购物网站淘宝上找到数十亿项目中的匹配产品。 Pailitao几乎涵盖所有淘宝产品类别，包括时装，鞋子，包包，家具，化妆品和食品。比如，在淘宝的前20大类别之一的时尚服饰中，顾客经常使用Pailitao来搜索名人或影响者在照片中所穿的服装或配饰。 Pailitao通过使用与颜色，样式，品牌等相关的术语消除描述目标项目的需要，极大地改善了用户体验。

谷歌则更进一步。他们于2017年发布了一个通用的视觉搜索引擎——谷歌镜头（Google Lens）。它不仅可以识别出待售的产品，而且还能解码整个景观。你可以利用它学到任何你想学的东西。

谷歌之后，还有宜家。宜家在这方面取得的进展更大。在智能手机中安装好他们利用增强现实技术开发的应用程序后，宜家就可以绘制我们家客厅的效果图了，这个数字版本的效果图中包含了所有家具的确切尺寸。

此外，尽管视觉搜索技术的基本功能是查找相似图片、识别图片中的事物，但当这种神奇的搜索能力与移动端的穿戴设备、社交网络以及数以万计的App结合起来时，这种搜索方式就会立刻变得强大，影响我们生活的方方面面。

当前，Google、Yandex、YouTube、Instagram或Pinterest中的视觉搜索及推荐正把无穷无尽的图像和视频推送到我们面前，而大型博物馆的网站提供了大量艺术品和历史文物的数字影像。

在社交领域，视觉搜索有助于我们结识与我们有相同兴趣爱好的人，扩展深化社交网络。Clickpic就是这样的产品，人们拍摄自己的照片上传后，可以看见社交网络中其他用户的相似图片，通过这种相似的图片便可建立起话题式讨论小组，结识具有相同兴趣爱好的人们，扩大上传者的社交网络。

不仅如此，视觉搜索还将更新智能终端的新模式——自然环境中的物体、图片信息，对于视觉搜索来说，都是将真实的物理世界信息映射为互联网信息的方式。基于此，再加上类似于谷歌眼镜的可穿戴设备，人们的眼睛无疑多了一项视觉搜索功能。之前人们看到环境，然后通过大脑来对环境做出反应，但现在我们又增加了海量的云端信息。在这个过程中，终端设备的摄像头就是下一个移动互联网时代的入口。

视觉搜索的现在和未来

从文本搜索到网页搜索，再到语音搜索和如今的视觉搜索，搜索技术的进步也能帮助我们得以更好地认识世界，增进我们获取知识的手段。

当前，就视觉搜索来说，它还能识别现实生活中的更多事物，比如书籍、电影、DVD、植物和动物，等等。

另外，视觉搜索也提供了人们结识更多人的机会。可以说，视觉搜索虽然依旧是一项搜索技术，但它也已经不再是一个简简单单的搜索引擎了，它还承载了社交的功能。用户利用百度的相似脸识别功能进行自拍，可以结识和自己相像的明星、朋友或附近的人，这使人们之间有了更多的联系，人与人之间进行的分享也从线上顺理成章地发展到线下。

虽然视觉搜索的未来令人期待，但现实技术的实现仍不尽如人意。李彦宏曾指出，视觉搜索目前仍是待解的技术难题。视觉搜索的关键技术密集，并且面临与以往的搜索技术完全不同的背景技术难题，比如，移动端相机水平的参差不齐，照片信息模糊、色彩失衡、过度曝光、数据量大等问题，技术发展相对迟缓。

目前，在对平面或刚性物体（油画、书籍、建筑物、CD、明星照片等）的搜索方面，视觉搜索的准确率已超过90%，而对于非刚性物体的图像识别，则还需要更加有效的机器算法（比如，活动中的动物）。

部分软件的人脸识别性能已做到极高的精度，主要是由于人脸的规则性及海量的人脸照片库。但在常规图像/影像资料等方面，视觉搜索的识别率显著低于二维码和条形码的识别率。正如常规文字搜索引擎尚无法完全解析人类自然语言一样，视觉搜索技术也无法完全了解图像的语义内容，对影像赋予的语义理解较为困难，凭借目前的识别技术，仅仅是将获取的资源进行清晰明确地罗列，然后让用户自行筛选，后续机器预处理数据量巨大。

与此同时，视觉搜索的人机交互性有待进一步改善。苹果公司的Siri的语音搜索是在对话中完成的，而现在视觉搜索仍采用传统文字检索的方式，即使用者提交待检索的内容，然后进行检索的方式，交互的自然性依然有待提高。

此外，视觉搜索的数据传输量极大，对网络传输质量提出较高的要求，随着Wi-Fi覆盖加强及5G时代的到来，网络环境更好，视觉搜索性能也会大幅提升，李彦宏曾预言，当搜索时长变为0.1秒以内后，视觉搜索就将迎来大规模应用。

在今天，信息的获取方式看似便捷，但海量资讯涌来的同时，也带来了越来越多的无效信息。这也是为什么我们会希望搜索的结果更加精准。而在此之外，我们还更希望搜索更能读懂人的意图，更节省时间、更高效地解决问题。显然，视觉搜索的进步不仅仅是搜索技术的进步，更是人类对于智能的探索的进步——智能搜索对于人类社会的影响，或许远比我们今天想象的还要深刻。

聚热点 juredian

视觉搜索之变，变得不仅是搜索？

迈克尔·杰克逊，曾如何改变科比？...

蔚来的“未来”有多远？

52岁李菁菁第3次离婚！90后丈...

最新