文/陈根
在智能搜索时代,搜索引擎日益成为高效连接我们和信息的核心技术,而随着移动设备智能化程度也越来越高,搜索的过程除了逐渐从PC端转到了移动设备,比如智能手机中,搜索方式也正发生转变,文字、声音已无法满足人们的搜索要求,视觉搜索则显得更加符合人们随时随地搜索的特性。
要知道,人类有近80%的信息获取来自双眼,人们对所看到的事物总是充满了好奇心。而当图像遇到搜索引擎,视觉搜索便应运而生,给到人们想要的答案。如今,贴近自然的搜索模式正在取代传统的搜索方式,带来智能搜索的新变。
从文本搜索到视觉搜索
互联网发展到今天,人们已经对搜索太过熟悉,人们习惯了搜索技术的存在,以至于感受不到其中技术的变革。但实际上,从古早的文本检索到今天的人工智能,网络世界的网页数量已经从千万级别,增长到了千亿级别,其中囊括的内容甚至比世界上所有图书馆加起来还要丰富。
我们都知道,早期的搜索引擎采用的是文本检索的方式,只能做到用户查询关键词和网页文本内容的匹配。虽然这样的方式也能把不同网页的关联度进行排序,但总体的搜索质量却是比较差的。
相较于文本检索,网页之间有着更丰富的链接关系,就像高引论文往往本身质量更高,高质量的网页通常也会被更多的网页链接。为了进一步挖掘和利用这种链接信息,1996年,李彦宏开发了Rankdex,即超链分析算法。这是世界上首个使用超链接来衡量网站质量的搜索引擎。
也就是说,搜索引擎在收到一个用户查询之后,不仅仅会去匹配网页的内容,还会看看其他网页对这个页面的“评价”。在此之后,谷歌也提出并使用了类似的PageRank技术,并大获成功。可以说,超链分析算法,就是当今每个主要搜索引擎排名算法的基础。
在搜索引擎从文本搜索转向网页搜索的同时,智能手机也加快了普及。相比较于传统PC的搜索,智能手机的移动搜索发生了许多的变化,除了搜索方式从PC端的Web网页演变为App外,人们的搜索诉求也不再是仅单纯地获取信息,而是对本地化、生活化的具体实体展开搜索。
在新的搜索需求下,再加上智能手机丰富的传感器,人们搜索的输入方式开始从传统的文字输入演变为文字、声音、图像、位置、体感等的综合输入,因搜索场景的移动性和网络环境的变化而发生变化。
如今,在移动端,基于语音的搜索技术已经较为成熟,具有代表性的就是苹果的“Siri”,它可利用人们的口述信息进行检索,Siri的出现让搜索更加符合人们的自然需求,使人与机器的交互演变为人与人的自然交流。此外,还有基于位置的搜索,当人们旅游至某地后,就可以收到相应的酒店、餐馆等方面的提示信息,快速让我们熟悉所在地。在文字、声音、位置等搜索外,视觉搜索则是一种更加深度影响人们生活的搜索,并日益成为搜索技术的未来。
视觉搜索是通过搜索视觉特征,为人们搜索互联网上相关图形、图像资料检索服务的专业搜索引擎系统。简单来理解的话,视觉搜索就是当我们拍摄一张照片后系统会提取此图片的信息,然后和图片库中的图片进行比对,最终找出和图片具有极高相似度的一张图片。
相较于视觉搜索来讲,语音搜索识别率低,对使用者的说话语速、语气、口音等具有较高的要求;语音搜索适合相对独立和安静的空间使用,受使用场景局限,使用手机语音会干扰周围的人,也极容易被周围环境干扰。而视觉搜索则是在移动场景下对“线下实体”的搜索,包括环境、商铺、餐厅、招牌、商品、图书、菜品、景点等,具有天然的技术优势。
比如,当我们对路边一只小狗感兴趣时,使用视觉搜索软件进行识别,我们就会知道它属于哪一种狗,它的成长历史和基因信息,它的生活习性,如何养好它,周围是否有宠物医院,在什么地方可以买到这种狗等一系列的相关信息。就像PC时代的搜索框一样,摄像头就是移动互联网时代的入口,而流量入口又是搜索引擎之源,这也是谷歌和百度等搜索巨头都对视觉搜索投入大量资源的原因。
不只是搜索
如果说视觉搜索在PC端上的优势还是有限的,那么,当把视觉搜索技术“移动”起来,其功能便显得异常强大。
移动智能手机几乎已经成为了人们生活的必须,借助移动终端在生活中发现新东西的概率,远比在网页浏览时发现新东西的概率要大得多,而利用传统搜索无法准确地完成对事物的描述,很多时候这就成了一个有头无尾的搜索过程。但在移动端选用视觉搜索的话,借助所拍影像或图片资料,马上就能得到我们想要的结果,快捷、高效且符合人们的自然习惯。
阿里巴巴于2014年推出了视觉搜索引擎Pailitao, Pailitao用户可以使用图像进行搜索,并在阿里巴巴的在线购物网站淘宝上找到数十亿项目中的匹配产品。 Pailitao几乎涵盖所有淘宝产品类别,包括时装,鞋子,包包,家具,化妆品和食品。 比如,在淘宝的前20大类别之一的时尚服饰中,顾客经常使用Pailitao来搜索名人或影响者在照片中所穿的服装或配饰。 Pailitao通过使用与颜色,样式,品牌等相关的术语消除描述目标项目的需要,极大地改善了用户体验。
谷歌则更进一步。他们于2017年发布了一个通用的视觉搜索引擎——谷歌镜头(Google Lens)。它不仅可以识别出待售的产品,而且还能解码整个景观。你可以利用它学到任何你想学的东西。
谷歌之后,还有宜家。宜家在这方面取得的进展更大。在智能手机中安装好他们利用增强现实技术开发的应用程序后,宜家就可以绘制我们家客厅的效果图了,这个数字版本的效果图中包含了所有家具的确切尺寸。
此外,尽管视觉搜索技术的基本功能是查找相似图片、识别图片中的事物,但当这种神奇的搜索能力与移动端的穿戴设备、社交网络以及数以万计的App结合起来时,这种搜索方式就会立刻变得强大,影响我们生活的方方面面。
当前,Google、Yandex、YouTube、Instagram或Pinterest中的视觉搜索及推荐正把无穷无尽的图像和视频推送到我们面前,而大型博物馆的网站提供了大量艺术品和历史文物的数字影像。
在社交领域,视觉搜索有助于我们结识与我们有相同兴趣爱好的人,扩展深化社交网络。Clickpic就是这样的产品,人们拍摄自己的照片上传后,可以看见社交网络中其他用户的相似图片,通过这种相似的图片便可建立起话题式讨论小组,结识具有相同兴趣爱好的人们,扩大上传者的社交网络。
不仅如此,视觉搜索还将更新智能终端的新模式——自然环境中的物体、图片信息,对于视觉搜索来说,都是将真实的物理世界信息映射为互联网信息的方式。基于此,再加上类似于谷歌眼镜的可穿戴设备,人们的眼睛无疑多了一项视觉搜索功能。之前人们看到环境,然后通过大脑来对环境做出反应,但现在我们又增加了海量的云端信息。在这个过程中,终端设备的摄像头就是下一个移动互联网时代的入口。
视觉搜索的现在和未来
从文本搜索到网页搜索,再到语音搜索和如今的视觉搜索,搜索技术的进步也能帮助我们得以更好地认识世界,增进我们获取知识的手段。
当前,就视觉搜索来说,它还能识别现实生活中的更多事物,比如书籍、电影、DVD、植物和动物,等等。
另外,视觉搜索也提供了人们结识更多人的机会。可以说,视觉搜索虽然依旧是一项搜索技术,但它也已经不再是一个简简单单的搜索引擎了,它还承载了社交的功能。用户利用百度的相似脸识别功能进行自拍,可以结识和自己相像的明星、朋友或附近的人,这使人们之间有了更多的联系,人与人之间进行的分享也从线上顺理成章地发展到线下。
虽然视觉搜索的未来令人期待,但现实技术的实现仍不尽如人意。李彦宏曾指出,视觉搜索目前仍是待解的技术难题。视觉搜索的关键技术密集,并且面临与以往的搜索技术完全不同的背景技术难题,比如,移动端相机水平的参差不齐,照片信息模糊、色彩失衡、过度曝光、数据量大等问题,技术发展相对迟缓。
目前,在对平面或刚性物体(油画、书籍、建筑物、CD、明星照片等)的搜索方面,视觉搜索的准确率已超过90%,而对于非刚性物体的图像识别,则还需要更加有效的机器算法(比如,活动中的动物)。
部分软件的人脸识别性能已做到极高的精度,主要是由于人脸的规则性及海量的人脸照片库。但在常规图像/影像资料等方面,视觉搜索的识别率显著低于二维码和条形码的识别率。正如常规文字搜索引擎尚无法完全解析人类自然语言一样,视觉搜索技术也无法完全了解图像的语义内容,对影像赋予的语义理解较为困难,凭借目前的识别技术,仅仅是将获取的资源进行清晰明确地罗列,然后让用户自行筛选,后续机器预处理数据量巨大。
与此同时,视觉搜索的人机交互性有待进一步改善。苹果公司的Siri的语音搜索是在对话中完成的,而现在视觉搜索仍采用传统文字检索的方式,即使用者提交待检索的内容,然后进行检索的方式,交互的自然性依然有待提高。
此外,视觉搜索的数据传输量极大,对网络传输质量提出较高的要求,随着Wi-Fi覆盖加强及5G时代的到来,网络环境更好,视觉搜索性能也会大幅提升,李彦宏曾预言,当搜索时长变为0.1秒以内后,视觉搜索就将迎来大规模应用。
在今天,信息的获取方式看似便捷,但海量资讯涌来的同时,也带来了越来越多的无效信息。这也是为什么我们会希望搜索的结果更加精准。而在此之外,我们还更希望搜索更能读懂人的意图,更节省时间、更高效地解决问题。显然,视觉搜索的进步不仅仅是搜索技术的进步,更是人类对于智能的探索的进步——智能搜索对于人类社会的影响,或许远比我们今天想象的还要深刻。