了解“以图搜图”背后的原理

时间：时间: 2022-07-05 17:13:35 阅读： 4025 次 分类：常见问题

“以图搜图”正式的名称应该叫“相似图像搜索引擎”，也称为“反向图片搜索引擎”。最初的图像搜索引擎是基于文本关键字检索的。

“以图搜图”正式的名称应该叫“相似图像搜索引擎”，也称为“反向图片搜索引擎”。最初的图像搜索引擎是基于文本关键字检索的。早期的Altavista、Lycos等搜索引擎正是利用图像的文件名和路径名、图像周围的文本，以及Alt标签中的注释索引和搜索相关图像的。从本质上来说，这样的图像搜索引擎其实还是基于文本搜索引擎的。有时图像周边的这些文本信息和图像并没有关系，会造成搜索出来的部分图像结果和查询关键词并不一致。为了避免这种问题，有些搜索引擎采用人工的方式对图像进行标注索引。虽然人工标注保证了搜索引擎的查准率，但是它限制了图像索引的规模，不可能有很好的查全率。而有时，图像的内容是很难用几个关键词就能完整描述出来的。在某种情况下，无论是利用图像网页相关文本信息，还是人工标注文字说明，都很难做到较高的搜索准确度。

1992年，T. Kato提出了基于内容的图像检索（CBIR）的概念，它使用图像的颜色、形状等信息作为特征构建索引以实现图像检索，即我们通常所说的“以图搜图”。基于这一概念，IBM开发了第一个商用的CBIR系统QBIC（Query By Image Content），用户只需输入一幅草图或图像，便可以搜索出相似的图像。同一时期，很多公司也将这一技术引入搜索引擎。哥伦比亚大学开发的WebSEEK系统不仅提供了基于关键词的图像搜索和按照图像类目的主题浏览，还可以利用图像的颜色信息进行基于内容的图像搜索。Yahoo的ImageSurfer也提供了使用例图的颜色、形状、纹理特征，以及它们的组合来进行基于内容的图像搜索功能。随着视觉技术的进步和发展，越来越多的搜索引擎采用这一方式来进行图像搜索，并在此基础上不断演进。

早期曾使用过“以图搜图”方式进行图像搜索的读者可能会有这样的印象，这种图像搜索方式在返回的结果的准确度往往不太令人满意。为此，很多视觉研究人员、图像技术开发者不断提出新的图像特征表示算法。虽然准确率在一点点提高，但是并未根本性地解决准确度问题。这究竟是什么原因呢？原因在于无论是图像的颜色、纹理、形状这些全局信息，还是后来的SIFT等局部图像信息，都是人为设计的硬编码，还不能完整地表达人类对整幅图像内容的理解。

那图像搜索的准确率还能提高吗？随着人工智能（特别是深度学习理论和技术）的发展，人们逐步找到了解决方案。深度学习技术极大地提高了图像表达的准确性。诸多主流图像搜索引擎纷纷引入了深度学习算法来提高图像搜索的准确率。

如今我们日常使用的百度、搜狗等通用搜索引擎均提供了相似图像检索功能。淘宝、京东等电商平台也利用自己庞大的商品图像库开发了垂直领域内的图像检索功能来满足消费者们不易用文字描述的商品搜索需求。有更多的创业公司在各自的领域内使用相似图像搜索技术来满足形形色色图像检索需求，服务于更多的行业和消费者。

虽然图像检索技术已广泛应用于我们的生活当中，但目前这一技术还未完全成熟，仍有许多问题需要解决，改进和提高的空间还很大。搜索的结果和用户的期望还有一些距离，存在一定的图像语义鸿沟。这也是从事这项技术研究与开发的人员不断进步的源动力。