搜索的工作原理

图像搜索引擎需要为在Web上浏览的图像建立索引信息,能够对图像进行分析和区分,对图像进行标注,存储提取的索引信息,建立索引数据库。一个理想的图像搜索引擎还应该能够支持基于内容的图像检索。

图像识别方法

1.自动查找图形文本:您可以通过两个HTML标签,即IMG SRC和HREF,检测是否存在可以显示的图像文件。IMG SRC的意思是“显示下面的图像文件”,HREF的意思是“下面有一个链接”。这两个标签通常指向一个图像文件。搜索引擎可以通过检查文件扩展名来判断链接的文件是否是图像文件。如果文件扩展名为。GIF或者。JPG,这是一个可显示的图像。

2.人工干预找出图像并进行分类:即人工选择在线图像和网站。这种方法可以产生精确的查询系统,但是劳动强度太大,限制了处理图像的数量。由于图像不同于文本,人们需要根据自己的理解来解释其含义,因此图像检索比文本查询和匹配要困难得多。目前,大部分图像搜索引擎都支持关键词检索和分类浏览,有些还能提供可视化的属性检索,但也有局限性。它们的主要检索方式如下:

A.基于图像的外部信息:即根据图像的文件名或目录名、路径名、链接、ALT标签等外部信息以及图像周围的文本信息,这是目前图像搜索引擎中最常用的方法。找到图像文件后,图像搜索引擎通过查看文件名或路径名来确定文件内容,但这取决于文件名或路径名的描述程度。

B.基于图像内容的特征描述:这是一个语义层面的匹配。需要对图像的内容(如物体、背景、构图、颜色特征等)进行描述和分类。)手动并给出描述性文字。搜索时,你会主要在这些描述符中搜索你的搜索词。这种查询方式是比较准确的,一般来说可以获得较好的精度。但需要人工参与,劳动强度大,从而限制了可以处理的图像数量,而且需要一定的规范和标准,效果取决于人工描述的准确性。

C.基于图像形态的特征提取:通过图像分析软件自动提取图像的颜色、形状、纹理等特征,建立特征索引库,用户只需描述待搜索图像的一般特征,就能找到特征相似的图像。这是一种基于图像特征层次的机械匹配,特别适合检索目标明确的查询需求(如商标检索)。结果也是最接近用户要求的。但是目前,这种成熟的检索技术主要应用于图像数据库检索,在在线图像搜索引擎中应用这种检索技术还存在一定的困难。