• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2015, Vol. 37 ›› Issue (12): 2386-2392.

• 论文 • 上一篇    下一篇

基于深度自学习的图像哈希检索方法

欧新宇1,2,伍嘉3,朱恒4,李佶5   

  1. (1.云南开放大学云南省干部在线学习学院,云南 昆明 650223;
    2.华中科技大学计算机科学与技术学院,湖北 武汉 430074;3.云南开放大学经济与管理学院,云南 昆明 650223;
    4.云南大学信息学院,云南 昆明 650091;5.昆明长水国际机场信息部,云南 昆明 650000)
  • 收稿日期:2014-10-28 修回日期:2015-03-13 出版日期:2015-12-25 发布日期:2015-12-25
  • 基金资助:

    云南省教育厅应用基础研究计划资助项目(2012Y503);云南省科技厅应用基础研究计划项目青年资助项目(2012FD064);云南开放大学科学研究基金资助项目(201405);国家自然科学基金资助项目(61274092)

Image hashing retrieval method
based on deep selflearning  

OU Xinyu1,2,WU Jia3,ZHU Heng4,LI Ji5   

  1. (1.Yunnan Province Cadres Online Learning College,Yunnan Open University,Kunming 650223;
    2.School of Computer Science & Technology,Huazhong University of Science and Technology,Wuhan 430074;
    3.School of Economics and Management,Yunnan Open University,Kunming 650223;
    4.School of Information Science and Engineering,Yunnan University,Kunming 650223;
    5.Department of Information,Kunming Changshui International Airport,Kunming 650000,China)
  • Received:2014-10-28 Revised:2015-03-13 Online:2015-12-25 Published:2015-12-25

摘要:

基于监督学习的卷积神经网络被证明在图像识别的任务中具有强大的特征学习能力。然而,利用监督的深度学习方法进行图像检索,需要大量已标注的数据,否则很容易出现过拟合的问题。为了解决这个问题,提出了一种新颖的基于深度自学习的图像哈希检索方法。首先,通过无监督的自编码网络学习到一个具有判别性的特征表达函数,这种方法降低了学习的复杂性,让训练样本不需要依赖于有语义标注的图像,算法被迫在大量未标注的数据上学习更强健的特征。其次,为了加快检索速度,抛弃了传统利用欧氏距离计算相似性的方法,而使用感知哈希算法来进行相似性衡量。这两种技术的结合确保了在获得更好的特征表达的同时,获得了更快的检索速度。实验结果表明,提出的方法优于一些先进的图像检索方法。

关键词: 自学习, 感知哈希算法, 栈式自编码算法, 无监督学习, 图像检索

Abstract:

Convolutional neural networks  are an established powerful selflearning ability in image recognition tasks. However, supervised deep learning methods are prone to overfitting when the labeled data are small or noisy. To solve these problems, we propose a novel deep selflearning image hashing retrieval method, an unsupervised learning. First, we can obtain a function with discriminative features via unsupervised autoencoding networks, which reduces learning complexity, thus enabling training images not to rely on their semantic labels. The algorithm is, therefore, forced to learn more robust features from the massive unlabeled data. In order to speed up the query, a perceptual hash algorithm is employed. The combination of these two techniques guarantee a better feature description and a faster query speed without depending on labeled data. Experimental results demonstrate that the proposed approach is superior to some of stateofthe-art methods.

Key words: self-learning;perceptual hash algorithm;stacked auto-encoding algorithm;unsupervised learning;image retrieval