本发明涉及视频检索技术领域,尤其涉及一种基于视频内容的视频检索方法及系统。
背景技术:
自上个世纪九十年代以来,随着网络媒体技术的发展以及社会网络的发展,网络宽带不断提高,越来越多的信息通过视频、音频、图像等多媒体的形式展现在互联网中,多媒体数据呈现出爆发式的增长;而在各种多媒体素材中,如视频、音频、文本、图形、图像和动画等,因视频数据以其生动性、直观性和极大的亲和力备受人们的喜爱,近年来,以提供视频分享为主要业务的视频网站也是蓬勃发展,国内有爱奇艺、优酷、土豆和CNTV等,国外有YouTube、Hulu、Yahoo、Video等;数量众多的视频分享网站极大的丰富了人们的视听娱乐等活动。
海量的多媒体视频丰富了人民的生活,随着视频数据的增多,对这些视频数据的管理存在巨大的技术问题,需要投入大量人力物力对视频进行分类处理和添加标签处理,但这些处理还是无法帮助用户快速、准确的检索到用户需要的视频。
技术实现要素:
本发明的目的在于克服现有技术的不足,本发明提供了一种基于视频内容的视频检索方法及系统,有效的解决基于名称的视频检索中存在的检索内容不准确问题,提高用户的使用体验感。
为了解决上述技术问题,本发明提供了一种基于视频内容的视频检索方法,所述方法包括:
将用户的检索关键词与背景主词题集合的主题词进行匹配,获取匹配中与检索关键词相近的主题词;
根据所述与检索关键词相近的主题词进行视频检索,获取所述与检索关键词相近的主题词对应的视频;
根据获取所述与检索关键词相近的主题词对应的视频,获取视频基本信息;
根据所述视频基本信息对所述视频相似性进行估量,获取视频相似性估量结果;
对所述视频相似性估量结果进行综合加权估量,获取视频相似性综合估量结果;
根据获取视频相似性综合估量结果进行显示。
优选地,将用户的检索关键词与背景主词题集合的主题词进行匹配之前,所述方法还包括::
获取数据库中的所有视频的字幕信息和音频信息,将所述字幕信息和所述音频信息转化为第一视频文本信息;
通过对所述第一视频文本信息进行处理,获取所述视频文本信息主题词;
通过所述视频文本信息主题词获取与所述视频文本信息主题词相关的背景文献信息,对所述背景文献信息进行处理,获取第一背景文献主题词信息;
根据所述视频文本信息主题词与所述第一背景文献主题词信息,获取背景主题词集合。
优选地,所述视频基本信息至少包括第二视频文本信息、第二背景文献主题词信息和视频评论信息中的任意一项信息。
优选地,所述视频评论信息的获取步骤,包括:
对所述视频进行数据爬虫处理,获取所述视频评论信息。
优选地,所述根据视频基本信息对所述视频相似性进行估量,获取视频相似性估量结果的步骤,包括:
根据所述第二视频文本信息对所述视频的相似性进行估量,获取视频相似性估量结果;
根据所述第二背景文献主题词信息对所述视频的相似性进行估量,获取视频相似性估量结果;
根据所述视频评论信息对所述视频的相似性进行估量,获取视频相似性估量结果。
优选地,所述根据所述第二视频文本信息对所述视频的相似性进行估量,获取视频相似性估量结果的步骤,包括:
根据所述第二视频文本信息的字符串的相似度进行视频相似性估量,获取基于所述字符串的视频相似性估量结果;
根据所述第二视频文字信息的语料库的相似度进行视频相似性估量,获取基于所述语料库的视频相似性估量结果;
根据所述第二视频文本信息的文字内容的相似度进行视频相似性估量,获取基于所述文字内容的视频相似性估量结果。
优选地,所述根据所述第二背景文献主题词信息对所述视频的相似性进行估量,获取视频相似性估量结果的步骤,包括:
根据所述第二背景文献主题词信息的集合相似度进行视频相似性估量,获取基于所述集合的视频相似性估量结果;
根据所述第二背景文献主题词信息的词汇相似度进行视频相似性估量,获取基于所述词汇的视频相似性估量结果。
优选地,所述根据所述视频评论信息对所述视频的相似性进行估量,获取视频相似性估量结果的步骤,包括:
对所述视频评论信息进行处理,获取视频评论信息中的视频、用户、评论的关系信息;
根据所述视频评论信息中的视频、用户、评论的关系信息对所述视频进行相似性估量,获取基于所述视频评论信息相似性估量结果。
优选地,所述对所述视频相似性估量结果进行综合加权估量,获取视频相似性综合估量结果的步骤,包括:
构建视频相似性综合估量模型;
根据所述视频相似性综合估量模型对所述相似性估量结果进行数据训练,获取训练结果。
对所述训练结果进行综合加权处理,获取综合加权处理结果;
根据综合加权处理结果获取视频相似性综合估量结果。
另外,本发明还提供了一种基于视频内容的视频检索系统,所述系统包括:
匹配模块:用于将用户的检索关键词与背景主词题集合相匹配,获取与检索关键词相近的主题词;
检索模块:用于根据所述与检索关键词相近的主题词进行视频检索,获取所述与检索关键词相近的主题词对应的视频;
信息获取模块:用于根据所述与检索关键词相近的主题词对应的视频,获取视频基本信息;
相似性估量模块:用于根据所述视频基本信息对所述视频相似性进行估量,获取视频相似性估量结果;
综合加权模块:用于对所述视频相似性估量结果进行综合加权估量,获取视频相似性综合估量结果;
显示模块:用于根据获取视频相似性综合估量结果进行显示。
在本发明实施例中,通过对视频库中的视频先进行预处理,获取视频库中每个视频背景主题集合,根据用户的检索关键词与视频背景主题集合相匹配,获取主题词,根据主题词进行视频相似性估量,最终通过综合加权的方式获取视频相似性的综合估量结果,根据获取的视频相似性的综合估量结果按高到低展现给用户,完成对视频的检索;有效的解决基于名称的视频检索中存在的检索内容不准确问题,提高用户的使用体验感。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的视频检索方法的方法流程示意图;
图2是本发明实施例中的背景主题集合获取的方法流程示意图;
图3是本发明实施例中的获取视频相似性综合估量结果的步骤流程示意图;
图4是本发明实施例中的视频检索系统的系统结构组成示意图;
图5是本发明实施例中的综合加权模块的模块结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例中的视频检索方法的方法流程示意图,如图1所示,该方法包括:
S11:将用户的检索关键词与背景主词题集合的主题词进行匹配,获取匹配中与检索关键词相近的主题词;
S12:根据与检索关键词相近的主题词进行视频检索,获取与检索关键词相近的主题词对应的视频;
S13:根据获取与检索关键词相近的主题词对应的视频,获取视频基本信息;
S14:根据视频基本信息对所述视频相似性进行估量,获取视频相似性估量结果;
S15:对视频相似性估量结果进行综合加权估量,获取视频相似性综合估量结果;
S16:根据获取视频相似性的综合估量结果进行显示。
对S11作进一步说明:
通过检索框接收用户输入的检索关键词的方式来获取到检索关键词,将获取到的检索关键词与背景主题词进行相互匹配,根据匹配结果获取到与检索关键词相近的主题词。
进一步的,在S11之前,图2是本发明实施例中的背景主题集合获取的方法流程示意图,如图2所示,该方法包括:
S111:获取数据库中的所有视频的字幕信息和音频信息,将字幕信息和音频信息转化为第一视频文本信息;
S112:通过对第一视频文本信息进行处理,获取视频文本信息主题词;
S113:通过视频文本信息主题词获取与视频文本信息主题词相关的背景文献信息,对背景文献信息进行处理,获取第一背景文献主题词信息;
S114:根据视频文本信息主题词与第一背景文献主题词信息,获取背景主题词集合。
对S111做进一步说明:
首先提取视频库中的所有视频,分别对各个视频进行帧分割,采用OCR技术获取每一帧上的字幕信息,并将前一帧的字幕信息与后一帧的字幕信息进行比较,若前后两帧的字幕信息的相似度大于80%,则认为两帧字幕信息相重复,只保存前一帧的字幕信息;采用这样的方式直至获取完视频所有帧的字幕信息为止,获取字幕信息;对视频进行音频信息分类处理,获取到音频信息,对该音频信息采用ASR技术进行处理,将该音频信息转换为文字信息。
然后对字幕信息和文字信息进行垃圾字符串去除处理,该处理的规则可以如下:
(1)如果一个字符串包含的字符超过40个,则认定为垃圾字符串,过滤掉;
(2)如果一个字符串中的字母数字字符(或文字字符)的总数少于50%,则认定为垃圾字符串,过滤掉;
(3)如果一个字符串中有连续4个相同的字符,则认定为垃圾字符串,过滤掉;
(4)对于只含有字母数的字符串,检查元音字母和辅音字母的数量,如果一种字母的数量少于另一种字母数量的10%,则认定为垃圾字符串,过滤掉;
(5)去掉一个字符串的首尾字母后,如果标点字符的种类多于两个,则认定为垃圾字符串,过滤掉;
(6)当一个字符串的首尾都是小写字母,如果中间任何位置出现大写字母,则认定为垃圾字符,过滤掉。
基于以上规则,去掉字幕信息和文字信息中的大部分的垃圾字符串都被有效的过滤,同时,对于一些特定格式的字符串,如邮件地址或某些特定表示方式,采用正则表达式和配置文件的方式,将这些字符串予以保留;然后对剩下的字幕信息和文字信息进行去除重复的合并,获取到视频文字信息。
对S112做进一步说明:
采用KEA++算法对视频文本信息进行处理,获取文本信息的主题词;在具体实施过程中,训练数据集:将视频文本信息作为训练数据,并对视频文本信息汇进行训练;控制词汇表:提取视频文本信息中的关键短语,将不同领域的关键短语分配到其所属领域的控制词汇表;主题词生成:根据训练数据集和控制词汇表,采用KEA++算法生成一个学习模型,采用该学习模型对视频文本信息进行主题词预测,生成主题词。
对S113作进一步说明:
根据S112中获取的到主题词,采用该主题词进行文献检索,获取到与该主题词相关的背景文献信息,采用采用KEA++算法对背景文献信息进行处理获取背景文献主题词信息;在具体实施过程中,训练数据集:将背景文献信息作为训练数据,并对背景文献信息进行训练;控制词汇表:提取背景文献信息中的关键短语,将不同领域的关键短语分配到其所属领域的控制词汇表;主题词生成:根据训练数据集和控制词汇表,采用KEA++算法生成一个学习模型,采用该学习模型对背景文献信息进行主题词预测,生成背景文献主题词信息。
对S114做进一步说明:
根据KEA++算法生产的学习模型预测获得的视频文本信息主题词和背景文献主题词信息中的主题词和预测该主题词与视频的相关度概率和Lucene得分相乘,获取最高相乘结果部分构建主题词集合。
其中Lucene的评分规则为对每个文献信息或文本信息与其查询请求的主题词或关键词的出现频率(TF)、反向文献信息或文本信息频率(IDF)文献信息或文本信息和每个查询域的权重,以及查询域的文献信息或文本信息的长度相关。
对S12做进一步说明:
通过根据与检索关键词相近的主题词对视频数据库内的视频进行检索,从而获取到与检索关键词相近的主题词相对应的视频。
对S13做进一步说明:
根据上述S12获取到与检索关键词相近的主题词相对应的视频之后,获取该视频的视频基本信息;其中,视频基本信息至少包括视频文本信息、背景文献主题词信息和视频评论信息。
视频文本信息和背景文献主题词信息是在S11对该视频处理后的处理结果中提取出来,视频评论信息是采用数据爬虫的处理处理方式,爬去该视频的评论信息,从而获取到视频评论信息。
对S14做进一步说明:
根据视频基本信息对该视频进行相似性估量,获取视频相似性估量结果;因为视频基本信息至少包括视频文本信息、背景文献主题词信息和视频评论信息;在本实施例中,是分别采用视频文本信息、背景文献主题词信息和视频评论信息进行视频相似性估量,获取视频相似性估量结果。
进一步的,根据视频文本信息、背景文献主题词信息和视频评论信息分别对视频进行相似性估量,并且分别获取他们的相似性估量的估量结果;即为根据视频文本信息对视频的相似性进行估量,获取视频相似性估量结果;根据背景文献主题词信息对视频的相似性进行估量,获取视频相似性估量结果;根据视频评论信息对视频的相似性进行估量,获取视频相似性估量结果。
进一步的,根据视频文本信息对视频的相似性进行估量,获取视频相似性估量结果分为基于视频文本信息的字符串的相似度进行视频相似性估量、基于视频文本信息的语料库的相似度进行视频相似性估量和基于视频文本信息的文字内容的相似度进行视频相似性估量,从而获取相似性估量结果。
其中,基于视频文本信息的字符串的相似度进行视频相似性估量采用字符串之间的余弦相似性计算字符串的相似性,公式如下:
其中,Ti表示第i个字符串的向量,wik表示第i个字符串的第k维度,Tj表示第j个字符串的向量,wjk表示第j个字符串向量的第k维度,k=1,…,n,i、j=1,…m。
其中,基于视频文本信息的语料库的相似度进行视频相似性估量采用集合类似算法,公式如下:
其中,Ti表示视频文本信息,Tj表示语料库信息,comm(Ti,Tj)表示文本信息和语料库信息出现相同字符串的个数,size(Ti)、size(Tj)分别表示视频文本信息和语料库信息的字符串集合的大小。
其中,基于视频文本信息的文字内容的相似度进行视频相似性估量采用利用Lin算法进行计算,公式如下:
其中,Ti,Tj是待比较的两个字符串,LCS(Ti,Tj)是两个字符串的最近祖先,IC(w)表示字符串T的信息量。
进一步的,根据背景文献主题词信息对视频的相似性进行估量,获取视频相似性估量结果分为根据背景文献主题词信息的集合相似度进行视频相似性估量,获取基于集合的视频相似性估量结果;根据背景文献主题词信息的词汇相似度进行视频相似性估量,获取基于词汇的视频相似性估量结果。
其中,根据背景文献主题词信息的集合相似度进行视频相似性估量,获取基于集合的视频相似性估量结果采用集合相似性算法进行计算,公式如下:
其中,Si、Sj为比较相近的两个主题词集合,tik、tjh分别是集合Si、Sj中的主题词,wup(tik,tjh)为两个主题词之间的wup相似度,maxh(wup(tik,tjh))是主题词tik与集合Sj中的所有主题词的wup相似度的最大值,maxk(wup(tjh,tik))是主题词tjh与集合Si中的所有主题词的wup相似度的最大值,size(S)表示集合的个数。
进一步的,根据视频评论信息对视频的相似性进行估量,获取视频相似性估量结果,是通过对视频评论信息进行处理,获取视频评论信息中的视频、用户、评论的关系信息;根据视频评论信息中的视频、用户、评论的关系信息对视频进行相似性估量,获取基于视频评论信息相似性估量结果。
对S15作进一步说明:
采用视频相似性综合估量算法构建视频相似性估量模型,根据视频相似性综合估量模型对相似性估量结果进行数据训练,获取训练结果;对训练结果进行综合加权处理,获取综合加权处理结果;根据综合加权处理结果获取视频相似性综合估量结果。
进一步的,图3是本发明实施例中的获取视频相似性综合估量结果的步骤流程示意图,如图3所示,该流程包括:
S151:构建视频相似性综合估量模型;
S152:根据视频相似性综合估量模型对相似性估量结果进行数据训练,获取训练结果;
S153:对训练结果进行综合加权处理,获取综合加权处理结果;
S154:根据综合加权处理结果获取视频相似性综合估量结果。
对S151作进一步说明:
首先构建Adaboost算法,采用Adaboost算法进行数据训练准备,用[0,1]区间上的实数值表示视频的相似程度,0表示完全不相同,1表示完全相同,数值越大相似度越高,对训练数据进行标记,完成训练数据准备,形成视频相似性综合估量模型。
对S152做进一步说明:
利用Adaboost算法依次对每个视频相似性度量值定制一个弱回归学习算法进行训练,具体包括视频文字信息内容、背景文献主题词内容和视频的评论的相似性,获取训练结果。
对S153做进一步说明:
将训练之后的相似性结果进行综合加权处理,其综合加权为平均加权处理过程,相似性结果的权值因子都是相同的,获取综合加权处理结果。
对S154做进一步说明:
根据综合加权结果的大小,进行排序,确定视频相似性综合估量的结果。
对S16作进一步说明:
根据获取视频相似性综合估量结果进行显示;是根据获取视频相似性的综合估量结果大小,从高到低显示给用户,方便用户进行查看。
图4是本发明实施例中的视频检索系统的系统结构组成示意图,如图4所示,该系统包括:
匹配模块11:用于采用用户的检索关键词与背景主词题集合相匹配,获取与检索关键词相近的主题词;
信息获取模块12:用于根据与检索关键词相近的主题词,获取主题词对应的视频中的视频文本信息、背景文献主题信息、视频评论信息;
相似性估量模块13:用于根据视频文本信息、背景文献主题词信息、视频评论信息对该视频相似性进行估量,获取视频相似性估量结果;
综合加权模块14:用于对该视频相似性估量结果进行综合加权估量,获取视频相似性综合估量结果;
显示模块15:用于根据获取视频相似性的综合估量结果按高到低显示给该用户。
优选地,该信息获取模块12包括:
视频获取单元:用于根据检索关键词相近的主题词进行视频检索,获取主题词对应的视频;
信息获取单元:用于根据视频获取视频文本信息、获取视频背景文献信息、获取视频评论信息。
需要说明的是,信息获取模块包括视频获取单元和信息获取单元,采用视频获取单元通过与检索关键词相近的主题词进行视频检索,获取检索到的视频,采用信息获取单元对这些视频进行处理,获取这些视频的视频文本信息、视频背景文献信息和视频评论信息。
进一步的,视频获取单元通过与检索关键词相近的主题词进行视频检索,获取检索到的视频,在信息获取单元中采用OCR技术和ASR技术对这些视频进行处理,获取的文字信息后,对这些文字信息进行冗余去除处理,将去除冗余的文字信息进行合并,获取到视频文本信息;根据获取到的视频文本信息,对该视频文本信息进行KEA++处理,获取视频主题词,采用这些视频主题词进行文献检索,获取背景文献信息,对这些背景文献信息进行KEA++和Lucene处理,获取背景文献主题词信息;在检索获取视频后,采用数据爬虫处理的方式对视频进行处理,获取该视频的视频评论信息。
优选地,该信息获取单元包括数据爬虫处理子单元;
数据爬虫处理子单元,用于对视频进行数据爬虫处理,获取视频评论信息。
优选地,该相似性估量模块13包括:
文本信息估量单元:用于根据视频文本信息对视频的相似性进行估量,获取视频相似性估量结果;
主题词信息估量单元:用于根据背景文献主题词信息对视频的相似性进行估量,获取视频相似性估量结果;
评论信息估量单元:用于根据视频评论信息对视频的相似性进行估量,获取视频相似性估量结果。
需要说明的是,采用文本信息估量单元对视频文本信息对视频的相似性进行估量,获取视频相似性估量结果;采用主题词信息估量单元对背景文献主题词信息对视频的相似性进行估量,获取视频相似性估量结果;采用评论信息估量单元对视频评论信息对视频的相似性进行估量,获取视频相似性估量结果;其中,文本信息估量单元、主题词信息估量单元和评论信息估量单元的执行顺序不限定,可以同时执行也可以分开执行。
优选地,该文本信息估量单元包括:
字符串估量子单元:用于根据视频文本信息的字符串的相似度进行视频相似性估量,获取基于字符串的视频相似性估量结果;
语料库估量子单元:用于根据视频文字信息的语料库的相似度进行视频相似性估量,获取基于语料库的视频相似性估量结果;
文字内容估量子单元:用于根据视频文本信息的文字内容的相似度进行视频相似性估量,获取基于文字内容的视频相似性估量结果。
需要说明的是,采用字符串估量子单元来根据视频文本信息的字符串的相似度进行视频相似性估量,获取基于字符串的视频相似性估量结果;采用语料库估量子单元来根据视频文字信息的语料库的相似度进行视频相似性估量,获取基于语料库的视频相似性估量结果;采用文字内容估量子单元根据视频文本信息的文字内容的相似度进行视频相似性估量,获取基于文字内容的视频相似性估量结果;其中,采用字符串估量子单元、语料库估量子单元和文字内容估量子单元进行视频相似性估量时,它们的估量顺序是不固定的,可以是同时进行或分开先后进行。
优选地,主题词信息估量单元包括:
集合估量子单元:用于根据背景文献主题词信息的集合相似度进行视频相似性估量,获取基于集合的视频相似性估量结果;
词汇估量子单元:用于根据背景文献主题词信息的词汇相似度进行视频相似性估量,获取基于词汇的视频相似性估量结果。
需要说明的是,采用集合估量子单元来根据背景文献主题词信息的集合相似度进行视频相似性估量,获取基于集合的视频相似性估量结果;采用词汇估量子单元来根据背景文献主题词信息的词汇相似度进行视频相似性估量,获取基于词汇的视频相似性估量结果,其中,采用集合估量子单元和词汇估量子单元进行视频相似性估量时,它们的估量顺序是不固定的,可以是同时进行或分开先后进行。
优选地,评论信息估量单元包括:
评论信息处理子单元:用于对视频评论信息进行处理,获取视频评论信息中的视频、用户、评论的关系信息;
估量子单元:用于根据视频评论信息中的视频、用户、评论的关系信息对视频进行相似性估量,获取基于视频评论信息相似性估量结果。
优选地,综合加权模块14包括:
构建单元141:用于构建视频相似性综合估量模型;
训练单元142:用于根据视频相似性综合估量模型对相似性估量结果进行数据训练,获取训练结果。
加权处理单元143:用于对训练结果进行综合加权处理,获取综合加权处理结果;
综合估量获取单元144:用于根据综合加权处理结果获取视频相似性综合估量结果。
需要说明的是,采用构建单元141来构建视频相似性综合估量模型;采用训练单元142来根据构建好的视频相似性估量模型对视频相似性估量结果进行数据训练,获取训练结果;采用加权处理单元143对训练结果进行综合加权处理,获取综合加权处理结果;采用综合估量获取单元144来根据综合加权处理结果获取视频相似性综合估量结果。
具体地,本发明实施例的系统相关功能模块的工作原理可参见方法实施例的相关描述,这里不再赘述。
在本发明实施例中,通过对视频库中的视频先进行预处理,获取视频库中每个视频背景主题集合,根据用户的检索关键词与视频背景主题集合相匹配,获取主题词,根据主题词进行视频相似性估量,最终通过综合加权的方式获取视频相似性的综合估量结果,根据获取的视频相似性的综合估量结果按高到低展现给用户,完成对视频的检索;有效的解决基于名称的视频检索中存在的检索内容不准确问题,提高用户的使用体验感。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。