燃文小说吧

手机浏览器扫描二维码访问

第24部分(第2页)

当时我们组叫媒体计算组,主要从事多媒体计算,包括图像、视频、及音频的内容分析和检索。我们组的学术领头人是张宏江博士,多媒体分析的先驱之一。由于我还具有一些信号处理和语音处理的背景,而且对音频信号颇感兴趣,于是音频和音乐内容分析及检索便成为我的主要研究方向。

在另一个研究员江灏的工作基础上,我开展了音频分类分割的工作。其主要目标是将一个音频片断(比如影片中的音轨),按照其内容分为语音、音乐、背景声音等等。这是音频分析的第一步。这个项目帮助我很快地熟悉了机器学习和模式识别的算法。

好玩的哼唱搜索

经过一段时间的学习和工作,我逐渐熟悉了研究的方法论。哼唱搜索(query…by…humming)便成为我第一个独立研究项目。在传统的搜索引擎中,大家都习惯于用文本或关键字去搜索歌曲,比如用歌手或者歌名。但是在很多情况下,你有可能忘记了或者根本不知道一首歌的歌手和歌名。那么,还有什么办法把那首歌找出来呢?哼唱搜索便提供了另外一种搜索方式:哼一段旋律,通过旋律匹配把歌找出来。

这个项目的起因其实就是张宏江的一个问话:“能不能简单哼一下就把一首歌给找出来?”“ 挺好玩。”当时第一个感觉就是这个问题很好玩。仔细一想,其实这也是一个现实的问题。比如说我自己(不少人也是)经常记不清歌名,但还能哼两句主旋律。如果我们真能有一个哼唱搜歌的系统,说不定真可能派上用场。同时,这还是一个独立、完整的系统,设计开发这样一个系统对我也是一个有益的锻炼。于是,我和一个实习生由红开始了这个项目。

我们首先翻阅了资料,发现哼唱搜索其实在1995年的ACM多媒体大会上就由Asif Ghias博士(康奈尔大学)等提出并给出了一个解决方法。以后又有些研究员陆续提出了一些改进方法。但是,我们发现以前的方法还是有不少的局限性。比如,旋律本来是一个音符序列,包括每个音符的音高和时长;但在很多方法中,旋律被简化为只包含反映下一个音符相对于上个音符上升、持平、下降的字符串。有些方法为了加快搜索速度,要求只能哼唱歌曲的起始部分。还有些则为了避免哼唱节奏的影响,要求用户使用一个节拍器。这都限制了这些方法的可应用性。我们觉得里面还有许多方面可以提高。

我们把系统分成了三个部分:数据库处理(从音乐中提取旋律),哼唱处理(从哼唱中提取旋律)和旋律匹配。其中的关键问题是旋律表征、旋律提取、和旋律匹配算法。鉴于以前对旋律表征过于简化,除了以前使用的上升下降等量化数据,我们还保持了旋律中每个音符的音高和时长作为更精确的表征。在旋律匹配过程中,我们采用了两步法以加快搜索速度:先用简化旋律作一初选,然后再用音高和时长,通过音高匹配模型和节奏匹配模型,来更精确地寻找相似的音乐。

歌曲大搜索之哼哼也可以 芦烈(2)

经过半年时间的努力,我们终于完成了算法,建立了一个演示系统。算法在测试集上的性能也挺不错:在搜索结果中,前五位内能找到正确歌曲的比率(hit rate)达到了80%。然而,虽然算法取得了不错的结果,回想起来,还是有不少地方可以提高。比如我们所用的开发集及测试集都比较小,这样可能并不能完全反映算法的性能。我们还发现我们在分析哼唱数据将其转化为旋律时,使用了不少启发式规则,一些参数的设置过于局限于开发集而失去了通用性,使得这个系统对某些人工作很好,但对另一些人却不好。而且,要成为一个真正能为大众使用的产品,我们还缺少一个关键触发点:一个好的应用场景。对于最重要的一个应用场景——网络音乐的搜索,哼唱搜索还无法胜任。这是因为目前的算法对 mp3等音频数据还无法有效处理来提取旋律,我们使用的数据库主要基于MIDI 数据。但是不管怎样,这是一个完全从零开始的项目,我在整个过程中,从查阅资料、设计模块、设计算法,到编写代码、数据收集、算法评价及相应改进,都得到了不少的锻炼,对研究方法也更有心得了。

由于其他项目的开展,哼唱搜索暂时告一段落。我想,其实它也是在等待一个更好的机会。

忽现转机

几年后(2006夏)的某一天,搜索技术中心(STC)的开发项目主管谢育涛突然跟我联系,说他正好看到张贴在研究院中有关哼唱搜索的海报,要跟我讨论一下将其用在手机搜索上的可行性。谢育涛主要负责的是手机搜索,那时他正在跟位于深圳的Windows Live Mobile China (WLMC) 做图铃搜索,也就是提供高效算法来搜索手机图片和手机铃声。除了传统的文本搜索之外,他们还在寻求一些与其他搜索产品不同的新功能。哼唱搜索可能是一个好的选择。

为了寻求哼唱搜索手机铃声的可行性,我们同相关的同事进行了多次讨论。最后,我们觉得哼唱搜索和手机铃声下载将是一个完美的结合:

首先,手机铃声的下载是一个相当大的市场。有资料显示2005年全球手机铃声业务达到令人惊讶的50亿美元。

第二,手机作为一个便携式手提设备,用键盘输入文本并不太方便。但是,声音对手机来说却是一个非常自然的输入方式,因为手机本身便是用来做声音交流的。哼唱是声音的一种。

第三,手机铃声通常有多个版本以便用于不同的手机型号,而MIDI版本的手机铃声是最基本的。这样,只要将MIDI同其他格式关联起来,旋律提取便不再是个问题。

第四,通过手机下载手机铃声是个一步式的解决方案。不再需要通过电脑等中介系统。

同时,我们也发现在这个应用场景下,直接使用我们以前的方法效果并不理想。新的问题带来了新的挑战:

第一,在以前系统中,哼唱是通过麦克风录制的,质量比较好。在现在的应用场景下,我们需要用手机录制。同时,我们必须还要考虑到录制时引入的背景噪声(用户可能在大街上使用这个系统),还有由于无线传输而可能引起的信号畸变。

第二,我们将要面对一个大的多的数据库(通常手机铃声库可能包含1…10万首铃声)。这就要求我们更进一步的提高搜索精度和速度。利用一切可以使用的信息,优化旋律模型和节奏模型。同时需要建立一个更大的开发集和测试集,来优化参数选择和性能评价。

当时,由于媒体计算组的重组,我加入了语音组继续从事音频分析和检索的工作。语音组研究项目负责人Frank Seide和语音组带头人宋謌平博士也非常支持这个项目。于是我们?

热门小说推荐
鹿鼎风流记

鹿鼎风流记

少年附身韦小宝,和康熙做兄弟,唬弄皇帝有一手绝色美女尽收,色遍天下无敌手!睿智独立,诱惑惊艳的蓝色妖姬苏荃花中带刺刺中有花的火红玫瑰方怡温柔清新纯洁可人的水仙花沐剑屏空谷幽香,善解人意的解语花双儿倾国倾城,美丽绝伦的花中之王牡丹阿珂诱惑惊艳美艳毒辣的罂粟花建宁空灵纯洁娇艳精怪的山涧兰花曾柔...

师娘,借个火(师娘,别玩火)

师娘,借个火(师娘,别玩火)

师父死了,留下美艳师娘,一堆的人打主意,李福根要怎么才能保住师娘呢?...

天美地艳男人是山

天美地艳男人是山

从农村考入大学的庾明毕业后因为成了老厂长的乘龙快婿,后随老厂长进京,成为中央某部后备干部,并被下派到蓟原市任市长。然而,官运亨通的他因为妻子的奸情发生了婚变,蓟原市急欲接班当权的少壮派势力以为他没有了后台,便扯住其年轻恋爱时与恋人的越轨行为作文章,将其赶下台,多亏老省长爱惜人才,推荐其参加跨国合资公司总裁竞聘,才东山再起然而,仕途一旦顺风,官运一发不可收拾由于庾明联合地方政府开展棚户区改造工程受到了中央领导和老百姓的赞誉。在省代会上,他又被推举到了省长的重要岗位。一介平民跃升为省长...

超凡世界

超凡世界

地球少年江云卷入了一个神秘的超凡世界之中,获得了超凡之力,并且开始在地球以及一个个超凡世界,开启了自己追逐巅峰的超凡旅程。VIP。全订阅可入,要验证。普通。(ps已经完本神卡...

我的极品老婆们(都市特种兵)

我的极品老婆们(都市特种兵)

一个被部队开除军籍的特种兵回到了都市,看他如何在充满诱惑的都市里翻云覆雨...

修真位面商铺

修真位面商铺

成仙难,难于上青冥!修真难,没有法宝没有丹药没有威力巨大的符箓,没有强悍的天赋。但是自从有了位面商铺就不一样了,有了位面商铺一切都有了。什么,修真界最普通的洗髓丹在你那里是绝世神丹!什么,你们那个位面遍地都是各种精金矿物,精铁灰常便宜!前世走私军火的商人,今生在修真界同样要将商人当做自己终生的追求。我只是一个做生意的,修炼真仙大道只是我一个副业。成为位面商铺之主,横扫诸天万界。商铺在手,天下我有!...