微软的梦工场最新章节_第26部分第2页_微软的梦工场全文免费阅读

手机浏览器扫描二维码访问

第26部分（第2页）

当时，在跟我们的研究主管、视觉计算领域的专家沈向洋博士讨论中，我们认识到：既然，视频压缩技术已经相当成熟，想要从这方面寻求突破几乎不大可能，那么是否可以结合视觉技术从数据本身来寻求解决呢？要进行实时通讯，使得你讲话的意思能够被对方了解，除了语音之外，表情也很重要。那么表情怎么来传递，我们就想到了用线条的方法来传递，想着用线条的方式带宽是不是就可以占用得少一些。

当时我们注意到，在实时视频通信中，人们对图像的要求，并不像在定睛观看一幅图画时那么高。人们不太注意形象，而更注重表情；不太注意细节纹理，而更注意整体轮廓。从这个意义上而言，在视频通信中，通话者大脑真正感兴趣的有效信息并不多，所以通过提取通话者的表情轮廓和线条等简单信息，就可以有效表达一帧视频的绝大部分内容。如果只压缩和传输这部分用线条表示的信息，将会大大降低计算和通信的负荷。

静态“素描”一帧的线条虽然看上去依稀可辨，但是如果要实现由静至动，让多帧静态“素描”连续动起来，就会出现很多问题。首先，在光线强度常易变化等条件的影响下，两帧之间的过渡非常不平稳、闪烁不定。另外，用线条表示出的通话者头发，因为其发迹覆盖处没有黑色填充而显得非常的不自然。在这种情况下，我们研究组就想到用“二值视频”技术来解决这两个问题：在0…256之间确定一个亮度的阈值，图像像素灰度值高于该值则为白，低于该值则为黑。非黑即白（一般用1和0表示）。这种技术不只区分出了线条，而且内部什么地方是白，什么地方是黑，都可以填充进去，这样头发的问题就解决了。

“二值视频”技术大大降低了视频的原始数据量，而且传输中的连贯性较好，可是其间产生的噪声还是比较多。后来我们又想了一个更为巧妙的办法，这也是“微软肖像”中的核心技术：在区分黑白的时候，不是设定一个单一的阈值来比较，而是设定一个阈值带来比较。阈值带有一定的宽度范围。如果图像像素的灰度值在这个阈值带的上限以上，我们能够很明确地说它是1；如果在它的下限以下，我们也可以很明确地说它是0。但是如果图像像素的灰度值处于这个阈值带之内怎么办呢？我们的处理办法是根据它同一帧内周围的像素和它前一帧相应点周围像素的情况来确定。简单地讲，比如前一帧该点位置是黑的，这一帧该点位置也就是黑的。这样两帧播放起来就连贯了。根据这个原理当时，还是实习生，现在已经是副研究员的许继征给出了相应的算术编码解法。

填补学术界空白

总的来说，我们组投入了较大的精力于“二值视频”技术的摸索和创新，也通过一系列的开创性研究填补了学术界的空白，而且始终居于世界领先地位。同时，我们还创立了一种新型的视频形态——“二值视频”。

大家知道，国际上静态的彩色图像有JPEG图像，动态的彩色视频有MPEG视频，静态的黑白二值图像有JBIG图像，而我们创立的可称为动态的黑白“二值视频”。后来，在“二值视频”的基础上，我们又进一步推出了“四值视频”与此同时，随着带宽条件的不断改善，我们也试着用“第二条腿”走路——在确定了黑白版的微软肖像视频的基础上，我们组又开始向“彩色版”挺进。

从黑白版的“二值视频”到“四值视频”，再到彩色视频，随着对传输速度和带宽要求的递增，“微软肖像”为用户提供了可以满足不同网络条件而可供选择的软件类型。这三种技术从视频的效果来看，应该说已经包含了所有的功能。近一两年中，我们所做的工作主要是为增强这个可视通信软件的一些其他辅助功能，比如能够更多地支持不同类型的摄像头，能够增强连接性，或者拍张照片，可以传送文件等。

“微软肖像”软件是很多人团结协作的成果。当时是软件工程师，现在是开发主管的陈刚，编译出了第一个可运行的软件版本。其后又有余可曼、唐健、和林庆维接手这个软件的制作。很多访问学生如周涵宁、王勇、王凯波、王利杰、贺铁林、林云峰、吕江波等都对算法等各方面的研究做出了贡献。当时的研究主管沈向洋博士、李世鹏博士、张亚勤博士等对这个项目给予了大力支持。

虽然目前“微软肖像”还没有被正式运用到微软的产品中，但是这项技术却通过各种各样讨论掌上电脑和手机的社区网站不断被世人认识，并通过资源共享真正让用户体验到其中的交互乐趣。2001年，“微软肖像”技术在国际多媒体大会上向国际学术界宣布它的诞生。同年8月8日，当USA　Today（《今日美国》）的记者第一次通过媒体的声音公开向全世界读者介绍“微软肖像”的时候，我们从来没有想象过这项技术会受到如此的青睐和好评。后来随着包括《麻省理工学院技术评论》等重量级媒体对这项技术的报道和千千万万热心用户对我们软件的反馈之后，我们坚信了”做真正满足用户需要的产品才是创新研究的根本”这一信条。我想这也是我们从事计算机基础的研究工作者应该谨记的信条。

作者介绍：

李江，1999年1月加入微软亚洲研究院任研究员，2004年任多媒体通信组主任研究员。之前他曾任浙江大学物理系副教授。他于1989年获清华大学物理系学士学位，1992年获浙江大学物理系光学硕士学位，1988年获浙江大学数学系应用数学博士学位。他做研究项目看重对人的意义和潜在的商业模式，做事讲究简单有条理，平时爱看书、看电影及外出旅游。

让语音技术改变人们的生活　余鹏

在MSRA的办公区墙上，贴着比尔·盖茨曾经说过的一段话：“每天清晨当你醒来的时候，都会为技术进步给人类生活带来的发展和改进而激动不已。”这句话也诠释了MSRA这10年来成就的动力源泉――用技术改变人们的生活。

我在清华大学的博士课题是语音识别，毕业后进入MSRA的语音组。语音技术经过多年的发展取得了长足的进步，但是在应用领域，却面临着一个尴尬的局面：一些在实验室的理想环境下表现完美的技术，很难找到现实的应用；而在现实生活中，目前语音技术的稳健性和适应性却又达不到应用场景的需求标准。

如何找到连接技术和应用的桥梁，是我们语音组的研究员考虑最多的问题。

此路不通？换条道！

2003年春天，正是北京SARS肆虐的日子。也就是在那时候，我们开始了语音识别用于音频检索的研究。我们选取的第一个应用是搜索个人的语音邮件，针对的场景是10小时以内的语音数据。

最开始，我们直接用语音识别系统将语音邮件转换成文字来搜索。但很快发现即使最好的语音识别系统，针对语音邮件的准确性也仅仅只有70％左右，而这种情况下，搜索的准确性无法令人满意。为了解决这一问题，我们提出了基于词格的音频检索方法，简单的说，就是除了在语音识别的首选结果上搜索外，加入多候选识别结果的信息。比如，语音识别的第一候选是“研究院”，但同时给出许多次优候选，如“研究员”。通过索引这些多候选结果，搜索的准确性有了大幅度的提高。

但我们很快发现了另一个问题，常用的语音识别系统依赖于一个事先选取的词典，而不在词表中的词是不可能被识别出来的，这在语音识别中称之为“集外词”问题。对于音频检索，这个问题变得尤为严重，因为很多集外词都是可能被搜索到的关键词。针对这一问题，我们采用了基于音素的语音识别系统，将音频内容和用户关键词都分拆成音素来匹配，取得了很好的效果。

在那一年的Director　Review和第二年的TechFest，我们演示了这一技术，得到了广泛的好评。

跨越“100小时”这座大山

在我们演示了基于音素的音频检索技术之后，得到最重要的一条反馈是，这一技术要做到实用，必须解决数据集的尺度问题。在我们的解决方案中，搜索时间和数据集尺度是成正比的，这称之为“线型搜索”。在数据集小于10小时的情况下，搜索的时间在2秒以内。但当数据集到了100小时的时候，搜索时间就不可接受了。而100小时，是一个实际应用的基本要求。

其实在文本搜索领域，通过基于词的倒排索引，海量数据集的搜索早就不成为难题。但在我们的系统中，因为采用音素为基本单元，使得简单的倒排毫无用?

热门小说推荐

斗罗大陆

唐门外门弟子唐三，因偷学内门绝学为唐门所不容，跳崖明志时却发现没有死，反而以另外一个身份来到了另一个世界，一个属于武魂的世界，名叫斗罗大陆。这里没有魔法，没有斗气，没有武术，却有神奇的武魂。这里的每个人，在自己六岁的时候，都会在武魂殿中令武魂觉醒。武魂有动物，有植物，有器物，武魂可以辅助人们的日常生活。而其中一些特别出色的武魂却可以用来修炼并进行战斗，这个职业，是斗罗大陆上最为强大也是最荣耀的职业魂师　　当唐门暗器来到斗罗大陆，当唐三武魂觉醒，他能否在这片武魂的世界再铸唐门的辉煌？他能否成为这个世界的主宰神...

燃文小说吧

第26部分（第2页）

斗罗大陆

风流英雄猎艳记

魔师逆天

张三丰弟子现代生活录

超凡世界

师娘，借个火（师娘，别玩火）