2022年7月27日,由中国互联网协会指导,微博、新浪新闻主办的“融合生态价值观,共创”新智者大会召开。中国互联网协会理事长尚冰、微博CEO王高飞分别为大会致辞。据了解,首届New Wise大会汇聚了中国工程院、清华大学、复旦大学等学术界的顶尖专家,以及阿里巴巴、360公司、微博等知名企业的创始人或高管。他们围绕数字化转型、人工智能安全、云技术、人工智能伦理和元宇宙等热门技术话题,与观众分享了他们的研究和思考。
在“智能驱动万物:AI加速万物互联的到来”主题中,微博新浪移动CEO首席运营官、新浪AI媒体研究院院长王微发表了题为“云以数字智能技术融合应用赋能微博复杂业务场景”的主题演讲,并与现场观众分享了云计算、人工智能、大数据等技术在微博业务中的融合应用。
新浪移动CEO微博首席运营官、新浪AI媒体研究院院长王微做了主题演讲。
以下是王伟先生的发言实录,经过编辑,略有删减:
早上好,女士们,先生们,媒体同仁们,正在看视频的观众朋友们!我是王微,今天很高兴代表新浪和微博和大家分享。首先,作为主办方,我要感谢主席、吴院士以及各位嘉宾对我们新Wise大会的大力支持。另外感谢正在看视频的媒体和观众朋友们对我们的厚爱。由于疫情原因,很遗憾这次不能线下和大家见面。我们只能通过视频报道智能信息时代AI发展的一些前沿技术和应用成果。
接下来,我会花一些时间和大家分享云计算、大数据、人工智能的前沿应用,并以微博的核心业务为例,向大家介绍我们在实践中是如何用技术创新来赋能微博中复杂的业务场景的。
在分享之前,我想回顾一下互联网的发展。
如果说PC互联网是网络世界的开端,那么移动互联网的兴起就是顺势而为,让网民将这些看不见的信息空收入囊中。
移动互联网使信息传播呈现出便捷性、即时性、垂直碎片化和云化的特点,使信息的传播效率、范围和影响发生了根本性的变化。此后,随着大数据、云计算、人工智能等技术与移动互联网的叠加和融合,我们逐渐过渡到智能信息时代。
我们说智能信息时代有四个特征——场景化、智能化、万物媒体化、以人为本。
首先是场景,体现在信息传播的精准性上。比如我们微博里的一个用户在环球影城玩。用户授权后,我们会根据用户的场景,将环球影城相关的新闻、资讯、游玩攻略推送给用户。
第二个智能,智能,体现在人与技术的全方位交互。通过数据建模、算法训练、机器学习等工作,实现人机协同的良性互动。
第三件事,万物皆媒体,万物皆媒体,主要体现在信息传播终端的变化上。现在我们获取信息的渠道不仅仅局限于手机。在智能家居、智能穿戴、车联网等方面,它已经成为我们获取信息的途径。这些智能设备制造商和智能汽车制造商自然成为媒体的组成部分。
最后说一下以人为本。其实这也是对以上三个特点的总结。技术再先进,最终也要落地人类社会,必须考虑终端用户的需求和体验。所以,以人为中心的AI发展道路,可以让技术真正成为我们的伙伴,帮助我们过上更好的生活。
如你所见,我的PPT里有一个超宇宙。从去年开始,元宇宙引起了广泛的讨论,比如数字双胞胎、数字人、XR、区块链科技等包括微博在内的很多公司也在做布局。在今天下午的超宇宙论坛中,我们还将听取企业家、投资者和其他超宇宙专业人士的意见。我认为目前的应用场景基于AI、区块链、XR等前沿技术已经反映了元宇宙的一些雏形。游戏、社交等领域都是超宇宙非常好的应用场景。相信这些应用场景会点燃大家参与元宇宙的热情。
我们目前正处于智能信息时代。新一代智能信息技术蓬勃发展,协同创新驱动的智能经济打破了原有的社会联系结构。与这些技术相对应,互联网的生态格局也发生了巨大的变化。
我们在微博中搭建的技术架构也是基于云计算,以大数据为依托,以人工智能为中心,用于处理微博中众多复杂的业务场景,比如微博中的社交关系、用户多样的兴趣、全民关注的热搜产品等。在这些复杂的业务场景背后,我们的技术RD团队对技术的创新赋能起着至关重要的作用。下面,我将围绕微博的三大核心业务:热点响应、算法推荐、内容安全,分享我们的一些探索和创新。
第一部分是和大家分享我们如何利用云计算架构和技术创新的优势,在短时间内聚集大量的计算能力,从而帮助微博从容应对热点带来的流量高峰。
我先介绍一下IT建设的发展过程。IT建设所依赖的基础资源经历了从服务器到云资源的发展过程,目前正在快速进入云原生阶段。
我们先来看看服务器阶段。这一阶段的IT建设特点是以硬件设备为中心,根据不同厂商设备和操作系统的差异定制业务应用。设备的安装调试、应用的部署和运维基本由人力完成,自动化程度低,缺乏统一的设备和应用管理能力。
在云阶段,将传统模式下分散、离散的设备统一起来,汇集计算、存储、网络等各种资源。然后,企业通过统一的虚拟化平台,为上层业务提供资源管理接口,实现资源管理能力的自动化,从而屏蔽一些基础设施的差异,增强应用的通用性。但是由于云平台软件的差异,这种虚拟平台无法在不同的云厂商之间共享能力,所以企业的应用部署仍然是以资源为中心的。
然后,在云的最初阶段,企业的重心开始从以资源为中心转向以应用为中心,包括应用敏捷交付、快速弹性、平滑迁移、无损容灾等等。因此,企业开始考虑如何将基础设施与业务平台融合,为业务应用提供标准的运营、监控和治理平台,将业务应用能力下沉到平台端,更好地帮助企业实现应用自动化。
目前微博正处于从云到云的转变过程中。通过技术创新,在资源快速弹性、容灾等方面取得了良好的效果。我们来看应用案例。
处理热点一直是微博业务面临的最大挑战。微博作为全民关注的社交媒体平台和舆论广场,是全社会重大事件的聚集地,很多事件成为全民关注的超级热点。这些热点事件通常是不可预测的。
以最近全民关注的“唐山事件”为例。事发当天的热点流量比日常高峰流量翻了一倍。
按照常规方案,微博除了购买处理日常流量的服务器,还要保留大量额外的服务器来应对这种突发的热点,会造成大量的日常服务器闲置,付出较高的成本。
如何用较少的资源成本应对突发热点流量?这是我们面临的第一个挑战。
然后随着微博用户量越来越大,微博热点也越来越多,用户也逐渐养成了在微博消费热点和“吃瓜”的习惯。更何况热点流量越来越高,热点流量峰值到达速度越来越快。
如何更快地在线部署扩展服务器是我们面临的第二个挑战。同时,只要扩展速度足够快,我们日常的服务冗余就可以降低到一个较低的水平,可以大大节约成本。
我们通过不断的技术创新和应用来应对这些挑战。
微博早就应用微服务+Docker容器化技术,提高服务运维效率,实现服务的动态伸缩。而且构建了基于“私有云+公有云”的混合云平台。通过该平台,抹平自有物理服务器与多个公有云资源之间的差异,实现高效的灵活部署和自动伸缩能力。
目前我们已经具备10分钟调度10000台以上的能力,以较低的成本获得足够的服务器来应对热点流量,从而解决了上面提到的第一个挑战。
此外,我们还建立了热点监测机制和热点联动系统,通过微博自主研发的微博Mesh技术,实现不同服务间的高效跨语言调用,提升整个服务的性能,增加联动扩展的效率。
从微博公有云到服务器获取、业务镜像部署、业务启动预热、线上流量承接的全流程,大大缩短了扩容时间,很好地解决了第二个挑战。即使面对冬奥会期间几个热点事件叠加爆发的影响,也能从容应对超级洪峰。
当然,在目前的技术架构下,调用公有云还是需要时间的,所以日常的常备服务池还是需要一定的资源冗余,可以为动态扩展争取一些时间。那么,热点来的越多,需要的冗余资源就越多。同样,如果能让扩展效率更高,相应的资源冗余度也能降低到更低的水平。
为了解决这个问题,我们采用了离线实时混合部署技术。通过结合CPU实时抢占式调度技术和容器化技术,实现微博服务的离线实时混合部署能力。部署池成为核心联机服务的临时动态资源池;日常流量时正常执行离线任务和服务。热流量到了,可以秒级承接核心业务的热流量。
上面讲了热点应对。接下来我想以微博的推荐业务为例,和大家分享一下在智能信息时代,我们如何利用新的AI技术来驱动平台业务的智能化发展。
首先我们来看人工智能的技术发展趋势。如果回顾机器学习的发展历史,可以看到AI的整体发展趋势是:训练数据的大海量化和多样化,AI模型的复杂化和通用化,计算能力的高效化和规模化。
看,屏幕上显示了四个相对具体的AI发展方向。
首先是多模态数据融合。随着5G网络等通信技术的快速发展,图片和视频的模态内容在网络内容中所占的比重越来越大,因此有必要进行模态融合。比如微博的文字、图片、视频同时多模态融合,可以更好的理解微博所说的内容。
其次,是非常大规模的图形计算。与其他机器学习模型相比,超大规模图计算有一个特殊的优势:它可以通过信息在网络中的传递,促进信息的流动、汇聚和整合。比如对于一个行为很少的冷启动用户,我们可以通过关注列表中的人以及这些人发布的内容,通过信息传播来推断用户的兴趣。
第三,我将介绍AI开发的哑铃模型。目前AI研发的重点,一是越来越大的超大型模型,二是模型小型化技术。众所周知,目前随着模型参数规模越来越大,模型效果越来越好,高精度模型还在不断增加。比如2018年Google的Bert刚出来的时候,模型参数规模是3亿,不算太大,但是后来这个数字迅速增加。Open AI开发的GPT2模型参数规模15亿,GPT3模型参数规模1750亿。2021年,谷歌发布了带参数的Switch Transformer。另一方面,虽然模型越大,效果越好,但是因为模型太大,有时候在实际中无法应用。因此,RD的另一个重点是将这些大型模型小型化、轻量化,比如模型提取、模型剪枝等技术,也是业界特别关注的。
另一个趋势是AI模型从专门化模型走向通用模型。Google在2021年下半年发布的Pathways模型框架首次提出了这一思想,希望通过构建一个通用的大模型,达到“一个模型可以做成千上万件事情”的目标。具体思想是在输入不同任务的数据后,通过路由算法选择神经网络的一些路径到达模型的输出层。不同的任务既有共享的参数,也有唯一的模型参数。这样就可以实现“一个模型可以做成千上万件事情”的目标。
说完行业趋势,我来介绍一下我们的微博推荐业务。微博环境下的推荐系统不仅具有鲜明的微博特征,而且面临复杂的业务场景。这种特点和复杂性主要体现在三个方面:
首先是无处不在的社会关系。我们知道,微博作为中国最大的社交媒体网络,拥有5.82亿月活用户,构建了各种复杂的网络。
其次,微博内容具有时效性强、多样性高的特点。很多网络事件都是在微博第一时间引爆的,而微博作为一个综合性媒体,覆盖了几十个优质的垂直内容。
第三,是多元化场景的推荐需求。微博里我们有很多场景,比如关系流、热点流、视频流等。,都有很强的推荐需求,我们需要把他们感兴趣的“千人千面”内容分发给用户。
那么,面对复杂的商业场景,我们如何应用AI和大数据为推荐系统赋能呢?微博推荐系统由三部分组成:内容理解、用户理解、推荐系统。让我详述一下。
首先我们来看看在微博内容理解方面做的一些工作:要理解一条微博在说什么,仅仅理解文字内容是不够的。必须采用多模态理解技术来整合博文、图片、视频等媒体信息。结合微博的特点,训练出自己的微博多模态预训练模型,通过“比较学习”这种自我监督的学习方法进行多模态预训练。
下面以图中所示的例子简单介绍一下:大家可以看到,我们可以利用微博自己的‘话题’来自动构造训练数据。比如,我们可以把文字为“训练中的拉赫福德”的微博作为正例,随机选取话题不同的微博作为反例,这样就可以自动构造训练数据。对于某一条微博,文本内容采用Bert编码,图像和视频内容采用ViT编码,然后通过融合子网络进行信息融合,形成微博的嵌入编码。这是一个预培训过程。经过预训练后,可以使用学习良好的微博编码器对新的微博内容进行多模式编码,形成嵌入,可以应用于推荐等下游任务。
在微博的用户理解方面,我们采用了超规模的图计算来更好的理解用户的阅读兴趣是什么。微博的社交媒体属性天然匹配大规模的图计算,可以表达用户之间的关注关系、用户与博文的评论和赞等交互行为。我们把用户和博文作为图中的节点,通过用户之间的关注关系、用户和博文的阅读和评论等交互行为来构造图中的边,构建一个10亿节点100亿边的超大型图。通过大规模图计算中的信息传播、聚合和整合,形成代表用户兴趣的嵌入向量,可以更好地理解用户兴趣。
当我们理解了微博在说什么,了解了微博中用户的兴趣,我们就会通过微博推荐系统,把优质的微博亲自分发给感兴趣的用户。我前面提到过,微博在多样化的场景下有推荐需求,比如推荐流、关系流、视频流等。每个场景都需要个性化的用户体验。
那么,在这种复杂的场景下,如何构建一个高效的推荐系统呢?这里我们采用了多场景建模的方法。我们希望只建立一个推荐模型,用它来服务多种场景。那么如何表达场景之间的共性和个性呢?我们在场景之间共享网络参数,或者场景拥有私有的网络参数来反映场景的共性和个性。比如看这个模型图,在模型的底层特征输入层,网络中间是“专家子网络”的一部分。这些网络参数由所有场景共享;而其他子网参数对于特定场景是唯一的。这样可以兼顾场景的共性和个性,可以通过一个模型服务多个场景,节省模型资源。
以上,我分享了我们的技术创新对热点响应和算法推荐的赋能。接下来我想介绍一下微博在内容安全方面做的一些技术创新和应用。
结合微博自身复杂的业务场景,开发了图神经网络的分布式训练框架,结合比较学习,对用户特征和社交图网络进行编码,学习用户的高阶特征。由于海量标注数据的代价非常高,我们基于无监督的方法学习用户嵌入,建立用户图网络模型。然后基于小规模标注数据进行监督和微调训练,支持离线挖掘和实时预测,实现潜在风险信息的主动预警。
此外,在日常运营中,微博严格执行网络安全法、数据安全法、个人信息保护法等法律法规及其他相关管理规定,投入大量资源清理整治有害信息,净化网络环境。随着治理的深入,黑灰产也呈现出激烈对抗的态势。违法图文信息更加多样,手段更加隐蔽,单一模式难以判断有害信息。因此,我们必须利用NLP模型和CV模型,通过图形多模态算法深度融合图片和文本的特征,再通过特征融合网络进行编码,做出及时有效的内容合规性评价,从而有效控制黑灰产的违法行为。
此外,为进一步落实2022年“清朗”系列专项行动相关要求,全面整治饭圈、踩战、网络暴力等问题。依托微博文本海量语料库,自行开发预训练模型,对网站内数据进行深度语义理解和情感分析,建立性别对立、低俗、网络暴力预测识别能力,保护可能受到言论攻击的用户,帮助国家和社会构建安全、文明、和谐的网络生态环境。在这里,我想补充一下微博对技术的态度。有人说算法没有价值,但我们相信算法的价值反映了掌握算法的人的价值。所以多年来,我们一直在践行这个价值观,和资深运营团队、审计团队一起训练AI,努力让我们的算法有正确的价值观。
以上,我们谈了微博在利用云计算应对突发热点、利用AI和大数据推荐算法、赋能内容安全等方面的一些探索和成果。最后,回到大会的主题“融合生态价值观,共创”,我想说,科技发展的速度有时会超出我们的想象。我们曾经想象的未来已经在眼前了。无论是互联网企业还是传统企业,都应该在万物互联的格局下重新思考未来的发展战略,用AI的思维去思考,用更加开放的心态去与新技术融合,让云计算、AI、大数据等技术成为我们发展的基础背景,为社会创造更大的价值。
这就是我分享的全部。感谢您的观看。最后,预祝大会圆满成功。谢谢大家!
免责声明:本平台仅供信息发布交流之途,请谨慎判断信息真伪。如遇虚假诈骗信息,请立即举报
举报