音视频技术领域的干货每周一期。
新闻投稿:contribute@livevideostack.com。
在检测到真假包后,拥塞控制算法可以做的事情很少。即使拥塞控制算法得出结论,这是一个与拥塞无关的包,甚至根本没有包,拥塞状态机仍然需要恢复控制,拥塞控制算法只能等待undo。
https://zhuanlan.zhihu.com/p/406685516?utm_source=wechat_session&utm_medium=social&utm_oi=560076022800904192&utm_campaign=shareopn&s_r=0
本文为中科大&MSRA在DNN的CNN、Transformer以及MLP深入思考三大流派入思考。为了分析不同架构的特点,作者首先建立了统一的架构SPACH将Mixing在此基础上,作可配置型CNN、Transformer以及MLP多阶段优于单阶段,局部建模非常重要CNN与Transformer的互补性。基于挖掘特性构建了一种CNN与Transformer混合模型只需63M参数可以在ImageNet83数据集.9%的top1精度,优于Swin-B、CaiT-S36。
编码器的成功不仅需要很多钱,还需要耐心。AV定稿三年后,该庆祝了。
AV1 部署正在进行中,但后继编码器 AV2 探索已经开始,本文是 ViCue 对 AV2 research branch 介绍与性能对比测试。
本文来自 PCS 2021 SS1 第六次演讲主要介绍 Kulupana 基于决策树等人提出的一种 VVC 快速算法。
基于深度学习的计算机视觉在图像领域的应用越来越广泛,图像数量每天都在爆炸式增长。传统的图像编码器是针对人眼视觉而不是机器处理的。本文提出了基于神经网络的建议(NN)面向机器的端到端学习图像编码器(Image Coding for Machines,ICM)。
在智能分析应用场景中,多媒体数据压缩的测量标准不仅要考虑人眼感知评价标准,还要考虑智能分析任务下的感知评价标准。因此,相应的编码率失真优化策略也发生了相应的变化。然而,传统的编码框架不能适应复杂的优化标准进行自动率失真优化比特分配,通常只能通过启发性方法实现次优结果。为了解决这一根本挑战,我们突破性地解决了传统编码框架无法通过强化学习技术支持梯度回传进行端到端优化的问题,建立了基于分级强化学习的统一比特分配框架(RSC-Reinforcement learning based Semantic Coding),帧级码率分配优化分别自动进行(CU)为了适用于不同智能应用下的混合失真度量标准,决定最终的编码器优化参数选择策略。我们在这个计划中H.265标准参考编码软件进行验证,实验表明,在相同的任务精度下,我们的方案可以节省34.39% 到 52.编码率62%。
今年,网易云信发布了新一代大规模分布式传输网络WE-CAN(Communications Acceleration Network)。根据网易云信发布的信息,WE-CAN它不仅可以大大提高端到端的通信质量,降低通信成本,还可以应用于各种应用场景。LiveVideoStack最近采访了网易云信服务器首席架构师吉奇,和他讨论WE-CAN研发过程中遇到的背景、优势和挑战,以及音视频的未来发展趋势。
作为MPEG的创始人,Leonardo Chiariglione曾将MP3、DVD数字电视带入千家万户。他最近出版了第一本书:The history of MPEG and how it made digital media happen, 这本书讲的MPEG 32年的辉煌历史,以及如何通过标准化改变通信的本质。在领导MPEG 32年之后,Leonardo Chiariglione去年宣布关闭MPEG,并建立了新的组织——MPAI(Moving Picture, Audio and Data Coding by Artificial Intelligence)。据他介绍,MPEG 的精神会在 MPAI 中得以延续。最近Leonardo Chiariglione接受了LiveVideoStack在采访中,我们和他讨论了新书 、MPEG 和 MPAI。以下是面试稿的整理。
内容作为 App 新产品的促销活动越来越受到重视和投资,短视频是增加用户粘性和停留时间的利器。短视频的内容和体验直接关系到用户是否愿意长期停留。盒马还提出了全链接内容视频规划,以提高商品表达能力。
短视频作为内容的重要承载方式,是吸引用户的重点。短视频的内容和体验直接关系到用户是否愿意长期停留。因此,体验的优化尤为重要。我们分享了最后一篇文章 iOS 让我们谈谈短视频秒播优化。 Android 端的优化。
本文将介绍一些可以更好地应对各种攻击的隐形水印算法。
经常用到 ffmpeg中的sws_scale用于图像缩放和格式转换,该函数可以用各种算法处理图像。忙着偷闲,对ffmpeg的这一组函数进行了一下封装,顺便测试了一下各种算法。
随着跨所有平台系统速度的不断升级,预计5G智能手机的总容量将比4G超过30%-这类似于整个行业其他应用的增长。因此,多层陶瓷电容器(MLCCs)越来越受欢迎。但随着MLCC增加使用,MLCC的噪声问题越来越突出。特别是对于笔记本电脑、手机等消费设备,这些产品通常用于安静的环境中MLCC噪音给人的印象是产品质量差,所以很多终端用户无法接受。本文将提出避免这种影响的实际设计策略,并介绍一些商业声学MLCC解决方案。
从2010年到2020年的十年间,自动语音识别取得了显着进步。现在很多人每天都在使用语音识别,比如语音搜索查询、短信发送和语音助手互动。大多数人在2010年之前很少使用语音识别。鉴于过去十年语音识别状态的显著变化,未来十年我们能期待什么?Zoom杰出科学家,曾任职Facebook百度硅谷Awni Hannun最近写了一篇预测未来十年语音识别技术发展的论文(论文链接:https://arxiv.org/pdf/2108.00084.pdf)。在本文中,作者首先回顾了语音识别技术发展的时间线(2010-2020),然后给出了如何预测的相关经验,最后预测了未来十年语音识别技术的研究热点和应用热点。
在一篇被 ICML 2021 在收到的论文中,MIT 计算机科学博士生及其行业导师介绍了一种基于学习矩阵乘法的算法,该算法具有有趣的特点——所需的乘加操作为零。在来自不同领域的数百个矩阵的实验中,该学习算法的运行速度是准确的矩阵乘积 100 倍是目前类似的方法 10 倍。
快手研究团队 MMU(Multimedia understanding)联合清华大学研究人员提出了基于音频信号的新语言识别方法。该方法开发了一种新型的动态多尺度卷积网络结构,通过动态卷积核、局部多尺度学习和全局多尺度池技术捕获全局和局部语言 / 方言信息。目前,该论文已被国际顶级语音会议录用 Interspeech2021 所接收。
中国科学院自动化研究所深度强化学习团队IEEE Transactions on Neural Networks and Learning Systems上发表论文-Seg3DOD:基于目标分割和3D GIoU和L1联合损失的3D目标检测方法( Boost 3-D Object Detection via Point louds Segmentation and Fused 3-D GIoU-L₁ Loss)。相比于2D目标检测,3D目标检测的信息维度高、难度大、速度慢。本论文将2D的GIoU损失引入到3D目标检测中,提出了3D的GIoU损失,并与L1损失联合,提升了3D检测精度。同时引入了点云分割方法减少anchors个数,提升了3D检测速度。
字节跳动 - 智能创作团队提出了一种用于学习轻量级 GAN 的在线多粒度蒸馏算法 OMGD。该算法能够把 GAN 模型的计算量减少到最低 1/46、参数量减少到最低 1/82 的程度,并保持原来的图像生成质量。
基于神经网络的图像压缩算法发展迅速,主流的算法通常类似于自编码器,将输入图像变换到隐层变量并量化得到离散的隐层变量。为了利用离散隐层变量空域维度上的冗余,之前的工作利用超先验模型和上下文模型建立更高效的熵模块,可以得到更加有效的码率估计。但是之前工作中的熵模块其实有很大的拓展空间。一方面是隐变量全局的空域冗余没有被利用完全,另一方面,这种熵模型很难有效利用隐变量通道间的冗余。在我们的工作中,我们提出了分开熵编码的概念,利用时序性更强的熵解码过程,来实现基于因果上下文的隐变量预测。我们首先提出了因果上下文模块来利用通道间冗余,作为之前上下文模型的改进;我们然后提出了因果全局预测模块可以利用全局的相关性,实现不需要额外码流传输的全局预测。我们还采用了一种新的分组注意力层来改进变换网络的能力。实验证明,我们的方法在Kodak数据集上比VVC可以节省5.1%的码率(在PSNR指标衡量下)。
3D Human Pose Estimation(以下简称 3D HPE )的目标是在三维空间中估计人体关键点的位置。3D HPE 的应用非常广泛,包括人机交互、运动分析、康复训练等,它也可以为其他计算机视觉任务(例如行为识别)提供 skeleton 等方面的信息。
两年前,Facebook Reality Labs公布了一款超逼真的虚拟头像系统Codec Avatar,该系统基于容积摄影等3D动捕技术,可在AR/VR中动态渲染高度还原的面部表情和特征,与真人样貌十分接近。而且五官、眉毛、胡子、肤色等特征看起来足够细节、自然。
LiDAR Camera Calibration (LCC)系列,主要介绍激光雷达相机外参标定相关内容。本文主要介绍相关的开源代码和软件,主要包括target-based和targetless两类方法,每个方法对应标题后说明了方法的提出年份和开源代码的语言(c : c++, p: python, m: matlab)。
https://zhuanlan.zhihu.com/p/404762012
在本文中,我们不使用从三维激光雷达传感器获得的原始点云或从点云中生成或学习的特征,而是研究基于三维激光雷达的Range Image自主车辆的定位。我们将点云投影到Range Image中,并通过用三角形网格表示的地图的渲染视图来实现自主移动系统的定位。使用Range Image表示和用网格表示的地图有几个原因:圆柱形的Range Image是机械式三维激光雷达自然且轻量级的表示,而网格地图比大型点云更紧凑。这些特性使我们的方法能够在大规模环境中实现全局定位。此外,网状地图的范围图像的渲染可以使用计算机图形技术有效地进行。因此,Range Image和网状地图是实现基于LiDAR的全局定位的完美搭配。
活动推荐
,我们会以开源故事为主题,邀请4位开源项目维护者分享他们的观察与思考,以及项目进展等。同时,也请他们聊聊为什么搞开源?以及做开源最大的收获和困扰(阻力)是什么?
⏰ 活动时间:2021. 09.07 | 19:00
???? 观看方式:
1. 扫描上图加LiveVideoStack小秘书,进群与嘉宾交流
2. 关注LiveVideoStack视频号,记得预约~
如果您有兴趣想成为我们的 公开课讲师,请联系editors@livevideostack.com告诉我们,您想输出的内容。
插图源自Pexels