资讯详情

音视频技术开发周刊 | 252

音视频技术领域的干货每周一期。

新闻投稿:contribute@livevideostack.com。

d5650cf1ec2af31abaf37dfc27f36848.jpeg

当视频流媒体席卷通信世界时,内容创作者和流媒体服务提供商需要嵌入自己的网站,以保持和改善用户增长HTML5视频播放器。在本文中,我们将来会了解市场上可用的内容HTML5视频播放器。1993年6月24日,Severe Tire Damage基于互联网的直播表演MBONE),该表演对互联网和音视频技术的发展具有里程碑意义。Severe Tire Damage也成为历史上第一支在互联网上直播的乐队。随着硬件设备和流媒体技术的不断发展和更新,屏幕显示技术也在发展。今天,让我们跟随历史的步伐,回顾屏幕显示技术发展的重要里程碑。视频广播控制系统作为开幕式的核心控制系统之一,在北京冬奥会开幕式上发挥了重要作用。本文简要介绍了2022年北京冬奥会的视频广播控制系统。打开电脑上的在线秒表,开始计时。两台待测设备固定在屏幕前。通话后,稳定一段时间后,拿起手机拍照,即延迟。在这里拍照10次。计算差值后,取平均值,即延迟。我们在上一篇 「MAC OS」 搭建平台 QT 和 FFmpeg 本文主要介绍如何开发环境 「Linux」 平台下搭建 QT 和 FFmpeg 开发环境。本期我们继续讨论VideoEditor其中一个亮点是导出视频。毕竟我们编辑视频,添加各种好看有趣的特效和音乐,都是为了导出视频。导出视频有四个重要点。面对一个大或没有尝试过的项目或内容,恐惧和懦弱经常出现。这时候就要明确目标,把握主线,运用结构化思维,拆解过程,然后逐步实现每一个环节,解决每一个环节的问题。这也是玩怪升级的过程。让我们一起享受这个过程。

RTX 30 系列 GPU:通过 AV1 开启新时代视频内容解码NVIDIA宣布RTX 系列支持AV1通过硬件级解码启用 AV1 高达可以解码处理 8K 的 HDR 流。AV1 的效率比 H.264 高 50%意味着只有一半的互联网带宽可以传输相同的视频质量, AV1 还支持 10 位编码。

https://www.nvidia.com/en-us/geforce/news/rtx-30-series-av1-decoding/

AOM邮件组的生态开发 2022Q2AOM联盟(Alliance for Open Media)生态开发组Q邮件发布包括最近的行业信息,AV1进展、AV1资源等。

https://storage.googleapis.com/downloads.aomedia.org/assets/pdf/AOMedia Decoder - Q2 2022 Non Members.pdf

胶片颗粒存在于许多电影和电视中。虽然本质上是噪音,但作为创意内容的一部分,我们希望在编码过程中保留胶片颗粒。AV1 提供胶片颗粒合成的编码工具 AV1 呈现标准的一部分。AMD RDNA 3架构支持AV1编解码AMD 分享相关支持 Radeon RX 7000 显卡的 RDNA 3 确认和支持架构的新细节 AV1 编解码器、DisplayPort 2.0 接口、5nm 高级工艺技术 GPU 封装、图形管道优化、下一代 Infinity Cache,以及比 RDNA 2 提高 50% 上述能效。

https://gadgettendency.com/even-more-incredible-gpu-frequencies-displayport-2-0-av1-and-more-amd-shared-details-about-the-rdna-3-architecture/

NVIDIA 在 FFmpeg 中实现 AV1 VDPAU 硬件加速NVIDIA 为 FFmpeg 多媒体库为使用最新一代提供支持 NVIDIA RTX 30“Ampere”GPU 时能够通过 VDPAU API 来利用 AV1 GPU 视频解码加速。

https://www.phoronix.com/scan.php?page=news_item&px=NVIDIA-AV1-VDPAU-FFmpeg

PCM(Pulse Code Modulation)也称脉码编码调制,PCM声音数据没有被压缩,它是一个标准的数字音频数据,由模拟信号采样、量化和编码转换成。语音合成技术作为人机交互的重要组成部分,其最终目标是达到与现实生活相当的合成效果。高性能语音合成逐渐成为未来的趋势。高性能语音具有节奏自然、情感风格丰富、音质清晰三个显著特点。因此,我们探索了算法上的这三个特点,形成了第五代语音合成技术。扩音系统自使用以来,经常伴随着呼啸问题,极大地影响了用户的使用体验。呼啸的产生会掩盖正常的声音,给人一种不好的听觉感觉。而且,呼啸频点的能量很高,甚至会严重损坏会议上的扩音设备。因此,我们需要抑制呼啸。声波比电磁波慢,但在高速计算和通信的世界里,这并不是一件坏事。现在,哈佛大学SEAS研究人员首次演示了芯片上电场对声波的控制和调制。

本文简述了 Web 解码方案了解码方案的现状 Chromium 浏览器实现 & 完善硬解过程中遇到的问题和实现原理,并在文章末尾添加测试结果。预编译版本供参考,希望解决 FrontEnd 苦 HEVC 问题已久。本视频以环路滤波模块为例,介绍了从文档到软件再到硬件的开发和学习思路,主要包括开源硬件IP、基于硬件仿真PYNQ的XK264演示方案等内容。让我们一起学习这篇文章。 Android 端的 rtmp 推流必须经过几个阶段:包括收集、处理、编码、推流等,让我们来看看。H.264 又称为 MPEG-4 , 它是一种面向块的视频编码标准,基于运动补偿,是市场上最常用的视频编码格式。本文旨在总结知识,并为刚刚开始音频和视频的学生提供参考。在音视频工程示例栏中,我们将通过拆解收集 → 编码 → 封装 → 解封装 → 解码 → 并实现渲染过程 Demo 来介绍一下如何在这里 iOS/Android 开发平台上的手音视频。 Android 第十篇:Android 视频解封装 Demo。B该站每天收到数十万视频提交,消耗大部分带宽资源。B在保持图像质量不变的前提下,站将重新转换视频,去除数据冗余,以提高压缩比,降低代码率,避免浪费带宽资源。为了提高视频转码的性能,B该站开发了一种图像质量可控的场景自适应转码系统。

3GPP解决移动通信相关问题,满足传输内容和交互方式快速发展引入的新网络需求。GPP以制定的标准规范为准Release作为一个版本的管理,一个版本的制定将在一到两年内完成,目前已经发展到Rel-18。RTSP作为应用层协议,它提供了一个可扩展的框架,使流媒体受到控制点播变得可能,它主要用来控制具有实时特性的数据的发送,但其本身并不用于传送流媒体数据,而必须依赖下层传输协议(如RTP/RTCP)所提供的服务来完成流媒体数据的传送。2022年6月13日-24日,国际电信联盟无线电通信部门5D工作组召开第41次会议,ITU-R WP5D如期完成了《未来技术趋势研究报告》的撰写。我国IMT-2030(6G)推进组作为我国6G产学研用各方研究与合作的主要推进平台,为报告撰写贡献中国智慧, 并承担报告重要章节的编辑人。TCP 流控问题两则两个基础的问题,可作为面试题目:1. TCP window scale 最大是多少?为什么?2. TCP单流有吞吐上限吗?如果有,是什么?如果没有,为什么?

https://zhuanlan.zhihu.com/p/533881330

TCP 为什么是三次握手?要搞清楚这个问题,首先得了解TCP究竟是如何保证可靠传输的。下面我们就来一起了解一下。针对实时互动应用对网络传输带来的新需求和新挑战,声网通过将实时互动中的应用层业务需求与传输策略的分层和解耦,于 2019 年自研内部私有的传输层协议AUT,将异构网络下的各种传输控制能力汇聚起来,本文将详细介绍 AUT 传输协议的设计和演进过程。


有奖问题征集

在即将到来的LiveVideoStackCon 2022 音视频技术大会 上海站 8月5-6日,我们设置了【技术商业策略(圆桌)】专题,现在,我们专门策划“圆桌预沟通”活动,正式向大家征集大会圆桌的讨论问题,欢迎大家踊跃提问。我们会从三场圆桌的问题反馈中,挑选3名精彩提问的小伙伴(每场圆桌1名),送出LiveVideoStack 纪念版冰箱贴一份!赶紧行动起来吧~。点此「报名参会」。


本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究,以典型的相机成像系统为基础,涉及的内容包括各类缺陷校正,去马赛克,去噪,3A算法,超分,HDR,风格迁移等主题。本文介绍图像清晰度密切相关的图像锐化操作。本文介绍的是一篇发表于2020年CVPR上基于深度学习联合去噪和去马赛克的论文。本文先介绍去马赛克和去噪的基本概念,再介绍这篇paper的主要内容,最后进行简要总结。在本文中,我们提出了一种自增强的图像去雾框架,称为D4(Dehazing via Decomposing transmission map into Density and Depth),用于图像去雾和雾气生成。我们所提出的框架并非简单地估计透射图或清晰图像,而是聚焦于探索有雾图像和清晰图像中的散射系数和深度信息。在本文中,我将讨论一种新的半监督,多任务医学成像方法,称为Multimix,Ayana Haque(ME),Abdullah-Al-Zubaer Imran,Adam Wang、Demetri Terzopoulos。该论文被ISBI 2021收录,并于4月的会议上发表。

xkISP是基于Xilinx开发工具的开源图像信号处理器 (ISP),由复旦大学VIP实验室和阿里巴巴DAMO CTL实验室联合开发。到目前为止,xkISP支持处理任意分辨率的12位原始图像数据。本文介绍天津工业大学宋庆增老师实验室开源的神经网络处理器TGU。TGU为通用可配置的卷积神经网络加速器,支持CNN,Relu,LeakyRelu,MaxPool,concat等十多个神经网络算子。到底CNN和Transformer哪个更好?当然是强强联手最好。华为诺亚实验室的研究员提出一种新型视觉网络架构CMT,通过简单的结合传统卷积和Transformer,获得的网络性能优于谷歌提出的EfficientNet,ViT和MSRA的Swin Transformer。FFmpeg命令分析-yuv封装mp4本系列主要分析各种 FFmpeg 命令 在代码里是如何实现的,以 FFmpeg4.2 源码为准。本次讲解把 yuv 数据 编码成 H264,然后封装进 MP4 格式里面。

https://juejin.cn/post/7086893134172389407

谷歌最新提出来的一个AI——Parti,主要是将文本生成图像视作序列到序列之间建模。从结构上看,它的所有组件只有三部分:编码器、解码器以及图像标记器,且都是基于标准Transformer。本文从机器学习的角度总结了量子生成学习模型的最新进展。我们将这些量子生成学习模型解释为经典生成学习模型的量子扩展,包括量子线路玻恩机、量子生成对抗网络、量子玻尔兹曼机和量子自动编码器。现在的电影制作技术越来越高超了,武术特效做的真的很酷炫,比如残影效果真的给人一种感觉武功深不可测的感觉,那种这种酷炫的残影效果是怎么实现的呢?今天就让我们使用百度开源的深度学习框架飞桨来实现这样的视频残影效果。这一次,我们将加深理解神经网络如何工作于CNNs。出于建议,这篇文章将包括相当复杂的数学方程,如果你不习惯线性代数和微分,请不要气馁。我的目标不是让你们记住这些公式,而是让你们对下面发生的事情有一个直观的认识。 在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一个子模块,一般不会单独拿出来讨论。本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法,它们各自的优缺点和问题。

基于深度学习的计算机视觉,应用于无人驾驶的视觉感知系统中,主要分为四大块:动态物体检测、通行空间、车道线检测、静态物体检测,本文主要从需求、难点、实现三个方面对每项感知部分做剖析。大陆的一则官宣新闻,似乎已将小米首款车智能驾驶方案曝光:5R1V——即5毫米波雷达1摄像头方案,L2级自动驾驶能力,搭载在2024年首款电动车上。米粉朋友们,对这套方案,Are you OK?本文将为大家分享一个用于自动驾驶的大规模增量数据集,该数据集可以用于实际场景的性能评估。数据集,以及用于数据处理和本地评估的Python-API已经开源。汽车基础软件是啥呢?从定义来看,是用于实现汽车系统软硬件解耦,与用户应用功能无关,但提供汽车系统服务的一系列支撑的软件集合。通俗点讲就是板级芯片驱动、车载操作系统、Hypervisor和中间件。随着激光雷达、4D毫米波雷达逐渐成为汽车领域的顶流,其输出的点云(Point Cloud)也成为继像素之后描述车辆所处三维世界的一种主要数据格式。点云其实就是一个数据集,不同类型传感器输出的点云包含的数据略有差异。虽然概念车的外观过于前卫,技术也过于超然,但在概念车中体现出来的理念有时也会在真正的车中实现。清单中的一些技术可能看起来难以置信。几年后,你就不会对这些创新感到惊讶了。

W3C 沉浸式 Web 工作组联合主席 Ada Rose Cannon 围绕 “WebXR 现状与未来” 重点探讨当下利用现有的 API 能够构建哪些应用以及即将推出的新特性。基于标记的 AR,也称为图像识别 AR,使用对象或基准标记作为参考来确定相机的位置或方向。基于位置的 AR 通过扫描像 ArUco 标记这样的标记来工作。ArUco 标记检测触发增强体验以定位对象、文本、视频或动画以显示在设备上。在这个例子中,我们将编写一个简单的代码,借助 ArUco 标记来增强视频流上的图像。从VR游戏中的社交互动到AR的个性化在线购物体验,AR和VR在多个方面成为许多公司为未来建立弹性和增加客户参与度的生命线。但是,这个价值数十亿美元的行业究竟如何影响品牌与客户的互动方式?让我们看看各种场景,展示这些技术所能提供的高价值的解决方案。无线多人互动虚拟现实(VR)游戏同时具备VR的高计算负载和多人互动游戏的不可预测互动,这给无线通信系统的设计带来极大的挑战。我们提出了一个基于移动边缘计算(MEC)的无线多人互动VR游戏传输框架。虚拟现实(Virtual Reality,简称VR)的出现,令人类仿真水平实现质的飞跃,达到新的境界。你知道虚拟现实可以用来做什么吗?


阅读推荐

2021年起,元宇宙成为风靡全球的流量热词,带动我国虚拟现实行业出现新一轮投资热潮,据《中国电子报》不完全统计,2022年1-6月,中国VR/AR/XR及元宇宙领域的投融资情况如下。不知道是不是之前“TensorFlow 将死”的谣言传得过盛,Google 于日前紧急发文广而告之,TensorFlow 没有“死”,现如今发展地非常好,与此同时,Google 也没有放弃继续开发 TensorFlow,未来它将与 JAX 同在。创业公司在选择编程语言时往往压力很大,尤其在考虑选择相对小众的新语言时。不仅需要考虑编程语言本身的语法、性能,还需要关注其对人才的吸引力。然而,这家创业公司最终的选择是Rust。快来看看他们的使用体验吧!从1958年弗兰克.罗森布拉特发明的感知机、RNN、LeNet-5到Transformers等等,前人们一步一步的带动着深度学习往前跑。本文主要偏向于计算机视觉方向,带大家回想智慧凝结的每一个里程碑。在《速度与激情8》中有这么一个片段,黑客找到汽车芯片漏洞,将停在路边及车库的汽车进行控制。在第一次看到这个片段时,无比震惊,虽然是经过艺术渲染后的效果,但不禁会思考,这个场景在现实生活中真的会出现吗?


活动推荐

LiveVideoStackCon 2022 北京站讲师招募开始啦!

11月4-5日,LiveVideoStackCon 2022 北京站将与大家继续探索音视频技术在不同场景下的融合与发展,在这里不仅可以与业内大佬们进行技术上的心得交流,还可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战,与对未来规划的深入解读。LiveVideoStackCon是每个人的舞台,如果你在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的讲师。

点击「」,即可在网页下方报名,还可查看讲师权益与申请条件。

或提交 演讲内容+个人介绍 至邮箱:speaker@livevideostack.com

我们将尽快审核并通知您最终结果。

标签: pcm260变送器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台