Transformer 作为基于注意力的编码器 - 解码器架构不仅彻底改变了自然语言处理(NLP)该领域仍在计算机视觉中(CV)该领域做了一些开创性的工作。与卷积神经网络(CNN)相比,视觉 Transformer(ViT)依靠优秀的建模能力,在 ImageNet、COCO 和 ADE20k 在多个基准上取得了优异的性能。
就像德克萨斯大学奥斯汀分校的计算机科学家一样 Atlas Wang 说:
因此,学术研究人员和工业相关从业者都有必要Transformer深入了解技术,紧跟技术Transformer巩固自身技术积累的前沿研究。
这就是为什么AI高端人才短缺的重要原因。
在工作中:
事实上,这些都是高端人才必须经历的核心竞争力和门槛。虽然很有挑战性,但一旦你通过了这个门槛,你会发现你在市场上
所以我们设计了这样一门课程,目的是:
课程亮点
综合内容解释:涵盖当今应用和科研领域最受欢迎的内容Transformer,包括10 Transformer模型串讲 应用案例。
深入技术分析:深入分析Transformer涵盖前沿模型原理技术的框架技术细节和模块。
企业实战项目:包括图像识别、目标检测,在应用中提高学生的理论和实践能力。
牛级导师团队:每个模块由一线经验丰富的科学家、科研学者和工程师在各自领域教授,并配备背景优秀、经验丰富的助教,致力于带来最好的学习体验。
你将收获

下面对CV详细介绍了一些内容,感兴趣的朋友可以咨询更多。
全面讲解技术知识
涵盖课程内容Bert/ViT/SegFormer/DETR/UP-DETR/ TimeSformer/ DeiT/Mobile-Transformer/Efficient Transformer/SwinTransformer/Point
Transformer/MTTR/MMT/Uniformer解释10多个模型。
学以致用的项目实践
学员使用Transformer模型,练习CV图像识别和目标检测任务应用最广泛。
专业团队严格打磨课程内容,前沿深入
课程内容经过前期数百小时的打磨设计,保证内容和项目节点设置合理,真正做到学有所得。
就业导向,目标明确
顺利完成课程后,优秀学生可获得字节、阿里、腾讯、美团等互联网工厂,以及商汤、旷视等AI内推独角兽合作面试机会。
本课程将带您回顾NLP领域中Transformer/Bert技术。深入了解Transformer/Bert技术细节,算法优势。方便学生进一步学习Transformer 技术在其他领域的应用。
NLP中Transformer中Self-Attention 机制、并行化原理等。
Transformer进阶Bert基本原理。
基于第一节课的内容,进一步研究如何进一步研究Transformer思想迁移到两个计算机视觉分类问题的应用: 图像分类,图像语义分割。两个经典结构ViT, SegFormer例如,让学生体验如何工作Transformer应用于视觉领域的思想。
如何将Transformer设计思想应用于图像分类和语义分割。
ViT
SegFormer
本课程将进一步学习如何学习Transformer技术应用于目标检测任务。特别是如何设计Transformer网络结构使神经网络能够同时学习目标的类别信息和位置信息。
深入理解Transformer 应用到object detection的设计思想。l
DETR
UP-DETR
本课程将进一步学习如何学习Transformer技术应用到视频理解应用中,让Transformer能够同时学习时间顺序上空间的相关性。TimeSformer例如,让学生深刻理解设计理念。
将Transformer设计间空间的相关性建模问题上,应注意设计理念的扩展
TimeSformer
高效的Transformer一直是研究者孜孜不倦的追求目标。这次课程将讨论如何设计高效的Transformer 网络结构。本节课将以DeiT, Mobile-Transformer为例,深入学习高效设计网络过程中需要注意的事项。
Efficient Transformer设计中需要注意的问题,以及可以优化Transformer角度的探讨
DeiT
Mobile-Transformer
本次课程将以SwinTransformer 模型为例,系统性学习SwinTransformer以及其变种模型。目的是让学生能够进一步体会将Transformer应用到视觉任务的网络设计过程中需要注意的问题,有哪些巧妙的思想以及如何通过合理的设计做到并行计算。
SwinTransformer 模型家族
SwinTransformer设计思想。思考需要设计Transformer解决新的问题时需要注意的问题
本节课将跟大家分享3D Point Cloud中的Transformer应用。根据3D Point Cloud数据特点,我们将深入探讨如何设计合适的Transformer网络来处理海量、无结构的点云数据。同时如何进一步修改Transformer结构如何对点云进行分割,聚类等任务。
探讨设计Transformer处理点云数据时需要注意的事项
Point Transformer
本节课我们将学习multi-modality 中Transformer设计问题。Transformer 在不同的领域得到了很好的应用。最近的工作在探究如何设计合适的Transformer结构处理多模态的数据。我们将以MTTR, MMT, Uniformer等相关Transformer为例子做讲解。
探究设计Transformer处理multi-modal 数据时需要注意的问题
如何设计合适的Transformer来处理multi-modal相关问题:MTTR, MMT, Uniformer
ViT model
Cross-entropy loss
Multi-label/multi-class classification
Self-attention
LSTM/GRU
Python
pytorch
OpenCV
ViT
首先让学生自己动手实现ViT模型,在数据集上测试结果。然后根据官方的实现做对比,如果差异较大需要自己查找原因。
掌握如何将Transformer中token, self-attention 思想应用到图像领域。触类旁通,希望学生能够在深刻理解的基础上,能够学生将Transformer思想用到其他相关问题中去。
掌握ViT的训练方法,让学生跑完这个pipeline。从数据准备,模型训练,参数调节,到模型测试,指标计算等。
SwinTransformer
Cross-Entropy Loss
Regression Loss
Forward-Backward Propagation
Python
pytorch
OpenCV
学生自己实现SwinTransformer代码(也可参照官方实现),并且参照官方实现优化自己的实现,如果实验效果差异较大,学生需要查找原因。
体会用SwinTransformer来做目标检测的思想。
掌握如何从代码角度优化实现SwinTransformer的self-attention机制从局部扩展到全局。
学生掌握如何将Transformer思想应用到自己工作或者学习中的实际问题中去。
适合人群
编程及深度学习基础良好,为了想进入AI行业发展
对于Transformer或联邦学习有浓厚兴趣,希望进行实践
工作中需要应用机器学习,深度学习等技术
想进入AI算法行业成为AI算法工程师
想通过掌握AI高阶知识,拓宽未来职业路径
导师团队
CV主讲老师
牛津大学计算机博士
曾在BAT等多家公司任职算法科学家
从事计算机视觉,深度学习,语音信号处理相关研究
先后在CVPR, ICML, AAAI, ICRA等国际顶会及期刊发表多篇论文
课程研发顾问
美国微软(总部)推荐系统部负责人
美国亚马逊(总部)资深工程师
美国新泽西理工大学博士
14年人工智能, 数字图像处理和推荐系统领域研究和项目经验
先后在AI相关国际会议上发表20篇以上论文
贪心科技CEO
美国南加州大学博士
曾任独角兽金科集团首席数据科学家、美国亚马逊和高盛的高级工程师
金融行业开创知识图谱做大数据反欺诈的第一人
先后在AAAI、KDD、AISTATS、CHI等国际会议上发表过15篇以上论文
授课方式
基础知识讲解
前沿论文解读
该知识内容的实际应用
该知识的项目实战
该方向的知识延申及未来趋势讲解