资讯详情

Hugging Face创始人亲述:一个GitHub史上增长最快的AI项目

0e2b62c1dfd2aad270f4e6f66ae81d8f.png

Hugging Face,这家以emoji以拥抱脸命名的开源创业公司,以连创始团队都没想到的速度成为了AI开源社区顶级网红。Hugging Face模型库在Github上获得了超过62,000个Star,14,000次forks,每月安装100多万次代码贡献者超过1200人。

就在5月10日,Hugging Face宣布C轮融资筹集1亿美元Lux Capital领投,红杉资本,Coatue、Betaworks、NBA球星Kevin Durant目前参与投资估值20亿美元。Hugging Face进一步在行业内引起强烈反响。

故事从2016年开始,法国连续创业者Clément Delangue(创建笔记平台VideoNot.es,媒体监控平台mention以及被Google移动开发平台的收购Moodstocks等项目)和Julien Chaumond、Thomas Wolf一起创办了Hugging Face,并从Betaworks和NBA明星杜兰特特获得天使融资时,他们最初的方向是做一个对话机器人,但就像当时许多方向相似的初创公司一样,并没有改善。

直到2019年,为了训练聊天机器人NLP能力,他们在GitHub开源了一个Transformers令人惊讶的是,它在机器学习社区迅速流行起来,成为一个GitHub历史上增长最快的机器学习库。无心插柳成荫,运气,有时候就是这么邪恶。

不止于NLP库,Hugging Face也逐渐成为机器学习领域ModelHub中心。如今,Hugging Face共享了1万多个预训练模型,1万个数据集,涵盖了 NLP、为了帮助科学家和相关从业者更好地构建计算机视觉、语音、时间序列、生物学、强化学习等领域的模型,并将其用于产品或工作流程。他们现在发起的BigScience该项目吸引了1000多名研究人员共同训练超大型模型。

作为一家商业公司,Hugging Face也从去年的30人扩大到120多人,有1万多家公司在使用他们的产品和服务,包括1000多名付费用户。

Clément这些成就的主要原因是,Hugging Face它弥补了科学与生产之间的差距。通过搭建平台赋予开源界和科学界权力,产生的价值是专有工具的数千倍,而许多开源软件和公司并没有这样做。在某种程度上,Hugging Face是机器学习领域的建设GitHub”,让其成为一个由社区开发者驱动的平台。

2021年6月,在机器学习播客《Gradient Dissent》中,Lukas Biewald与Hugging Face的CEO联合创始人Clément Delangue聊了聊Hugging Face Transformers库兴起背后的故事揭示了Hugging Face快速增长的原因,后者也分享了他的对NLP对技术发展的见解。

当时,我们使用开源库已经有一段时间了。在这个领域,我们总是觉得我们站在巨人的肩膀上,很多人习惯了科学研究。例如,当你发表关于机器学习的研究时,你可能更喜欢以开源而不是论文的形式发表。因此,从研发开始Hugging Face从第一天开始,我们将在开源库共享。

至于Transformers,它始于我们发布的TensorFlow版本的BERT。但联合创始人兼首席科学家Thomas说,我们也需要发布PyTorch版本的BERT。所以,很快,我们又开源了PyTorch版本的BERT,其实仓库一开始的名字叫PyTorch-BERT。

渐渐地,越来越多的人使用它。几周后,我们发布了一个新模型,也许是GPT初版,但也是TensorFlow版本,所以我们想添加它,因为这两个模型有不同的功能和不同的领域,这样人们就可以更好地尝试这两个模型。

后来,我们开始思考如何让人们更容易地使用它们,并像现在一样有机发展。一些研究人员会问,如果你想发布一个新的模型,你可以使用它Transformers图书馆发布了吗?当然,我们很欢迎。渐渐地,这个图书馆像雪球一样滚得越来越大,让我们现在成功了。

没错。我们采用混合方法来构建技术,拥有用户需要开源的扩展性和像用户界面这样的实用性。我们支持的范围很广泛,不用申请就能在开源代码中做所有你想做的事,你甚至都不用去Hugging Face官网,直接可以在Python中用pip安装Transformers。

想要实现更多功能,可以来我们的平台寻找适合自己的模型。更好的是,如果你是软件工程师,NLP新手或机器学习新手可以使用我们的训练和推理API训练和操作模型,我们将主导这个过程,这样你就可以始SOTA模型。

因为用户群体不同。我们一直热衷于向更多的人推广难以理解和利基的东西。因此,我们认为,只有向更多的人推广少数人掌握的技术,才能真正最大限度地发挥技术作用,这也是我们的主要目标。

现在有人用TensorFlow,也有人用PyTorch,对我们来说,相比之下,使用它PyTorch情况要多一点,PyTorch这是一个很好的平台,我们希望它得到更广泛的应用。

慢慢地,有时人们开始称我们为PyTorch-Transformers库",这对使用其他框架的用户太不公平了。因此,我们将再次使用它Transformers扩展到TensorFlow上,并去掉“PyTorch-Transformers"名称中的PyTorch,可同时在两个平台上使用。

如果您使用过我们的集成PyTorch和TensorFlow在后一个版本中,你会发现当前的功能比以前的两个平台更全面。事实上,你可以利用同一类型的机器学习工作平台的优势来完成你的任务。

例如,当你想做架构工作时,PyTorch这是一个一些部署服务时,你可以选择TensorFlow,因为它集成了行业中经常使用的许多工具。在同一个工作流程中,你可以先PyTorch然后在中间建模TensorFlow充分利用不同平台的优势,避免其缺点。

我经常使用自己的工具。我们开发的最受欢迎的应用是Write with Transformers一些流行的文本编辑器Transformers模型提供技术支持。有点像你Gmail写东西的时候自动补充功能,但是更简单,更有创意。它现在的文本产出应该相当于一万本书。当你不知道该写什么的时候,用这个软件一定是对的。

2

通过观察下载量、模型容量等,可以看到模型的发展。当新模型发布时,我们可以通过用户的使用来判断它是否成功。实际上,现在Github下载量排名第一的模型是DistilBERT(Hugging Face的Transformer模型之一)。DistilBERT通过知识蒸馏BERT提取的模型在用途上有很多不同。

虽然它们仍然是一种通用的预训练语言模型,但现在这些模型的发展越来越特殊,新发布的模型已经在以前的基础上进行了优化,性能也变得更好。例如,该模型是针对短文本还是长文本?专注于生成任务还是分类任务?是单语言还是多语言?

你会发现越来越多的特殊模型正在出现。

GPT和BERT都是基于Transformer只是使用场景和架构略有不同。譬如,BERT做的是mask filling(覆盖词填充,即覆盖句子中的某些单词,使机器预测哪些单词可以替代覆盖的单词)GPT做的是语言模型,预测句子中的下一个单词,这也解释了为什么GPT的文本生成能力比BERT更强。但GPT也有其局限性,如文本分类,GPT不太合适。

Clément:OpenAI让更多人能受益于NLP,我非常感激他们所作的贡献。我记得GPT和GPT-2中间还有几个开源的版本,这些都是基于Transformers的模型,很多公司都在使用。GPT-3是一个很好的模型,在文本生成方面非常有用,但现在大家用得更多的可能是GPT-2而不是GPT-3。

也有团队正在复刻GPT,Eleuther团队发布了GPT-Neo,它和GPT-3的架构是一样的。GPT-Neo的模型大小跟OpenAI通过API提供的GPT-3差不多,GPT-Neo运行结果也不错。

不少人也意识到,有了OpenAI的分享,大家能用NLP做的事情就更多,而且也能推动行业生态的发展,让更多人关注NLP。越来越多公司也开始使用GPT-3,但它一方面很烧钱,另一方面可拓展性比较低,不能根据自己的使用需求对它进行调整。如果使用别人开发的API,就很难在这上面建立自己的技术优势。

我们自己的目标也是让NLP惠及更多人,很多公司先是用GPT-3来探索NLP,然后又转而使用我们的工具。但我相信也有不少公司是反过来的,一开始先用我们的开源工具,后来决定还是用一些更现成的工具,比如GPT-3、Google NLP服务、AWS Comprehend等。现在也有一些服务能让这些公司获得NLP API。

总之,开源社区的能力是巨大的,我们都是这个不断壮大的生态中的一员,一切都欣欣向荣。

3

在现在使用Transformers的5000家公司里,大部分都把Transformers运用到实际生产中,这在5年前还没有做到。很多应用场景都是新的,要么是以前机器做不到的,由人工来做的,比如内容审核,还有机器的客户服务分类功能可以取代大量劳动力。Gmail的自动补全功能也非常厉害,它极大提高了工作效率,过去几个月里,这个功能让我写邮件时的工作量减少了一半。

现在大部分的搜索引擎都依赖NLP技术和Transformer模型,改变了很多产品的构建方式。GPT-3模型把NLP技术推广到了创业领域,很多公司也开始利用NLP技术从零开始做产品。Google搜索可能是NLP技术应用得最广为人知的产品。

我常常设想,今天的任意一家公司在当初创业时如果能拥有今天的NLP技术基础,情况会怎样?这些公司可以在很多地方做得不一样。比如DocuSign(电子签名企业,提供在不同地方通过不同设备对文件进行电子签名的服务)可以运用现在的NLP文档分析技术,它就可以对文件进行多种分析,可以自动生成一个“太长不看版”,会将合同里提到金额的部分标绿或标红。

如果Twitter运用现在的NLP技术,它的推送信息流可以很不一样。它不会只给你推送当下的热点消息,而是会根据使用记录来呈现你可能感兴趣的信息,希望这样有助于减少偏见、暴力、种族歧视等其他不良行为。

我不太同意这一点。一说到NLP,大家想到的是Siri、Alexa等智能语音助手或者机器人聊天界面这种比较直观的场景,但在很多我们看不见的地方,NLP也发挥着作用。比如Google搜索,你可能不会察觉到现在的搜索结果和以前有什么不同,但它背后使用的NLP和Transformers技术,“润物细无声”地改善了用户体验。

当然,目前的聊天机器人技术不够成熟,不能真正地帮人类解决实际问题。我也发现,

看好。Hugging Face一开始想做一个可以跟人聊天的有趣的AI朋友,当时我们特别痴迷于NLP技术,想攻克这方面最难的问题,于是决定做开放域的对话型AI,让AI可以与人谈天说地,从体育比赛聊到感情问题等等,但没有成功。

我想原因是时机尚未成熟,以现有的技术做开放域对话AI实在太难了。“跟人聊天”应该属于NLP的终极目标,因为这个过程需要同时进行很多个NLP进程,比如提取信息、理解信息、识别对话者意图、分析语句含义、理解对话者情绪,还要给这些进程排序等等。如果对话者的音调、语气变了,那又要分析其隐藏含义。

现在的客服聊天机器人已经能很好地解决一些垂直领域的问题,但还需要相当长的时间才能让机器人做到像人类一样无所不谈,到那时,用户会深刻地感受到面前的机器人和以往不一样,仿佛有血有肉。最终,我们会成功做出更好的对话型AI。

这是一个好问题。前几周(2021年6月)我正在研究语音和文本的相互转换,这应该是几年前兴起的技术,但近来好像变成了一个小众而略显无聊的研究领域。好在,最近有一些研究团队给它注入了新的生命力,特别是Facebook人工智能实验室(FAIR)的Alexis Conneau团队研发了wav2vec,给Transformer模型带来了新进展。

我对此特别激动,他们提升了语音和文本转换的质量,而且从英语扩展到了其他语言。如果能将NLP和语音文本转换结合起来,就可以颠覆很多产品。比如,如果Zoom能利用NLP技术推出语音转文本功能,就可以实现线上会议“自动鼓掌欢呼”;或者当Zoom识别到参会者说出“万岁/太棒了”这种词时,屏幕上就会自动洒落大量表示“欢呼”的表情符号。

几周前,我们在Hugging Face办了一个活动,有300多位参与者为语音文本转换模型做出了贡献,涉及100种稀缺的语言语料。我相信,语音领域会有更多新突破,为我们解新的应用场景,建议多多关注这个领域。

4

回头看看那些最流行的开源项目,你会发现它们都经历了很长时间的沉淀。我们在两年半前才发布了第一个版本,现在仍处于婴儿期,但Hugging Face Transformers绝对是GitHub上增长最快的机器学习库。

现在,它在Github上已经获得了超过42,000个Star,每月被安装超100万次,有800人为Transformers贡献了代码(译者注:截止2022年5月,该库已获得超62,000个Star,代码贡献者超1200人),取得这些成绩的主要原因在于,

我觉得,与软件工程1.0或计算机科学相比——尽管计算机科学在名义上有“科学”二字,但它实际上并不是一个科学驱动的主题,看看那些优秀的软件工程师,并不会真正地去阅读、研究论文,也不会在计算机科学的“科学”方面循规蹈矩。而机器学习属于真正意义上由科学驱动的领域,这一切都源于世界各地几十个非常出色的NPL团队创建了BERT、T5和RoBERTa等很多模型。

我们的Transformers库就是为这些研究者提供一个平台,去展示那些他们想要分享的模型,以及测试他人的模型,以此来深入研究这些模型的内部架构。同时,Transformers库旨在创建一个很简单的抽象体,让所有NLP领域的参与者都能够在研究人员发布模型后的几个小时内使用这些模型。

每当研究者在Transformers库中发布新模型,就会产生神奇的网络效应。人们都关注着这些模型,谈论着这些模型,并在Transformers中测试这些模型。他们将其用于工作,投入生产,尽其所能支持这些模型。

对于科学家来说,他们也很乐意看到自己的研究被看到、使用,影响着整个社会,反过来也会驱动他们想要创造和分享更多模型。这种良性循环会使我们的项目比传统的开源项目发展得更快,并且已经引起了市场和机器学习领域的共鸣。

机器学习模型与传统的软件工程有很大不同,很多公司都很难从后者过渡到前者。由于机器学习模型缺乏可解释性,所以很难预测模型的输出结果,也很难对模型进行调整;而软件工程师一直以来习惯了可以非常明确地界定他们想要的结果,因此,对他们来说这种思维转变非常不容易。我认为,对机器学习的理解是最难的部分,甚至比技术性问题还要难。

从技术层面讲,很高兴看到模型做得越来越大,但投入生产应用还需要更多技巧和更大努力。我记得Roblox发表过一篇很好的文章(http://blog.roblox.com/2020/05/scaled-bert-serve-1-billion-daily-requests-cpus/),阐述了他们如何利用DistilBERT在一天内处理超过10亿次推理,但挑战依然存在,还需要提升基础设施能力。

我始终秉持的一个观点是:

我以前就是这样过来的。我是法国人,曾在巴黎一家创业公司做计算机视觉工作。在机器学习这么一个日新月异的领域,要与整个科学界和开源界竞争非常艰难。巨头公司或者大学里有上百个研究实验室,虽然可能不是每个实验室都比我们做得好,但竞争对手实在太多,压力巨大。你或许可以在一段时间内超越对手,风光一两天,但过不了多久可能就会被赶超。

所以,通过开源模型,可以为架构和数据库的改进提供灵感。Elastic和MongoDB就是很好的例子,它们的事迹表明,

你也不需要从创造的价值中获取100%的红利,而是可以只将其中1%的价值变现,维持公司的经营。但即便只是1%,也足够让你成为一家高市值的公司,MongoDB就是一个例子。

Elastic和MongoDB都是以开源为核心,也都成功发展起来了,并且还能在市场中活下去。我相信,在机器学习领域也可以复制它们的模式,机器学习技术还处于早期发展阶段,但我相信很快要迎来它的春天,在未来5到10年,会有1到10家开源机器学习公司崛起。

(本文已获得编译授权,原视频:

https://www.youtube.com/watch?v=SJx9Fsnr-9Q)

其他人都在看

  • Jeff Dean:深度学习的黄金十年

  • 25倍性能加速,OneFlow“超速”了

  • DeepMind爆发史:决定AI高峰的“游戏玩家”

  • 解读Pathways(二):向前一步是OneFlow

  • 五年ML Infra生涯,我学到最重要的3个教训

  • OneFlow v0.7.0发布:全新分布式接口,LiBai、Serving等一应俱全

https://github.com/Oneflow-Inc/oneflow/https://github.com/Oneflow-Inc/oneflow/

标签: 法国coudoint电阻器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台