飞桨(百度深度学习平台PaddlePaddle)
飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体。目前,飞桨累计开发者194万,服务企业8.4万家,基于飞桨开源深度学习平台产生了23.3万个模型。飞桨助力开发者快速实现AI想法,快速上线AI业务。帮助越来越多的行业完成AI赋能,实现产业智能化升级。 [1-2]
2020年8月15日,百度和华为共同完成的项目"飞桨产业级深度学习技术与平台"荣获2019年度中国电子学会科学技术奖科技进步一等奖 [3] 。9月,百度飞桨获2020年服贸会“科技创新服务示范案例” [4] 。9月15日,百度CTO王海峰宣布飞桨深度学习平台迎来全新升级 [5] 。
开发套件
编辑ERNIE
飞桨语义理解套件, 基于持续学习语义理解预训练框架,使用多任务学习增量式构建预训练任务,支持各类训练任务的Fine-tuning,保证极速推理的Fast-Inference API,兼具灵活部署的ERNIE Service和具备轻量方案的ERNIE Tiny系列工具集。 [8]
PaddleClas
飞桨图像分类套件,目的是为工业界和学术界提供便捷易用的图像分类任务预训练模型和工具集,打通模型开发、训练、压缩、部署全流程,辅助其它高层视觉任务组网并提升模型效果,助力开发者训练更好的图像分类模型和应用落地。 [9]
PaddleSeg
飞桨图像分割套件PaddleSeg覆盖了U-Net、DeepLabv3+、ICNet、PSPNet和HRNet等主流的分割模型。通过模块化的设计,以配置化方式驱动模型组合,帮助开发者更便捷地完成从训练到部署的全流程图像分割应用。 [10]
PaddleDetection
飞桨目标检测开发套件,旨在帮助开发者更快更好地完成检测模型的训练、精度速度优化到部署全流程。PaddleDetection以模块化的设计实现了多种主流目标检测算法,并且提供了丰富的数据增强、网络组件、损失函数等模块,集成了模型压缩和跨平台高性能部署能力。目前基于PaddleDetection已经完成落地的项目涉及工业质检、遥感图像检测、无人巡检等多个领域。 [11]
PaddleOCR
飞桨文字识别套件,旨在打造一套丰富、领先、实用的文字检测、识别模型/工具库,开源了超轻量级中文OCR模型和通用中文OCR模型,提供了数十种文本检测、识别模型训练方法,助力使用者训练出更好的模型,并应用落地。 [12]
ElasticCTR
飞桨弹性计算推荐套件,可以实现分布式训练CTR预估任务和基于Paddle Serving的在线个性化推荐服务。Paddle Serving服务化部署框架具有良好的易用性、灵活性和高性能,可以提供端到端的CTR训练和部署解决方案。ElasticCTR具备产业实践基础、弹性调度能力、高性能和工业级部署等特点。 [13]
PLSC
Parakeet
工具组件
编辑PaddleHub
飞桨预训练模型应用工具,覆盖文本、图像、视频三大领域超过130个高质量预训练模型。开发者可以轻松结合实际业务场景,选用高质量预训练模型并配合Fine-tune API快速完成模型验证与应用部署工作。适用于个人开发者学习、企业POC快速验证、参加AI竞赛以及教学科研等多种业务场景。 [16]
PARL
飞桨深度强化学习框架,在NeurIPS 2019和NeurIPS2018挑战赛中夺冠。具有高灵活性、可扩展性和高性能的特点,覆盖TD3、PPO、IMPALA 、A2C、GA3C等10+主流强化学习算法以及EvolutionAlgorithm进化学习算法,支持大规模并行训练和线上快速部署。
AutoDL
飞桨自动化深度学习工具,旨在自动网络结构设计,开源的AutoDL设计的图像分类网络在CIFAR10数据集正确率达到 98%,效果优于目前已公开的10类人类专家设计的网络,居于业内领先位置。 [17] (数据来源:内部测试10种网络分别为:vgg_15_BN_64、vgg_16、resnet_32、resnet_56、resnet_110、resnet_v2_bottleneck_164、wide_resnet、densenet_BC_100_12、resnet_29_8x64d、shake_shake_64d_cutout,实际结果可能受测试环境影响而在一定范围内变化,仅供参考)
VisualDL
PALM
飞桨多任务学习框架,一个灵活、通用且易于使用的NLP大规模预训练和多任务学习框架,旨在快速开发高性能NLP模型的上层框架。使用PALM可以非常轻松灵活的探索具有多种任务辅助训练的“高鲁棒性”阅读理解模型,基于PALM训练的模型D-Net在EMNLP2019国际阅读理解评测中夺得冠军。 [19]
PGL
飞桨图学习框架,业界首个提出通用消息并行传递机制,支持百亿规模巨图的工业级图学习框架。原生支持异构图,支持分布式图存储及分布式学习算法,覆盖20+图学习模型,包括自研深度语义图模型ERNIESage等。历经大量真实工业应用验证,能够灵活、高效地搭建前沿的大规模图学习算法。 [20]
PaddleFL
飞桨联邦学习框架,研究人员可以很轻松地用PaddleFL复制和比较不同的联邦学习算法,便捷地实现大规模分布式集群部署,并且提供丰富的横向和纵向联邦学习策略及其在计算机视觉、自然语言处理、推荐算法等领域的应用。此外,依靠着PaddlePaddle的大规模分布式训练和Kubernetes对训练任务的弹性调度能力,PaddleFL可以基于全栈开源软件轻松部署。 [21]
Paddle Quantum
PaddleCloud
PaddleX
飞桨全流程开发工具,集成了飞桨视觉套件、模型压缩工具PaddleSlim、可视化分析工具VisualDL、轻量化推理引擎Paddle Lite等核心模块的能力,并提供简明易懂的Python API,方便用户根据实际生产需求进行直接调用或二次开发。PaddleX具备全流程打通、融合产业实践、易用易集成三大特点,为开发者提供飞桨全流程开发的最佳实践。 [24]
飞桨企业版
编辑飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性。包括提供更全面和强大的功能、更易用的可视化界面,预置更丰富的场景模型,提供更强化的安全权限管理等。
相对于同类平台而言,飞桨企业版具有自主可控的底层飞桨开源框架支持,预置百度积累的大规模数据训练而成的高精度预训练模型,全面支持安全高效的公有云和可灵活定制本地部署。数据更安全、部署更灵活、训练精度更高、集成更便捷,让各类企业享受高质量的一站式AI开发服务。
飞桨企业版包含零门槛AI开发平台EasyDL和全功能AI开发平台BML:
应用落地
编辑OPPO
支持海量用户需求的大规模分布式推荐系统
项目背景
OPPO自2018年起开始大举进军互联网业务,创立了信息流、信息流广告、应用商店、游戏中心、商业中心等诸多业务线,并迅速积累了大量的用户和数据。由于业务规模的急剧扩张, OPPO原来在单机上搭建的训练系统不具备处理大规模数据和训练大型推荐系统的能力,严重制约了互联网的业务发展,急需更好的框架体系来满足业务方对于模型训练速度、效果指标增长的需求。
应用方案
基于飞桨的能力对应用商店进行了升级:采取高性能数据读取接口Dataset完成大规模数据的读取;采用基于参数服务器的大规模CPU分布式的全异步训练模型,以较低的资源消耗来训练海量的数据以及极大的稀疏参数。
应用效果
- 性能强:全异步大规模训练集群规模,业务模型训练速度提升效果显著;
- 参数规模大:Embedding规模&模型扩大数倍;
- 效果好:在多个场景(广告,信息流等),线上关键指标提升效果显著;
- 性价比高:参数服务器训练,大幅度减少内存开销。
微信扫码关注
更新实时通知
(adsbygoogle = window.adsbygoogle || []).push({});
(adsbygoogle = window.adsbygoogle || []).push({});