庞若鸣陈智峰苹果发布2025根本模子手艺演讲

发布时间:2025-08-01 08:19

  方才插手 Meta 的前苹果 AI 担任人庞若鸣(Ruoming Pang)发出多条推文进行了引见。正在演讲中,苹果细致引见了锻炼新一代模子所用的数据、模子架构、锻炼方案、文中沉点展现了苹果若何正在提拔用户价值的同时实现功能扩展取质量优化,并大幅提高设备端和私有云计较的运转效率。此次苹果引见了两种多言语、多模态根本言语模子,可为苹果设备和办事中的 Apple Intelligence 功能供给支撑。此中包罗:1)通过 KV 缓存共享和 2 位量化锻炼等架构立异,针对苹果自有芯片进行了优化的 3B 参数设备模子;2)一种可扩展的云端模子,它连系了新型并行轨道夹杂专家 (PT-MoE) Transformer 和交织的全局 - 局部留意力,以便正在苹果的私有云计较平台长进行无效推理。这两款模子均通过负义务的收集爬取、授权语料库和高质量合成数据集进行大规模多言语、多模态锻炼,并正在新的异步平台上通过监视微和谐强化进修进一步优化。最终模子不只支撑多种新增言语,还能理解图像并施行东西挪用。PT-MoE 架构示企图。每个轨迹 track 由多个轨迹块构成,每个轨迹块包含固定命量的 Transformer/MoE 层。假设总层数为 L 层且轨迹块深度为 D,则同步开销可从 2L(张量并行)降低至 L/D(轨迹并行)。例如当 D = 4 时,PT 架构可将同步开销削减 87。5%。PT Transformer是苹果研究人员提出的一种新型架构。取仅包含单一挨次层仓库的尺度解码器式 Transformer 分歧,该架构将模子划分为多个小型 Transformer 模块,称为轨道。每个轨道由多个堆叠的轨道块构成,每个轨道块本身都是一个 Transformer 层仓库。这些轨道块处置标识表记标帜数据,仅正在轨道块的输入输出鸿沟进行跨轨道同步。这种隔离设想不只实现了轨道间的间接并行施行,还无效降低了保守 Transformer 解码器(如采用张量并行手艺的模子)中常见的同步开销。这种方式被称为轨迹并行,改良了锻炼和推理的延迟,而不会影响模子的质量。为实现办事器端模子的进一步扩展,苹果正在每个轨道块内部引入了专家夹杂层(MoE),从而建立出 PT-MoE 架构。因为各 MoE 层中的专家模块仅正在对应轨道内运转,通信开销可取计较过程无效堆叠,从而提拔锻炼效率。连系轨道并行性带来的轨道级性劣势,这种设想使模子正在连结低延迟的同时实现高效扩展 —— 得益于稀少度的提拔,模子运转愈加轻量化。别的为了实现现视觉理解能力,苹果引入了一个能够从输入图像中提取视觉特征的视觉编码器,正在大量图像数据长进行了预锻炼,以提高其机能。视觉编码器包含两个环节组件:一个视觉从干,用于从输入图像中提取丰硕的视觉表征;以及一个视觉言语顺应模块,用于压缩视觉表征并将这些视觉特征取模子的标识表记标帜表征进行对齐。正在视觉从干收集中,苹果采用了尺度的视觉 Transformer(ViT-g),办事器模子为 10 亿参数;以及更高效的 ViTDet-L 从干收集,设备端模子为 3 亿参数。设备端视觉从干收集采用了 ViTDet 架构,该架构正在大大都视觉 Transformer 层中利用窗口留意力机制,仅包含三个跨窗口全局留意力层。为更无效地捕获并整合细粒度局部细节取宏不雅全局上下文消息,苹果正在尺度 ViTDet 根本上立异性地引入了注册窗口(RW)机制。该机制通过让全局注册表(或类别)标识表记标帜正在参取全体全局上下文聚合前,先取图像中的分歧局部窗口进行交互,从而实现对全局特征的编码。苹果认为,端侧和云端模子共同能够满脚普遍的机能和摆设需求。设备端模子颠末优化,可以或许以最低资本耗损实现低延迟推理;而办事器端模子则专为复杂使命设想,供给了高精度和可扩展性。正在人工评估基准中,苹果的模子正在跨言语、文本和视觉模式上都具有不错的合作力,以至优于划一规模的最佳开源模子。正在手艺演讲中,苹果还引见了全新推出的 Swift 焦点的根本模子框架,此中集成了指导式生成、束缚式东西挪用和 LoRA 适配器微调三大功能模块,开辟者仅需几行代码即可轻松实现这些功能的集成。该框架闪开发者可以或许借帮约 30 亿参数的设备端言语模子,动手打制靠得住且具备量产级质量的生成式 AI 功能。做为 Apple Intelligence 的焦点,它正在摘要、实体提取、文本理解、优化、简短对话、创意内容生成等多样化文本使命中表示杰出。不外苹果暗示,虽然已针对设备端模子进行了特地优化,但它并非为通用学问问答而设想。苹果激励使用开辟者操纵该框架为 APP 定制适用功能。苹果暗示,Apple Intelligence 模子的最新进展一直遵照「负义务的人工智能」的,通过内容过滤、地域定制评估等平安防护办法,并依托私有云计较等立异手艺,切实保障用户现私平安。正在手艺报布之后,庞若鸣不忘感激了所有贡献者,此中包罗模子、后锻炼、多模态、框架 / API、项目办理人员,同时把接力棒交给了苹果 AI 的下一任担任人 Zhifeng Chen 和 Mengyu Li。此前据报道,庞若鸣插手 Meta 后,苹果大模子团队将由陈智峰(Zhifeng Chen)担任,不外团队的办理架构将愈加分离。陈智峰 2000 年本科结业于复旦大学,后于普林斯顿大学、伊利诺伊大学喷鼻槟分校获得硕士、博士学位。正在插手苹果之前,陈智峰曾正在谷歌持久工做,参取过 TensorFlow、Gemini、神经机械翻译系统、Palm 2 等主要研究。他和庞若鸣、吴永辉均是Google Brain 晚期的主要。