混乱家庭苹果为什么要用“小模型混乱家庭”?
苹果为什么要用“小模型混乱家庭”?
空间站建设和运营过程中,“天宫课堂”将持续开展太空授课活动,进行形式多样、内容丰富的航天科普教育。中国载人航天工程办公室将持续通过媒体、“学习强国”和载人航天工程官网等平台广泛征集关于“天宫课堂”的创意建议,欢迎社会各界特别是广大青少年踊跃参与。
来源混乱家庭:新智元 在WWDC2024上, 这是一款深度集成到iOS18、iPadOS18和macOSSequoia中的个人智能系统。 与其他科技大厂不同的是,「苹果牌」AI并没有奉行「越大越好」的宗旨。 相反,苹果的态度更加务实,优先考虑用户体验,更强调AI模型的定制化。 将生成式AI无缝融入操作系统,——从某种意义上来说,这是一种非常「苹果」的做法。 AppleIntelligence由多个功能强大的生成模型组成,这些模型专门用于用户的日常任务,可以即时适应用户当前的活动。 AppleIntelligence内置的基础模型针对用户体验进行了微调,例如编写和优化文本、摘要、确定通知的优先级、为对话创建有趣的图像,以及简化跨App的交互。 苹果倾向于利用设备端的小模型搞定这些事情,当然用户也可以选择使用ChatGPT等第三方的服务,但这时数据方面的责任就跟苹果没有关系了。 苹果着重介绍了其中两个模型:一个约30亿参数的设备端语言模型,以及一个更大的基于服务器的语言模型(可通过私有云计算在苹果服务器上运行)。 KeepSmall 苹果的基础模型是在AXLearn框架上训练的。 AXLearn是苹果在2023年发布的一个开源项目,它建立在JAX和XLA之上,使苹果能够在各种训练硬件和云平台上以高效率和可扩展性训练模型,包括TPU、云端和本地GPU。 苹果结合使用数据并行、张量并行、序列并行和完全分片数据并行(FSDP)来沿数据、模型和序列长度等多个维度扩展训练。 苹果使用网络爬虫AppleBot来收集公开可用的数据,——如果Web发布者不希望自己的内容被AppleIntelligence用于训练,苹果也提供了各种粒度的控制方案。 苹果表示,在训练基础模型时,从不使用用户的私人个人数据或用户交互,并且苹果应用过滤器来删除互联网上公开的个人身份信息(比如社会保险和信用卡号)。 除了过滤之外,苹果还通过数据提取、重复数据删除和基于模型的分类器的应用,以识别高质量的文档。 后处理 苹果在训练管道中使用混合数据策略,结合人工注释和合成数据,并执行彻底的数据管理和过滤程序。 苹果在后处理阶段开发了两种新颖的算法: 1.拒绝抽样微调算法(rejectionsamplingfine-tuningalgorithm); 2.基于人类反馈的强化学习(RLHF)算法,采用镜像下降策略优化和留一法优势估计器(leave-one-outadvantageestimator)。 这两种算法可以显著提高模型的指令遵循质量。 除了确保生成模型具有强大功能外,苹果还使用了一系列创新技术在设备上和私有云上对其进行优化,以提高速度和效率。 设备端模型和服务器模型都使用分组查询注意力(grouped-query-attention),来优化其推理性能。 苹果使用共享的输入和输出词汇表,来降低内存需求和推理成本,保证了共享嵌入张量的映射没有重复。 设备端模型使用49K的词汇大小,而服务器模型使用100K的词汇大小。 对于设备端推理,苹果使用low-bitpalletization,来满足必要的内存、功耗和性能要求。 为了保持模型质量,苹果开发了一个使用LoRA适配器的新框架,混合使用2比特和4比特的配置策略(平均每个权重3.5比特),以实现与未压缩模型相同的精度。 此外,苹果还使用交互式模型延迟和功耗分析工具Talaria来更好地指导每个操作的比特率选择。 利用激活量化和嵌入量化,可以在苹果的神经引擎上实现高效的键值缓存(KVcache)更新。 通过上面的这些优化,iPhone15Pro能够达到约0.6毫秒的延迟,以及每秒30个token的生成速率。 适配器 苹果的基础模型针对用户的日常活动进行了微调,可以动态地专注于手头的任务。 做法是将小型神经网络作为模块(适配器,adapter),插入到预训练模型的各个层中,以实现针对特定任务的微调。 此外,苹果调整了注意力矩阵、注意力投影矩阵和前馈网络中的全连接层,以适应Transformer架构的的解码层。 通过仅微调适配器层,基本预训练模型的原始参数保持不变,从而保留模型的一般知识,同时又能支持特定任务。 AppleIntelligence包含一组广泛的适配器,这是扩展基础模型功能的有效方法。 苹果使用16位表示适配器参数的值,对于30亿个参数的设备模型,16级适配器的参数通常需要10兆字节。 适配器模型可以动态加载、临时缓存在内存中并进行交换,保证了操作系统的响应能力。 因为用户体验是最高优先级,所以在对模型进行基准测试时,苹果专注于人工评估。 摘要 苹果的训练数据基于从更大的服务器模型生成的合成摘要,并通过拒绝抽样策略进行过滤,仅保留高质量的摘要。 为了评估特定于产品的摘要,这里使用一组750个响应,针对每个用例进行了仔细抽样。 评估数据集涵盖了苹果的产品功能在生产中可能面临的各种输入,包括不同内容类型和长度的单个文档和堆叠文档的分层组合。 另外,评估摘要功能也要考虑到一些固有风险,比如,模型偶尔会忽略掉一些重要的细节。 根据评分者在五个维度上的打分,摘要被分类为好、中、差。 实验结果表明,与同类模型相比,带有适配器的模型可以生成更好的摘要。 并且在超过99%的针对性对抗性示例中,摘要适配器并没有放大敏感内容。 基础功能 对于设备端和服务器模型的一般功能,苹果利用一套全面的真实世界提示来评估通用模型的功能。 这些提示在不同的难度级别上各不相同,涵盖头脑风暴、分类、封闭式问答、编码、提取、数学推理、开放式问答、重写、安全、总结和写作等主要类别。 将苹果的模型与开源模型(Phi-3、Gemma、Mistral、DBRX)和类似规模的商业模型(GPT-3.5-Turbo、GPT-4-Turbo)进行比较。 实验表明,与大多数竞品相比,苹果的模型更受人工评分师的青睐。 苹果的3B设备端模型性能优于Phi-3-mini、Mistral-7B和Gemma-7B等大型模型;而苹果的服务器模型也要优于DBRX-Instruct、Mixtral-8x22B和GPT-3.5-Turbo,同时效率更高。 安全性 苹果使用一组不同的对抗性提示来测试模型在有害内容、敏感主题和事实性方面的表现。 测量每个模型的违规率,同样采用人工评估: 上图显示了在安全提示方面与竞品的PK。人工评分员发现苹果的回答更安全、更有帮助。 指令遵循 为了进一步评估模型,苹果还使用指令跟踪评估(IFEval)基准测试来比较同类模型的能力。 结果表明,苹果的设备端和服务器模型都比同等规模的开源和商业模型更好地遵循详细说明。 最后是根据内部总结和作文基准评估模型的写作能力,包括各种写作说明,这些结果不涉及用于特定功能的适配器。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:刁富贵
TOP1热点:国家林草局应急揭榜挂帅项目“互花米草可持续治理技术研发”启动
要知道,今年6月中下旬,江西多地还因强降雨引发洪涝灾害。但也是自6月下旬,受晴热高温和持续少量降雨影响,长江流域出现罕见的汛期反枯。受此影响,鄱阳湖提前百天进入枯水期。。
中新社记者:这尊孔子雕像的设计寓意是什么?在为数不多的中文简介中,有的说法认为孔子是道德的象征,也有人认为他在此是教育的化身。
TOP2热点:三位80后这样投身养老服务业(人民眼·走近养老行业的年轻人②)
万百安:在西方政治哲学中,个人主义思潮影响深远,他们会强调“自私”这样的人类动机。相比之下,经典的西方哲学家,比如柏拉图和亚里士多德,他们的观念与儒家思想有相似之处,他们更倾向于社群主义,强调人是社会的一部分。尽管柏拉图和亚里士多德等人最早的政治哲学强调人的背后是社会,但当代西方政治哲学,忽略了这一事实。我认为,在西方存在一种对中国的误解,即美国人不了解中国人如何通过合作解决共同面临的问题。
TOP3热点:中国美国商会主席华刚林:中美紧密合作有益世界经济复苏696969大但人文艺术主题
“9月下旬开始,长江上游,如四川、重庆、贵州、云南地区等地也有了一些降水,上游来水逐渐增多,但这样的补水难以灌进鄱阳湖”,许继军说,如果明年雨水较为丰沛,鄱阳湖的生态会得到一定程度恢复,但也需要几年才能慢慢缓过来。
TOP4热点:市场监管总局发布《合同行政监督管理办法》 7月1日起正式施行xxxxxl196_may12_
在第四届全球新能源与智能汽车供应链创新大会上,国务院发展研究中心产业经济研究部部长王金照表示,2021年中国的新能源汽车出口占全球的1/3,是全球第一大新能源汽车出口大国。
TOP5热点:广东省汕尾市政协原党组成员、副主席邱晋雄接受纪律审查和监察调查JY灌溉公交车唐小米
在推动数字化转型方面,个人信息安全工程指南标准规范了网络产品和服务个人信息处理活动,强化同步规划、同步建设、同步使用的个人信息安全工程理念,预防侵害用户个人信息权益事件发生。汽车数据处理安全要求标准落实了《数据安全法》《个人信息保护法》以及《汽车数据安全管理若干规定(试行)》关于汽车数据安全保护的要求,针对敏感个人信息、重要数据等数据在显著告知、脱敏处理等方面提出细化安全要求,有助于规范汽车数据处理活动,引领汽车数据全流程的数据安全保护,让数字时代的信息更安全。物联网——系统互操作性、信息技术——生物特征识别数据交换格式等系列标准,以标准推动数据跨界流动,为万物智能互联提供有力技术支持,让数字时代的联通更高效。中小微企业跨境电商综合服务管理规范、跨境电子商务交易服务质量评价、工业互联网总体网络架构等标准,规定了跨境电商综合服务、产品信息多语种描述、工业互联网、智能制造等方面的要求,聚焦跨境电商、智能制造等数字化应用场景,以标准赋能传统产业转型提档,产品和服务质量迭代升级,让数字时代的质量更可靠。新型智慧城市评价、远程医疗系统技术要求、停车设备智能控制与管理系统、驾驶员注意力监测系统性能要求等标准,聚焦智慧城市建设、远程医疗服务、智能停车管理、智能驾驶等城市建设和数字生活领域,将数字技术融入城市治理和服务之中,使城市居民共享数字技术发展成果,让数字时代的发展环境更优化。
TOP6热点:比尔·盖茨:中国在应对大流行病等全球复杂挑战中发挥重要作用三上悠亚
“9月下旬开始,长江上游,如四川、重庆、贵州、云南地区等地也有了一些降水,上游来水逐渐增多,但这样的补水难以灌进鄱阳湖”,许继军说,如果明年雨水较为丰沛,鄱阳湖的生态会得到一定程度恢复,但也需要几年才能慢慢缓过来。
TOP7热点:香港非遗展 呈现生命力与创意gb14may18_XXXXXL56endian
万百安研究中国哲学逾30年,曾翻译《孟子》等多部中国哲学经典。他一直倡导哲学教育应打破以西方为中心的视角,摒弃偏见与误解。他的近著《哲学上的拨乱反正:多元文化哲学宣言》中文版也即将与读者见面。
TOP8热点:沉浸式体验睡眠科技美学,喜临门深圳展震撼来袭够了够了已经满到高C了甜甜
长江科学院水资源所所长许继军预测,这次的旱情或将持续到11月份。他向中国新闻周刊指出,近些年来长江流域干旱呈现频发的态势,尤其是夏季伏旱现象应引起重视。他认为,今年旱情的发生应被视为一个重要信号,要从防洪和抗旱统筹的角度做好水库的调度运行。
许继军介绍,公众概念中的干旱多为气象干旱,指降水偏少,经预测可能达到的干旱程度,事实上干旱也分为不同类型,如农业干旱、水文干旱、经济社会干旱等。
TOP9热点:《北京市未成年人保护条例》6月1日起施行男生女生修修修轮滑鞋
2019年,中办、国办联合发文,对院士工作站的设立作出规定,要求每名未退休的院士,受聘的院士工作站不超过1个,退休院士受聘的院士工作站不超过3个。中办、国办的意见指出,学术不端、浮夸浮躁、急功近利等不良倾向依然存在,如果任其蔓延,科技创新的良好生态就会受到侵蚀。
TOP10热点:子宫肌瘤剥除手术后当天就能回家了,这是真的吗?男生女生一起嗟嗟嗟很痛
中国外交部部长助理华春莹日前在社交媒体推特发文指出,美国最高法院门楣上雕刻了来自中国、犹地亚和古希腊的先贤形象,以彰显其多元、开放、包容的精神。然而,美国现在在国际上却在做相反的事情。