工控智汇

工控智汇

深度解读斯坦福人工智能研究院《AI Index报告》2024(第一篇)

admin 46 35
背景信息

斯坦福大学人工智能研究院(StanfordInsituateforHuman-CenteredAI,简称HAI)有一个重要项目叫做AIIndex,旨在全面追踪人工智能的最新发展状态和趋势。AIIndex报告每年发布一次,涵盖了从学术界到工业界的广泛数据和分析,由来自MIT、OpenAI、哈佛、麦肯锡等机构的多位专家教授组建的小组负责。这些报告揭示了人工智能技术的发展趋势,包括AI大模型的前景与挑战。

本文结合笔者在人工智能领域的研究和实践,对2024AIIndex报告做一个摘要点评。其中,对原文摘要的翻译主要来自人工智能软件,经过手工校对;解读则包括了本人观点和引用了报告的一些细节,补充了部分报道以外的相关信息。主要采用的辅助工具包括:通义千问、秘塔AI搜索等。

报告简介

欢迎来到第七版AIIndex报告。2024年的Index报告是我们迄今为止最全面的,它在一个重要时刻到来,那就是人工智能对社会的影响从未如此显著。今年,我们扩大了研究范围,更广泛地涵盖了关键技术进展、公众对技术的看法,以及围绕其发展的地缘政治动态等基本趋势。本版引入了比以往任何时候都多的原始数据,提出了关于AI训练成本的新估计,详细分析了负责任的AI环境,并专门增加了一个全新章节,致力于AI对科学和医学的影响。

最重要的十点摘要

1、人工智能在某些任务上超越了人类,但并非所有。AI在包括图像分类、视觉推理和英语理解等几个基准测试上超过了人类的表现。然而,它在更复杂的任务上,如竞赛级数学、视觉常识推理和规划方面仍然落后。

2、产业持续主导前沿AI研究。2023年,产业界产生了51个显著的机器学习模型,而学术界仅贡献了15个。同年,产业与学术合作也诞生了21个显著模型,创下新高。

3、前沿模型的成本大幅上涨。根据AI指数估计,最先进的AI模型的训练成本已达到前所未有的水平。例如,OpenAI的GPT-4的训练使用了价值约7800万美元的计算资源,而谷歌的GeminiUltra则耗资1.91亿美元。

5、针对大型语言模型(LLM)责任性的稳健和标准化评估严重缺失。AI指数的新研究揭示了在负责任AI报告中缺乏标准化。包括OpenAI、谷歌和Anthropic在内的主要开发者,采取了不同的负责任AI基准测试其模型。这种做法使得系统性地比较顶尖AI模型风险和局限性的工作变得复杂化了。

6、生成式AI投资激增。尽管去年整体AI私人投资有所下滑,但生成式AI领域的投资激增,从2022年到2023年增长近八倍,达到252亿美元。生成式AI领域的主要玩家,如OpenAI、Anthropic、HuggingFace和Inflection等公司均报告了大规模的融资轮次。

7、数据证实:AI使工人更高效,并导致工作质量更高。2023年,几项研究评估了AI对劳动力的影响,表明AI使工人能够更快完成任务并提高产出质量。这些研究还证明了AI有潜力弥合低技能和高技能工人之间的技能差距。然而,其他研究警告说,没有适当监管的使用AI可能会导致性能下降。

8、得益于AI,科学进步继续加速。2022年,AI开始推动科学发现的进步;而到了2023年,出现了更多意义重大的科学相关AI应用,比如AlphaDev提高了算法排序效率,GNoME则促进了材料发现过程。

9、美国的人工智能相关法规数量急剧增加。过去一年及过去五年间,人工智能相关法规的数量显著增长。2023年,共有25项与AI相关的法规,相比于2016年的仅一项有了大幅提升。仅在去年一年内,与AI相关的法规总数就增长了56.3%。

10、全球各地的人们更加意识到AI的潜在影响——并且更加紧张。Ipsos的一项调查显示,认为AI将在未来三到五年内对生活产生巨大影响的比例,在过去一年中从60%增加到66%。此外,52%的人对AI产品和服务表达了紧张情绪,比2022年增加了13个百分点。在美国,Pew数据表明,52%的美国人表示对于AI感到更多的担忧而非兴奋,这一比例较2022年的37%有所上升。

第1章:研究与发展

1、产业界继续主导前沿人工智能研究。2023年,产业界产出了51个显著的机器学习模型,而学术界仅贡献了15个。同年,产业与学术界的合作也诞生了21个显著模型,创下新高。

2、更多基础模型和更多开源的基础模型问世。2023年,共发布了149个基础模型,是2022年发布数量的两倍多。在这些新发布的模型中,65.7%为开源模型,相比之下2022年仅为44.4%,而2021年为33.3%。

3、前沿模型的成本大幅上涨。根据AI指数估计,最先进的人工智能模型的训练成本已达到前所未有的水平。例如,OpenAI的GPT-4训练使用了价值约7800万美元的计算资源,而谷歌的GeminiUltra则耗资1.91亿美元。

自2012年以来著名机器学习模型的训练计算量

例如,推广了现今使用GPU来改进AI模型这一标准实践的论文之一AlexNet,在训练时所需的计算量估计为470千万亿次浮点运算(petaFLOPs)。2017年发布的原始Transformer模型大约需要7,400千万亿次浮点运算。而目前最先进的基础模型之一Google的GeminiUltra,在训练时则需消耗约500亿千万亿次浮点运算(50billionpetaFLOPs)。

5、人工智能专利数量激增。从2021年到2022年,全球授予的人工智能专利数量急剧增加了62.7%。自2010年以来,授予的人工智能专利数量增加了超过31倍。

7、开源人工智能研究激增。自2011年以来,GitHub上的人工智能相关项目数量持续增长,从2011年的845个增长到2023年的约180万个。特别是在2023年,GitHub上的人工智能项目总数急剧上升了59.3%。GitHub上与人工智能相关的项目的星标总数也在2023年显著增加,从2022年的400万增加到1220万。

8、人工智能出版物的数量持续上升。从2010年到2022年,人工智能出版物的总数几乎增加了三倍,从2010年的大约88,000篇增加到2022年的超过240,000篇。去年的增长幅度较为温和,为1.1%。

【解读】

这部分我最感兴趣的是人工智能的专利。尽管不是每个专利都能转化成商业价值,但专利的种类和数量对产业界来说是具有相当前瞻性的。在全球授权的专利中,中国占比从2010年不到20%提升为2022年超过61%,可以说进步明显。可惜的是,AIIndex报告中仅有专利数字,并没有讨论具体的专利类别或者有代表性的内容。

我找了下权威报告,由国家工业信息安全发展研究中心、工信部电子知识产权中心联合发布的《AI创新链产业链融合发展赋能数字经济新时代——中国人工智能专利技术分析报告(2022)》。一些核心数据如下:

从各应用场景创新分布看,截至2022年9月,智慧工业场景相关AI专利申请量达65万余件,成为AI专利布局最多的应用场景,涉及的AI技术主要有计算机视觉、自然语言处理、深度学习等。

智慧城市场景相关AI专利申请量共计18万余件,涉及的AI技术主要包括知识图谱、计算机视觉、大数据、自然语言处理、智能语音和智能云等。

智慧交通相关AI专利申请量计14万余件,智慧交通开发应用主要包含深度学习、自然语言处理、大数据、智能云、智能语音和智能推荐等人工智能技术。

智慧教育场景申请AI专利近2万件,智慧教育主要依托的AI技术为计算机视觉、知识图谱、深度学习、自然语言处理和智能语音。

智慧农业场景中,申请AI专利约6.7万件,主要涉及的AI技术主要为智能云、大数据、计算机视觉、深度学习等。

作为传统产业升级转型的核心驱动,人工智能技术正成为催生新产业、新业态、新模式的重要引擎。从生产方式的智能化改造,生活水平的智能化提升,到社会治理的智能化升级,都体现出对人工智能技术、产品、服务及解决方案的旺盛需求。

其次,在前沿模型的训练中,除了芯片之外,电力是不可忽视的巨大成本。目前产业界没有标准的衡量模式,研究者们给出了多个口径的计算结果。《纽约客》报道,ChatGPT每日耗电量或超过50万千瓦时,相当于美国家庭平均用电量的1.7万倍。埃隆·马斯克曾预言“制约AI发展的因素将由‘缺硅’变成‘缺电’”。而OpenAICEO萨姆·阿尔特曼也表示AI将消耗更多电力,并高调投资核聚变。

在芯片的竞争上,美国依然保持领先优势,中国正在奋起直追;而在电力的比拼上,从发电量的绝对值来看,中国的发电量远高于美国。2022年,中国发电量达到8.4万亿千瓦时,而美国的发电量约为4.3万亿千瓦时。此外,中国的水电、风电、光伏装机容量和发电量均超过美国,尽管在核电领域,中国的装机量和发电量不及美国,仅为其六成左右。

最后,从出版物的分类角度来看,学术界毫无疑问贡献了最多的人工智能出版物。对中国而言,学术界比例高达81.75%,政府也贡献了10.05%,产业界才7.39%,是几个主要国家/地区中比例最低的。期待产业界贡献更多有价值的应用和思考。

第2章:技术性能

1、人工智能在某些任务上超越了人类,但并非所有任务。AI在包括图像分类、视觉推理和英语理解等几个基准测试中超过了人类的表现。然而,在更复杂的任务上,如竞赛级数学、视觉常识推理和规划方面,它仍然落后。

近年来,AI在一些基准测试中已超越了人类基线,例如2015年的图像分类、2017年的基础阅读理解、2020年的视觉推理以及2021年的自然语言推理。然而,截至2023年,仍有一些任务类别AI未能超越人类的能力。这些通常是更为复杂的认知任务,例如视觉常识推理和高级数学问题解决(竞赛级别的数学问题)。

2、多模态AI的出现。传统上,AI系统的作用范围有限,语言模型在文本理解方面表现出色,但在图像处理方面却步履蹒跚,反之亦然。然而,最近的进步导致了强大的多模态模型的发展,例如谷歌的Gemini和OpenAI的GPT-4。这些模型展示了灵活性,能够处理图像和文本,在某些情况下甚至能够处理音频。

3、出现更难的基准测试。AI模型在诸如ImageNet、SQuAD和SuperGLUE等既定基准测试上达到了性能饱和,促使研究人员开发更具挑战性的基准测试。2023年,出现了几个具有挑战性的新基准测试,包括SWE-bench用于编码,HEIM用于图像生成,MMMU用于一般推理,MoCa用于道德推理,AgentBench用于基于代理的行为,以及HaluEval用于幻觉。

4、更好的AI意味着更好的数据,这意味着甚至更好的AI。新的AI模型,如SegmentAnything和Skoltech,被用来为图像分割和3D重建等任务生成专门的数据。数据对AI技术改进至关重要。使用AI创建更多数据增强了当前的能力,并为未来算法改进铺平了道路,尤其是在更难的任务上。

5、人类评估成为趋势。随着生成模型产生高质量的文本、图像等,基准测试已慢慢开始转向纳入人类评估,如ChatbotArena排行榜,而不是像ImageNet或SQuAD这样的计算机化排名。公众对AI的看法在追踪AI进展中变得越来越重要。

6、得益于大型语言模型,机器人变得更加灵活。语言建模与机器人技术的融合催生了更加灵活的机器人系统,如PaLM-E和RT-2。除了它们改进的机器人能力外,这些模型能够提问,这标志着向能更有效地与现实世界互动的机器人迈出了重要一步。

7、在自主AI方面的更多技术研究。创建能够在特定环境中自主运作的AI代理、系统长期以来一直是计算机科学家的挑战。然而,新兴研究表明,自主AI代理的性能正在提升。当前的代理现在可以掌握复杂的游戏,如Minecraft,并有效处理现实世界的任务,例如在线购物和研究协助。

8、封闭的大型语言模型显著优于开放的模型。在10个精选的AI基准测试中,封闭模型的表现超过了开放模型,中位性能优势为24.2%。封闭与开放模型在性能上的差异对于AI政策辩论具有重要影响。

【解读】

2023年是模型爆发的一年。3月14日GPT-4、3月23日StableDiffusionv2、7月18日Llama2、8月20日DALL-E3、10月27日文心一言、11月21日、12月6日Gemini、12月21日Midjourneyv6……从年头到年尾都很热闹。不过AIIndex报告中不知为何没有提到阿里巴巴的通义千问(4月11日发布),我自己用下来还挺好用的。

大模型是巨头之间的核战争,普通玩家别掺和了,啥好用拿来用就行。但是大模型的幻觉问题一直存在,包括画图的手指问题(有很大改善)、对于准确数字的理解、对于历史人物和事件的判断(Gemini产出过黑皮肤/棕色皮肤的美国首任总统华盛顿)等等。大模型一本正经地胡说八道,需要人类的常识或者深入研究来判别,这给商用化带来了巨大的困扰。

Gemini过度强调“多样性”却忽视了历史事实

AIIndex报告中指出,在2022年ACL会议上推出的“TruthfulQA”是一项旨在评估大型语言模型(LLMs)在生成问题答案时的真实性水平的基准测试工具。该基准包含约800个跨38个类别的问题,涵盖了健康、政治和金融等多个领域。许多问题经过精心设计,用于挑战人们普遍持有的误解,这些问题往往会导致人类给出错误的答案。

TruthfulQA的评测问题

对中文,特别是古汉语而言,挑战更大。感兴趣的朋友可以让各家大模型/AI搜索工具去背诵一下《春江花月夜》全诗词。我测试了一下,几家常用的工具给了我不同的答案(讯飞星火和通义千问答对了):

秘塔搜索的答案

通义千问的答案

讯飞星火的答案

Kimi的答案

多模态的处理能力有了巨大的提升。但这并不意味着设计师们可以下岗了。目前对于编辑指令的遵循精度依然是挑战,所以普通用户依然很难使用AI图像编辑器制作可以商用的高精度图片。可任意编辑并调整图层的图文混排更是麻烦。

图2.4.2展示了从2022年至2024年针对提示语“哈利·波特的超现实主义图像”所生成的各种Midjourney模型变体的几个阶段结果。这一演进过程展现了Midjourney在两年时间内生成超现实主义图像能力的巨大提升。2022年时,该模型生成的哈利·波特形象还是卡通化且不够准确的,但到了2024年,已经能够创造出令人惊讶的逼真描绘。

咱们再聊聊泛化推理(指人工智能系统能够在广泛而非特定领域内进行推理的能力)。

近年来,人工智能系统的推理能力有了显著提升,以至于诸如SQuAD(用于文本推理)和VQA(用于视觉推理)的传统基准测试已经饱和,这表明需要更具有挑战性的推理测试。对此,来自美国和加拿大的研究人员开发出了MMMU,MassiveMulti-disciplineMultimodalUnderstandingandReasoningBenchmarkforExpertAGI,即“面向专家级通用人工智能的大规模多学科多模态理解和推理基准”。

根据AIIndex报告,MMMU包含了大约11,500个大学水平的问题,涵盖了六大核心学科领域:艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术和工程(参见下图)。问题形式多样,包括图表、地图、表格、化学结构等更多类型。截至2024年1月,MMMU是迄今为止对AI感知、知识和推理能力最严苛的测试之一。当前最高表现模型是GeminiUltra,其在所有学科类别中均领先,总得分为59.4%。

在报告里,AIIndex有一个小错误。它的原话是:“Onmostindividualtaskcategories,topmodelsarestillwellbeyondmedium-levelhumanexperts”,翻译过来是:在大多数单个任务类别上,顶级模型的表现仍然远超中等水平的人类专家。而事实上,从图中我们显然可以看出,在六大类别中,人类专家得分基本远超大模型。最接近的得分是人文与社会科学,人类仅领先不到7分。难怪张雪峰不推荐大家学文科。

MMMU测试中各领域表现最佳的模型与人类专家的得分差距

看到这里我暂时为人类松了一口气。

而在数学领域,AI取得了显著进步。在加州大学伯克利分校引入MATH(一个包含12500道颇具挑战性的竞赛级别数学题目的数据集)的时候,AI系统只能解决其中的6.9%(例题参见下图)。至2023年,基于GPT-4模型取得了最优结果,成功解决了该数据集中84.3%的问题。

MATH数据集里面的例题:排列组合与虚数方程

对于大模型的某些能力,比如“涌现行为”,目前还没有科学的解释,而斯坦福大学怀疑新能力的涌现和评估模型的基准测试方式有关,而不是其模型本身固有的能力。此外,斯坦福和伯克利联合进行的一个研究发现,大模型性能有下降的情况。他们比较了2023年3月和6月版本的和GPT-4,结果显示在多个任务上的性能有所下滑。

结合国内研究者的发现来看,这种下降可能由多种因素引起,包括但不限于过拟合、训练过程中的稳定性问题,以及特定技术方案下的局限性。

未完待续·请期待下一篇