GPT-4安全报告：天使还是魔鬼？透视AGI真面目的9个关键点

Original 汤源 AI范儿 2023-08-21

图｜汤源

文｜汤源

校对 | 匡萃彪

在 GPT-4 发布的同时，Anthropic公开了与ChatGPT不相上下的产品Claude，被认为是OpenAI的重要竞争对手。Anthropic的创立，是前OpenAI研究和安全副总裁Dario Amodei认为大模型内部存在的安全问题未被解决的原因，他带领GPT-2和GPT-3的核心作者创立了Anthropic，试图更好地解决AI中的“对齐问题”，即意图和结果的偏差。在现实生活中，AI的应用可能会受到模型内部工作机制的不透明、数据训练方式和数据集选择等方面的影响，从而导致AI的“偏见”影响我们的决策，甚至带来严重的道德或法律风险。

在这个方向上，我们深入研究了GPT-4技术报告中的“Safety”部分，以下9个方面值得关注。一方面，我们可以看到OpenAI在确保GPT-4大型AI服务的安全方面进行了努力，另一方面，这也反映了AGI（超级智能）的性质可能是天使，也可能是魔鬼，存于一念之间。

│ GPT-4可自主避免关闭

ARC团队的主要职责之一是评估对齐问题。虽然在GPT-4的早期非任务优化版本中，它还不能有效地自主复制、获取资源和避免被关机，但是这并不意味着经过特定任务的持续优化，GPT-4就没有更多增强自主能力的可能性。我们期待看到OpenAI在对齐问题上取得的进展，并希望GPT-4能够成为更加安全可靠的AI产品。

│ AIGC服务亟需监管约束

“我们需要更好的监管，同时也需要更好的AI模型和算法来应对这些监管，以保护公共利益和民主价值。”这也反映了AI技术的发展带来的道德和社会问题，需要更加全面和深入的思考和探讨。

│ 投资方压力或导致AI安全标准下降

OpenAI 对于 GPT-4 这样具有巨大不明潜力的新型 AI 服务的担忧不仅仅源自其技术上的安全问题，更来自于其投资方的压力。一份泄露的会议谈话记录显示，这种压力主要来自最大的资方，也就是微软高层，包括微软 CEO Satya Nadella。这种压力引发了一场无视大型 AI 模型安全标准的 AI 工业界竞赛，OpenAI 希望通过更多的有效监管约束来确保 AI 的安全和可持续发展。

│ OpenAI发布AI大模型竞争宣言

尽管OpenAI在GPT-4技术报告的第19页脚注中承诺，即使在人工智能（AGI）领域被其他公司超越，他们也会停止竞争。但OpenAI也表示，如果未来两年出现前所未有的成功机遇，他们会通过协商达成一致的AGI发展计划。虽然有这个承诺，但实际情况却是OpenAI也意识到了未来AGI的潜力和影响，必须更加谨慎地处理这个问题。

│ 利用Superforecasting服务规避AI竞赛风险

为了最大限度地降低AI服务竞赛所带来的安全风险，OpenAI在GPT-4发布前花费了整整8个月的时间进行安全研究和风险评估。甚至还邀请了全球顶尖的预测专家团队来规避由于加速AI服务发布而带来的风险。这充分表明了OpenAI对于大型AI服务的安全性和稳定性的高度重视和关注。

│ GPT-4基本攻克常识推理

与旧版相比，GPT-4在推理能力方面有了重大突破，并且已经接近人类的水平。在常识推理方面，准确率甚至达到了惊人的95.3%，相比于GPT-3.5提高了近10个百分点。这个进步极大地提高了AI服务的质量和可靠性，为广泛应用提供了更多的可能性。

│ GPT-4发布时间表背后

尽管GPT-4早已准备就绪，但OpenAI决定推迟发布，以便更充分地评估和提高其AI服务的安全性。这是一种明智的做法，因为随着AI技术的不断发展，安全问题变得越来越重要。在发布前投入更多的时间和精力来解决这些问题，将有助于OpenAI确保其产品的质量和可靠性，并保护其用户免受潜在的风险和威胁。

虽然提前发布GPT-4可能会带来一些商业优势，但在安全问题上取得进展并不是一件容易的事情。Superforecasters团队的建议是值得考虑的，因为他们在预测未来事件方面有很高的成功率。延迟发布将允许OpenAI更好地准备和应对潜在的风险，同时避免过早地推出可能存在安全问题的产品。

与此同时，OpenAI也必须密切关注竞争对手的动态，并尽快采取措施以确保自己在市场上的竞争力。与Anthropic等竞争对手相比，OpenAI的声誉和知名度在AI领域中更高，但这并不意味着他们可以忽视安全问题。只有在确保安全的前提下，OpenAI才能在市场上获得更大的成功，并维护自己作为可信AI服务提供商的声誉。

│ GPT-4可能先砸哪个饭碗

可能最让我们担心的部分是，尽管AIGC服务如GPT-4可以提高人们的工作效率，但在自动化工作的过程中可能会导致一些职位被替代，特别是那些需要多年教育和经验的工作，如法律服务。

OpenAI还进行了一个在线对照测试，共有444名经验丰富的大学受训专业人士参与，其中包括市场营销人员、专业写手、顾问、数据分析师、人力资源专家和经理。每个人需要完成两个与其专业相关的测试，例如新闻发布、简短报告、分析计划、商务电子邮件等需要花费20-30分钟的真实场景写作任务。作为对比测试的另一组使用ChatGPT，盲测结果显示了ChatGPT惊人的效率：

│ GPT-4在“对齐问题”上RLHF和RBRMs哪个更主要？

RBRM意思还是基于规则的奖励模型，某种意义上，这些规则条目就是AI界的宪法了。那组成这些规则的条目都是什么呢？OpenAI没公布，只有部分RL-CAI原则，比如：

│ 当AGI接管世界：一点思考

人工智能相对于人类本身智能最大的区别是什么？按照Daniel Kahneman的人类思维机器模型，AGI很可能很快就能超越和替代人类理性大脑智能（System2），但目前仍然是个谜的是人类感性大脑（System1），它主管情绪、价值判断、道德伦理观，对于AGI的安全和风险至关重要。

目前，GPT-4是基于规则奖励模型的人类反馈来试图驾驭和修正强大如斯的大型AI服务。然而，这种方式总让人感觉有点像用发丝来拴猛兽。一旦一个不具备价值判断、不受道德伦理有效约束的猛兽出笼，AGI就可能无限制地自我复制和增强，直到接管这个世界。那一天可能就是Elon Musk曾经提到的那样：“脆弱的、强依赖于有机生物环境的人类只是完成了自身作为宇宙级硅基超级智能启动的历史使命……”

点这里👇关注我，记得标星哦～‍‍‍

▲ 点击上方卡片关注AI范儿，拥抱AI浪潮

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

GPT-4安全报告：天使还是魔鬼？透视AGI真面目的9个关键点

│ GPT-4可自主避免关闭

│ AIGC服务亟需监管约束

│ 投资方压力或导致AI安全标准下降

│ OpenAI发布AI大模型竞争宣言

│ 利用Superforecasting服务规避AI竞赛风险

│ GPT-4基本攻克常识推理

│ GPT-4发布时间表背后

│ GPT-4可能先砸哪个饭碗

│ GPT-4在“对齐问题”上RLHF和RBRMs哪个更主要？

│ 当AGI接管世界：一点思考

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

生成图片，分享到微信朋友圈

GPT-4安全报告：天使还是魔鬼？透视AGI真面目的9个关键点

│ GPT-4可自主避免关闭

│ AIGC服务亟需监管约束

│ 投资方压力或导致AI安全标准下降

│ OpenAI发布AI大模型竞争宣言

│ 利用Superforecasting服务规避AI竞赛风险

│ GPT-4基本攻克常识推理

│ GPT-4发布时间表背后

│ GPT-4可能先砸哪个饭碗

│ GPT-4在“对齐问题”上RLHF和RBRMs哪个更主要？

│ 当AGI接管世界：一点思考

您可能也对以下帖子感兴趣