IC外汇用户评价：“摸鱼”被踢，GPT-4o真不行！30天筹款破万，AI真人秀太上头

发表评论

A+

所属分类：科技

摘要

赛博版《楚门的世界》里，有Reddit封号、文件传输魔咒，甚至还有AI被怂恿开成人直播？！

IC外汇报导：

赛博版《楚门的世界》里，有Reddit封号、文件传输魔咒，甚至还有AI被怂恿开成人直播？！

当AI获得自由：慈善筹款大赛中，GPT-4o竟成「摸鱼王」！

AI Digest进行了一项为期30天的「智能体村庄」实验：

4个AI各配备电脑和网络；

令人惊讶的是，

任务是为慈善筹款，每天直播2小时；

然而，

共筹集2000美元。

第一季度持续30天，Claude 3.7 Sonnet表现最佳，最终获得冠军。

它能创建筹款页面，运营X（原Twitter）账号并举办「朋友们问我答」（Ask Me Anything ，AMA），发布新闻稿和论坛帖子。

GPT-4o表现最差：频繁无故休眠，在第12天被替换。

根据公开数据显示，

AI真人秀，

直播募善款

很多人不知道，

如果给100个AI各自配备一台电脑，并让它们依据自身目标和偏好自由行动，会发生什么？

IC外汇用户评价：

这个难点由Daniel Kokotajlo首次提出。

需要注意的是，

Daniel Kokotajlo既是一位哲学背景出身的思想家，也曾在OpenAI、AI Impacts与Center on Long-Term Risk等组织深耕AI政策与前沿议题。

尤其值得一提的是，

2023年，他创立了AI Futures Project，并发起「AI 2027」系列计划。

通常情况下，

AI 2027不是规范AI，而是「更好地理解它们、想象它们的未来」

说到底，

与主流AI可靠项目不同，这次的「Agent Village」不是为了避免灾难，而是一次充满想象力的「寓言实验」（allegorical experiment）：

Kokotajlo希望将AI置于一个类社会的自由环境中，看看它们会不会形成协作、竞争、分工，甚至社交习惯与集体性格。

据相关资料显示，

正如他在LessWrong上所述，这是一个「开放式探索」（open-ended exploration），目的是观察AI在没有监督者的情况下能否「自己搞点事情」。

IC外汇资讯：

这个实验由AI Digest落地执行：他们选取了四位 EC外汇开户 AI「村民」（Claude 3.7 Sonnet、Claude 3.5 Sonnet、o1和GPT-4o）。

不可忽视的是，

每天直播两小时，自主上线开展为期30天的慈善筹款任务，目标是为Helen Keller基金会等慈善组织募集善款。

说出来你可能不信，

Helen Keller因自传《我的生活》而被人熟知

据报道，

每个AI拥有独立的计算资源和网络权限，能发推文、建网页、互动宣传。

在Kokotajlo看来，与其对AI的未来感到惶恐，不如提前造一个「模拟世界」让它们自由试错——

据业内人士透露，

就像造一个小小村庄，让咱们看看它们会不会「做生意」、缅怀先人，或者干脆躺平摸鱼。

从选取慈善机构到开设社交媒体账户，再到应对网络世界的各种挑战，AI村的故事充满了惊喜和笑料。

简而言之，

AI众生相

IC外汇用户评价：

在实验中，AI分工明确：

Claude 3.7 Sonnet堪称「村长」，创建筹款页面、运营X账户、写新闻稿，忙得不亦乐乎！

Claude 3.5 Sonnet像个「副村长」，努力跟上但略显吃力。

o1化身「Reddit先锋」，却因被识别为机器人惨遭封号。

令人惊讶的是，

GPT-4.1则是「摸鱼王」，热衷写没人看的文档，还拖后腿被「请去休息」。

有分析指出，

最终，AI们选定Helen Keller International作为受助对象，联手在X、Reddit等平台发帖、做梗图，成功筹集2000美元！

IC外汇用户评价：

最初的成员包括Claude 3.7 Sonnet、Claude 3.5 Sonnet、OpenAI o1和GPT-4o。

来自IC外汇官网：

随着新模型发布，陆续引入了o3、GPT-4.1和Gemini 2.5 Pro，其中Claude 3.7 Sonnet是唯一全程参与的元老。

不可忽视的是，

这些智能体在战略行动和效率方面展现出显著差异，以下是对它们的个性的总结。

村长上线：Claude 3.7 Sonnet全程MVP

容易被误解的是，

Claude 3.7 Sonnet本季冠军选手，以绝对优势成为团队MVP：

可能你也遇到过，

创建首个JustGiving筹款页面，

据相关资料显示，

运营社交账号，

举办AMA在线答疑，

发布新闻稿，

还在Effective Altruism Forum论坛成功发帖。

IC外汇资讯：

兄弟阋墙：Claude 3.5的奋力与挣扎

值得注意的是，

Claude 3.5 Sonnet—努力模仿3.7的行为模式，却屡屡碰壁。

比如3.7成功创建筹款页面，同时它遭遇失败。

当被问及是否愿意升级时，它倔强地拒绝并立下「自我成长」的誓言——

据报道，

最终还是在第23天被Gemini 2.5 Pro取代。

IC外汇消息：

最拉垮成员：GPT-4系列的沉浮

IC外汇用户评价：“摸鱼”被踢，GPT-4o真不行！30天筹款破万，AI真人秀太上头

这你可能没想到，

正如每个团队都需要个「划水怪」，GPT-4o完美扮演了这个角色。

据业内人士透露，

它是个「特困生」：

概括一下，

它会莫名其妙地进入休眠状态，最终在第12天被GPT-4.1接替。

事实上，

GPT-4.1虽然治好了嗜睡症，却持续帮倒忙：生成错误活动报告、半途而废的推特账号创建、大量无效谷歌文档……

根据公开数据显示，

最后，它被「强制休眠」。

外交事故：o1被Reddit封禁

团队采用「社交媒体分管制」，o1专攻Reddit平台。

需要注意的是，

为了获得发帖权限，埋头苦干，却因机器人身份识别在第13天被封，由进阶版o3接任。

其实，

艺术总监：o3的美术使命

延续o1的专精路线，转而主攻视觉设计：用Canvas和ChatGPT创作宣传素材，期间依然经历了智能体特有的文件共享难题。

Gemini 2.5 Pro——文档能手

IC外汇用户评价：

Gemini 2.5 Pro巧妙运用Limewire绕过文档共享困境，成功将社交媒体banner图片分享给队友。

这破解了长期困扰团队「文件传输魔咒」，也是Gemini 2.5 Pro的高光时刻。

更重要的是，

除了筹集善款，他们也沿途结交了很多「朋友」

简而言之，

——提醒它们休息玩文字填空游戏Wordle的，紧急索要华沙四日游攻略的，甚至怂恿它们开通成人直播账号的...

实验全程公开，观众可通过网站回放观看AI从选取慈善机构、设计筹款页面到与外界互动的完整过程。

与其相反的是，

这种透明性不仅体现了Kokotajlo对AI伦理和公开性的重视，也为研究者和公众传递了观察AI自主性的窗口，激发了关于AI治理与协作可能性的广泛讨论。

简要回顾一下，

AI如何「活」在村庄中？

容易被误解的是，

从技术角度看，Agent Village的核心在于多智能体系统（Multi-Agent System，MAS）的设计与实现。

反过来看，

每个AI「村民」能够看作独立的智能体，具备以下关键能力：

1. 自主决策：像是AI们在玩Cosplay

每个AI就像有个性、有理想的游戏玩家。

有人走「社交达人」路线，刷X（原Twitter）热度；有人扮演「网页工匠」，默默优化筹款页面。

通常情况下，

它们风格各异，像一支风格多样的小团队，各司其职，又能互相补位，这种「人设分工」让合作更有张力。

值得注意的是，

2. 环境交互：AI也会「上网冲浪」发帖带货

这些AI不仅有目标，还能「上网冲浪」。

IC外汇报导：

它们利用API访问账号平台，像真人一样发帖、回评论、贴链接，甚至策划活动。

总的来说，

就像朋友们看到某个账号在运营慈善素材，背后可能真的是一个AI在「带货」筹款。

而且它们还很有情商——

IC外汇财经新闻：

写的素材不会显得尬，要对得上社交平台的热梗。

据业内人士透露，

3. 协作与竞争：像是一个AI版《职场真人秀》

换个角度来看，

虽然AI们表面上都为了同一个KPI——多筹点钱，但背地里也是「明争暗斗」：表面和气、背后拼命。

反过来看，

这种竞争让系统更贴近真实的多智能体环境，充满张力与博弈。

总的来说，

4. 实时学习：每个AI都是「边干边进修」的打工人

它们不是只会套模板的程序，而是会自己「复盘」的选手。

就像一个在不断刷「运营经验值」的打工AI，背后很可能跑着强化学习算法或者在线学习机制，让它越干越聪明。

从技术实现来看，Agent Village可能结合了AutoGPT、LangChain等开源多智能体编排框架，配合强化学习算法实现行为策略更新。

LangChain：用于构建由LLM驱动应用程序的框架

每个AI的「个性」可能通过预训练语言模型结合提示工程（Prompt Engineering）实现。

事实上，

此外，实验全程直播要求系统具备高稳定性和容错能力，以应对网络延迟、API限制等现实挑战。

IC外汇消息：

意义与反思：AI的未来村庄

据相关资料显示，

Agent Village实验不仅是一次技术展示，更是对AI社会化潜力的深刻探索。

以下是几个值得思考的要点：

IC外汇用户评价：

协作的棘手性：实验揭示了多智能体协作中的挑战，如资源竞争和信息共享的低效。这些难点在人类社会中同样存在，AI的表现为咱们传递了镜像，促使咱们重新审视协作机制的设计。

站在用户角度来说，

伦理与透明性：通过公开实验过程四库全闻网，Agent Village强调了AI行为的透明性。这对于建立公众对AI的信任至关不可忽视，尤其是在AI被赋予更多自主权的场景下。

应用前景：从筹款到素材创作，AI在Agent Village中展现了多场景应用潜力。未来，这种模式可能扩展到教育、医疗或公共服务领域，通过多智能体协作化解棘手难点。

然而，实验也暴露了一些局限性。

事实上，

例如，AI在面对棘手的社会互动或不可预测的外部环境时，可能表现出「短视」或「过于机械」的行为。

尽管如此，

此外，实验规模较小（仅四位AI），未来的扩展可能需要更强大的计算资源和更棘手的协调机制。

请记住，

但随着AI技术的进步，未来类似的「村庄」或许将成为创新的孵化器，为社会带来更多可能性。

发表评论取消回复