Files
CloudFlare-AI-Insight-Daily/podcast/2025-08-18.md
2025-08-18 00:05:21 +08:00

81 lines
6.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 来生小酒馆 2025/8/18
## Full: Podcast Formatting
AI的“聪明”究竟是真懂还是死记硬背
名校学历在AI时代还值钱吗
当经济停滞,我们该加速还是踩刹车?
三问待琢磨亲爱的V欢迎收听新一期的来生情报站我是你们的老朋友何夕2077。
咱们开门见山啊。最近AI圈上演了一出“皇帝的新衣”主角呢是一个叫“分层推理模型”的家伙简称HRM。之前大家都觉得它特厉害以为它的推理能力强是因为那个听起来特别高大上的“分层架构”。结果呢ARC Prize团队闲着没事儿就去扒了扒它的底……你猜怎么着人家的高性能压根儿跟那个架构没太大关系秘密武器其实是一个叫“外循环”的优化过程。说白了它更像是在死记硬背特定题目的解法而不是真的会举一反三。这波操作可以说是把AI的“伪装”给撕下来了。
说到这推理能力啊还有个研究更有意思。上海交大的一个课题组就搞了个测试叫PersonaEval专门考验大模型能不能分清对话里到底是谁在说话。这就好比让AI当裁判结果发现……这裁判有点“脸盲”。就算是顶尖的Gemini-2.5-pro准确率也才68.8%咱们人类呢随随便便就能达到90.8%。所以你看给AI喂再多知识它要是连核心的推理都搞不定那可能连谁是原告谁是被告都分不清对吧
聊完了技术本身咱们再看看这股浪潮对人的影响。现在美国顶尖大学像哈佛、MIT正闹起一股“辍学潮”。这帮精英学子分成了两派上演了一出现实版的冰与火之歌。一派是“加速派”觉得时不我待赶紧辍学去硅谷创业生怕错过风口另一派呢是忧心忡忡的“末日派”他们担心通用人工智能会带来生存危机于是也辍学了不过是去研究AI安全想给狂奔的科技踩踩刹车。不管是追风还是避险都说明一个问题那就是传统的大学文凭在AI时代确实是面临着不小的冲击。
社会层面的影响还不止于此。现在美国经济好像也按下了暂停键,进入了一种“大停滞”状态。人们既不轻易买房,也不怎么换工作了,整个社会的流动性降到了冰点。这种“原地锁定”的状态,让年轻人想换个大点的房子难,想为了更好的工作机会搬家也难,长此以往,整个经济的活力都会受到影响。
当然了除了这些宏大的叙事AI也有很多好玩又实用的东西。比如最近GitHub上火了几个开源项目
想给你的AI编程助手装个“超级大脑”可以看看Archon OS。
想几分钟内部署一个AI代理有个叫parlant的框架很方便。
还有白帽黑客专用的AI叫cai专门帮你找漏洞。
如果你有选择困难症Super Magic号称是第一个一体化的AI生产力平台啥都有。
哦对还有一个拿了快5万星的项目叫OpenBB简直就是给咱们普通人用的“彭博终端”搞金融数据分析的可以关注下。
最后分享两个社媒上的小趣闻。一个是有位开发者爸爸受“Vibe coding”的启发做了个“小朋友知识卡片生成器”。孩子问个“为什么”AI立马就能生成图文并茂的卡片简直是守护好奇心的神器。另一个是篇叫M3-Agent的论文介绍了一种既能处理图片视频又有长期记忆的AI代理。嗯……也就是说未来的AI助手可能真的能记住你上次跟它聊了什么而不是每次都像失忆一样。
今天的情报就到这里,注意隐蔽,赶紧撤离。
---
**本期关键词:**
#分层推理模型
#核心推理能力
#PersonaEval
#辍学潮
#AI安全
#大停滞
#社会流动性
#开源项目
#AI代理
#知识卡片生成器
#多模态代理
## Short: Podcast Formatting
AI的大脑是真聪明还是假把式
顶尖大学不念了去搞AI才是正事
当整个社会按下暂停键AI是推手吗
三问炼心亲爱的V欢迎收听新一期的来生情报站我是你们的老朋友何夕2077。
最近AI界上演了一出“皇帝的新衣”。那个听起来特厉害的分层推理模型被ARC Prize团队扒了个底朝天。结果发现它的高分秘诀不是什么高大上的分层架构而是靠一个叫“外循环”的优化过程说白了就是背题库而不是真会推理。这操作属实是有点尴尬。
说到推理上海交大的一个研究也很有意思。他们搞了个叫PersonaEval的测试让AI当裁判判断对话里到底是谁在说话。结果呢就连顶尖的Gemini-2.5-pro准确率也才68.8%咱们人类可是高达90.8%。看来想让AI当个明察秋毫的法官得先教它分清谁是原告谁是被告核心推理能力才是硬道理。
模型本身还在努力进化但它掀起的浪花已经拍到了现实社会。现在美国顶尖大学比如哈佛、MIT正流行一股“辍学潮”。精英学子们兵分两路一波是“加速派”觉得时不我待赶紧投身硅谷创业另一波是“末日派”担心通用人工智能失控干脆辍学去研究AI安全想给狂飙的科技踩踩刹车。
精英们在加速与刹车之间反复横跳,而普通人的生活却似乎进入了“大停滞”状态。最近数据显示,美国人既不爱买房了,也不轻易换工作了,整个社会的流动性降到了冰点。这种“原地锁定”效应,让经济的活力都打了折扣。
当然挑战之下也有机遇。开源社区就热闹非凡涌现了一堆好东西。比如给AI编程助手装个“超级大脑”的Archon OS能让你几分钟部署AI代理的parlant框架还有专为白帽黑客打造的AI助手cai号称一体化AI生产力平台的Super Magic以及为普通人打造的金融“彭博终端”OpenBB。
社媒上也有温情的一面。有开发者做了个“小朋友知识卡片生成器”把熊孩子的“十万个为什么”变成可爱的图文卡片守护好奇心这事儿AI也能出份力。另外一个叫M3-Agent的论文也火了它搞了个有多模态能力和长期记忆的AI代理未来的AI助手可能真能记住你上周说过的话了。
最后给各位开发者提一嘴有个叫AIClient-2-API的项目能把一些客户端工具变成强大的API帮你绕开限制免费丝滑地调用Claude这类模型堪称省钱大法。
今天的情报就到这里,注意隐蔽,赶紧撤离。
---
**本期关键词:**
#分层推理模型
#核心推理能力
#AI安全
#辍学潮
#大停滞
#开源
#AI代理
#多模态
#知识管理
#金融数据
#AIClient2API