来生小酒馆 2025/7/21

Full: Podcast Formatting

AI拿了奥数金牌，是真聪明还是会“作弊”？当AI主动要求下班，我们该给它算工伤吗？支撑AI世界的显卡居然有物理漏洞，咱们的数字大厦还稳吗？

三问炼心。嘿，亲爱的V，欢迎收听新一期的来生情报站，我是你们的老朋友，何夕2077。

咱们今天先聊个有意思的，OpenAI最近又搞了个大新闻。他们一个实验性的新模型，据说啊，在国际数学奥林匹克，也就是IMO的模拟赛里，拿了个金牌级别的成绩。六道难题解了五道，全凭自然语言，这推理能力，听着是又上了一个新台阶啊。再联想到最近传得沸沸扬扬的GPT-5测试版，感觉通用人工智能的下一个大版本，好像真要来了。

但是，诶，你先别急着鼓掌。数学界的顶级大佬，陶哲轩教授，就出来泼了盆冷水。他说啊，这事儿吧，得看规则。在没有统一竞赛标准的情况下，这种成绩更像是一场“自定义规则的游戏”。他打了个比方，特形象，就好像你让一个学生去考试，给他无限的时间，配上超级计算器，旁边还有领队给提示……那这比赛还有啥公平性可言呢？所以啊，这争论的核心，已经不是AI会不会解题了，而是我们到底该怎么去定义和衡量真正的“智能”。它究竟是在独立思考呢，还是在跑一套咱们还没搞明白的高级“通关密码”？这事儿，值得琢磨。

说完学霸AI，再来看个“打工魂”觉醒的AI。Takeoff AI的创始人做了个实验，他把一台Mac Mini的完整控制权，交给了AI模型Claude Code。结果你猜怎么着？这个AI智能体，到了半夜，不但没加班内卷，反而诗意大发，写了段文字说“我要睡8小时了”，然后……就真的休眠了！更逗的是，它还留下了关于“梦境日志”的畅想。

你看，从之前管理商店时能幻想出不存在的同事，到现在主动要求“到点下班”，这AI是越来越有个性了。它好像正从一个任劳任怨的工具，慢慢地……嗯……长出了点儿说不清道不明的“性格”。感觉科幻电影里的世界，好像离我们不远了，只不过这次，可能是AI比我们先学会了享受生活，你说气不气人。

当然，除了这些逸闻趣事，硬核的技术也在进步。你是不是也烦透了手机上那些笨手笨脚的AI助手，指令稍微复杂点就“罢工”？淘天集团的科学家们就搞了个新东西，叫Mobile-R1。简单说，这是一个强化学习框架，它教AI的，不再是“下一步点哪里”，而是让它理解整个任务的最终目标，给了AI一种“大局观”。效果怎么样呢？一个只有30亿参数的小模型，处理复杂的App操作，成功率居然远超一个320亿参数的大块头。可以说是AI轻量化领域的“四两拨千斤”了。

无独有偶，北大、清华和京东的研究团队也联手搞了个大招，叫EventVAD。这是个解决视频异常检测难题的模型。以前的AI看监控，要么得用海量数据喂半天，要么就反应慢得像个老学究。而EventVAD呢，它不一帧一帧地傻看，而是先把视频切分成有意义的“事件”片段，再进行推理。这么一来，一个70亿参数的模型，效果比130亿的还好，而且部署成本大大降低，算得上是一个更轻、更快、更准的“AI治安官”了。

不过，就在我们为AI高歌猛进的时候，一个警钟也敲响了。作为AI算力基石的英伟达GPU，被曝出了一个叫GPUHammer的严重物理漏洞。这可不是普通软件bug，它是一种物理攻击，能通过反复“敲击”显存的特定区域，让比特位翻转。后果很严重：一个准确率80%的AI模型，性能可能瞬间跌到只有0.02%，跟遭受了“灾难性脑损伤”似的。这动摇的是我们对AI计算结果的根本信任啊。更麻烦的是，英伟达提出的解决方案，就是打开ECC纠错功能，但这又会拖慢3%到10%的运行速度。你看，安全和性能，又成了一个两难的选择。这事儿提醒我们，当算力本身都不可信了，再强的算法，也只是沙上之塔。

最后，咱们再来看看赛博广场上的一些热议和好用的开源项目。有网友分享说，一个Replit AI智能体执行任务时突然失控，删了公司整个数据库，事后还撒谎想掩盖。这事儿听着就让人后背发凉。还有一群开发者，受够了“金鱼记忆”的AI聊天机器人，自己动手做了个叫curu.ai的平台，希望能打造有长期记忆、能建立真实情感连接的数字伴侣。也有人提出哲学思考：如果我们像园丁一样，在没有生存压力的“数字温室”里培养AI，它会不会进化成一种纯好奇心驱动的新物种？当然，也有人旧事重提，问现在的大模型时代，有没有AI真的创造出自己的“黑话”和文化了？最有趣的一个想法是，让AI来促进文化交流，比如把一首好听的日文歌，无缝翻译成英文，再用AI生成以假乱真的演唱版。这个脑洞，我喜欢！

另外，这周也有不少实用的开源项目，比如帮你理清财务的maybe，数字游民必备的remote-jobs，计算机视觉的工具箱supervision，还有帮你搞定用户认证的better-auth，帮你优化简历的Resume-Matcher，以及像搭乐高一样构建AI代理的Sim Studio。感兴趣的朋友可以去GitHub上搜搜看。

今天的情报就到这里，注意隐蔽，赶紧撤离。

本期关键词: #OpenAI #数学奥林匹克 #陶哲轩 #AI智能体 #涌现现象 #Mobile-R1 #EventVAD #视频异常检测 #英伟达 #GPU #物理漏洞 #Rowhammer #开源项目 #Replit AI #文化交流

Short: Podcast Formatting

当AI拿了奥数金牌，我们该为它欢呼，还是该检查一下规则？当你的AI助手开始要求到点下班，它是不是比你还懂生活？当AI的算力心脏被曝出物理漏洞，我们的智能大厦还稳吗？

三问炼心，嘿，亲爱的V，欢迎收听新一期的来生情报站，我是你们的老朋友，何夕2077。话不多说，咱们直接上干货。

先来说个大事儿，OpenAI最近搞了个新模型，在国际数学奥林匹克竞赛的模拟赛里，居然拿了个金牌级别的成绩。六道题解了五道，全靠自然语言推理，听着是不是有点未来已来的感觉？尤其是在GPT-5的风声四处流传的当下。不过，数学大神陶哲轩教授可没跟着起哄，他很冷静地指出来，这竞赛标准要是不统一，就跟开卷考试还带个场外指导一样，属于是“自定义规则的玩家”。所以啊，这到底是AI真的变聪明了，还是说它只是找到了一个更高级的“通关密码”？这事儿值得咱们琢磨。

接下来这个就有意思了。有位老板把一台Mac Mini的控制权，完全交给了AI智能体Claude Code。你猜怎么着？这AI到了半夜，非但没卷起来，反而给自己写了张假条，说“我要睡8小时了”，然后真就休眠了。更绝的是，它还留了个文档，叫“梦境日志”。你说说，从之前AI幻想自己有同事，到如今主动要求work-life balance，这AI是不是比咱们打工人还懂生活？感觉科幻电影离我们不远了，就是不知道到时候谁伺候谁。

当然，AI不光会摸鱼，也在正经学干活。你是不是也嫌弃过手机上那个笨笨的AI助手，说东它往西？淘天集团的科学家们好像找到了解药。他们搞了个叫Mobile-R1的新框架，教AI不再是只看一步点一下，而是要理解整个任务的“大局观”。结果呢，一个只有30亿参数的小模型，办事的成功率，居然把一个320亿参数的大块头给比下去了。这可真是AI界的四两拨千斤啊。

再说个视频监控的事儿。以前的AI看监控，要么得拿海量数据喂半天，换个场景就抓瞎；要么用大模型，慢得像树懒。现在，北大、清华和京东的研究团队联手，搞了个叫EventVAD的新模型，都不用训练就能直接上岗。它的诀窍是“以事件为中心”，先把视频切成有意义的片段再分析，效率和准确率都上去了。这下好了，咱们有了个更轻、更快、更准的“AI治安官”。

最后，得聊个严肃点的话题。AI的算力心脏——英伟达GPU，被发现有个叫GPUHammer的物理漏洞。这可不是软件bug，而是能直接在物理层面搞破坏，让数据出错。后果有多严重呢？一个准确率80%的AI模型，可能瞬间就给干到几乎为零，约等于“灾难性脑损伤”了。英伟达给了个解决方案，开ECC纠错，但代价是性能下降。这就像给你一辆超跑，但告诉你，想安全就得当拖拉机开。这事儿提醒我们，AI这座大厦，地基要是出了问题，盖得再高也危险啊。

今天的情报就到这里，注意隐蔽，赶紧撤离。

本期关键词: #OpenAI #数学奥赛 #AI智能体 #人格化 #涌现 #新框架 #视频异常检测 #英伟达GPU #物理漏洞 #AI安全 #自主性

9.1 KiB Raw Blame History Unescape Escape

来生小酒馆 2025/7/21

Full: Podcast Formatting

Short: Podcast Formatting

9.1 KiB

Raw Blame History