来生小酒馆 2025年6月1日

AI现在看图、读表的能力怎么样了？它真的能像我们一样理解并“推理”吗？

当AI成为我们工作的好伙伴时，它究竟是我们的“外脑”，还是终将取代我们？

未来，AI的研究方向，会如何回应我们对“智能”的期待，又将如何影响我们的社会和经济？

嘿，亲爱的V，欢迎收听新一期的来生情报站！我是你的老朋友，又来给你播报未来情报了。今天咱们聊聊AI的最新动态，嗯，有惊喜，也有思考。

首先啊，咱们得说说最近通义实验室的一个大动作，他们发布并开源了一个叫VRAG-RL的东西，听起来有点复杂对吧？其实简单来说，就是想解决AI从图像、表格这些“视觉语言”里，怎么才能更聪明地找出关键信息，并且进行更精细的分析和判断。你想啊，我们人看一张图，一下就知道重点在哪儿，可AI之前在这方面就有点“笨拙”，但现在有了这个VRAG-RL，它通过强化学习和创新的视觉感知机制，嘿，理解和检索效率显著提升了！据说在很多测试里都表现出色，未来在处理各种视觉任务时，AI的“举一反三”能力，也就是泛化能力，会变得更强，想想就觉得挺酷的，对吧？

不过话说回来，就在我们为AI的这些进步欢呼的时候，亚利桑那州立大学的一个研究小组，就给我们泼了一点“冷水”。他们发了篇论文指出，我们现在天天在用、觉得特智能的大语言模型，其实并没有进行真正的“推理”。它只是在寻找数据之间的相关性，有点像在找规律，而不是真的在思考。这个发现嘛，可能会导致公众对AI的工作机制产生一些误解。所以啊，研究人员就强调了，在咱们越来越依赖AI的时代，对待这些技术能力，得更谨慎一些。他们也希望未来的AI研究能朝着更具“解释性”的方向发展，让AI不光能告诉我们答案，还能告诉我们“为什么”得出这个答案。我觉得这个提醒非常重要，毕竟知其然还要知其所以然嘛。

但同时，AI在提升我们工作效率这方面，真的是没停下来。比如说，Perplexity AI，他们最近就推出了一个新功能叫Perplexity Labs。你知道Perplexity以前是个答案引擎，就是你问它问题，它给你答案。但现在它变了，变成了一个能帮你从创意到成果，提供“全链条支持”的综合性AI生产平台。Pro订阅用户可以使用这个功能，它能通过多工具协同，把复杂项目的开发流程简化到几分钟，是不是听着就觉得效率倍增？

类似的还有咱们国内的夸克，也上线了一个叫“深度研究”的功能。这个功能是基于通义千问大模型的，能围绕一些复杂的学术课题啊、行业分析啊，自动完成从资料搜集到报告生成的全流程研究。这可真是厉害了，以前我们可能要花几天甚至几周时间，现在AI能给你搞定。这标志着AI正从一个单纯的信息检索工具，变成一个能跟你一起创作内容的伙伴，想想科研调研、市场洞察这些场景，效率肯定蹭蹭地往上涨。

而且，开发者们也有福利了！阿里云正式发布了通义灵码 AI IDE，这是一款原生的人工智能开发环境。它凭借强大的编程智能体模式、长期记忆和行间建议预测功能，能显著提升开发者的编程效率。它已经免费开放下载了，而且听听这数据：它的插件累计生成了超过30亿行代码！这说明它有多受欢迎，真的是企业开发工作的强力支持。

再来说个特别有意思的，一款叫Memvid的AI记忆工具。你可能想象不到，它竟然能把文本数据编码成MP4视频。没错，就是视频！这样做有什么好处呢？它能实现亚秒级的快速语义搜索，而且还大大节省存储空间，甚至支持离线使用。它内置了聊天功能，还能导入PDF文档。这简直就是为我们高效管理知识、进行学术研究提供了革命性的全新可能啊，有没有觉得很神奇？

不过，有光明就有阴影，关于AI对社会影响的担忧，也一直没断过。Anthropic公司的CEO，达里奥・阿莫代伊就发出了一个警告。他认为，AI可能在未来五年内取代一半入门级白领工作，这可能会导致失业率飙升到10%-20%，并且加剧经济不平等。他呼吁大家提高对AI发展的认知和AI素养，这样我们才能更好地适应未来的职业环境。他也强调，政策制定者们需要开始思考，在这样一个“超智能经济”下，该怎么找到解决方案。这个嘛，确实值得我们每个人深思。

当然啦，AI带来的便利也是实实在在的。比如AI初创公司Manus，就推出了一个Manus Slides功能。你只需要一个提示词，就能一键生成专业幻灯片，无论是商务会议还是教育课程，都能搞定，这效率提升得简直不是一点半点。它有智能生成和灵活编辑的能力，还能导出PowerPoint或者PDF。这说明AI代理啊，正在从任务自动化，向更高级的生产力工具进一步演进，真的越来越像我们的“私人助理”了。

除了这些商用产品，开源社区也一直没闲着。在GitHub上，有几个项目特别受欢迎。

第一个是拥有7086颗星的prompt-eng-interactive-tutorial，这是Anthropic公司开源的一个交互式提示工程教程项目，专门帮助大家有趣又有效地学习怎么跟AI“对话”，也就是提示工程。

第二个是获得10143颗星的onlook项目，这是一个开源可视化氛围编码编辑器。它利用AI帮助设计师或开发者可视化地构建、美化和编辑React应用。这个工具就像是设计师的光标，让React开发变得更直观高效。

还有啊，拥有12755颗星的anthropic-cookbook项目，这是Anthropic公司专门展示如何有趣且有效地使用Claude的笔记本/秘籍集合，各种使用方法，应有尽有。

最后，咱们再聊两个AI前沿研究的进展。

一个是MMSI-Bench，这是一个针对多图像空间智能的VQA基准测试。研究发现，虽然现在多模态大语言模型（就是那种又能看图又能理解文字的AI）取得了很大进展，但在处理多图像空间推理方面，它们的准确率只有30%-40%，而人类能达到97%。这说明AI和人类之间，在理解多张图像之间的空间关系上，还存在着巨大的差距。这项研究也诊断出了模型四种主要的失败模式，为未来提升AI的这个能力提供了宝贵的见解。

另一个是ZeroGUI，这是一个创新的在线学习框架。它厉害的地方在于，可以实现零人力成本地自动化GUI智能体训练。啥意思呢？就是让AI自己学习怎么操作电脑界面，不需要人类手动去标注。它通过基于VLM的自动任务生成和奖励评估，克服了传统GUI学习对人工标注的重度依赖。实验证明，这个框架显著提升了GUI智能体在不同环境下的性能，为自动化GUI操作带来了高效的解决方案。

还有一个很关键的，是针对Transformer架构设计的高容量长期记忆模块，叫ATLAS。我们都知道，AI在处理长文本的时候，有时候会“记不住”前面的内容，就像人类的短期记忆一样。ATLAS就是来解决这个问题的，它通过优化记忆上下文，来克服现有模型在长序列理解上的局限，从而在测试时学习最优的记忆策略。实验结果表明，ATLAS在语言建模和长上下文理解等任务中表现优于其他模型，显著提升了性能。这让AI能够更好地理解长篇大论，而不是顾此失彼。

嗯，听完这些，是不是对AI的现在和未来有了更清晰的认识呢？它既是效率的倍增器，也是一个需要我们审慎对待、不断学习和适应的伙伴。

今天的情报就到这里，注意隐蔽，赶紧撤离。

本期关键词: #AI #大语言模型 #VRAG-RL #视觉感知 #多模态RAG推理框架 #精细化推理 #泛化能力 #真正推理 #Perplexity_AI #Perplexity_Labs #AI生产力工具 #夸克 #深度研究 #报告生成 #内容创作伙伴 #阿里云 #通义灵码_AI_IDE #编程效率 #Memvid #AI记忆工具 #文本数据编码 #语义搜索 #Anthropic #失业率 #AI素养 #Manus_Slides #幻灯片 #提示工程 #可视化 #MMSI-Bench #多图像空间智能 #ZeroGUI #GUI智能体 #ATLAS #长期记忆模块 #长序列理解

8.6 KiB Raw Blame History Unescape Escape

来生小酒馆 2025年6月1日

8.6 KiB

Raw Blame History