Update daily summary file for 2025-12-13

This commit is contained in:
何夕2077
2025-12-12 23:27:12 +08:00
parent 857575dc5c
commit 8ec3010bda

View File

@@ -7,11 +7,11 @@
### **今日摘要**
```
港大ViMax框架开源多智能体协作实现从创意到成片全流程自动化
谷歌Gemini Deep Research迭代式推理刷新SOTA基准成绩
GPT-5.2基准优异但产品体验翻车引发定价争议
迪士尼投资10亿美元授权OpenAI Sora使用200+顶级IP
腾讯反向挖角字节AI研究员薪资直接翻倍风向逆转
GPT-5.2基准涨成本增40%网友质疑换档升级
谷歌Deep Research治幻觉NotebookLM集成
浏览器Disco能把网页组装应用旅行规划一键搞定
Lang2Motion文本转轨迹检索准确率34.2%
迪士尼砸10亿授权200+IP给Sora引版权争议
```
@@ -19,57 +19,61 @@ GPT-5.2基准优异但产品体验翻车引发定价争议
### 前沿研究
1. **香港大学ViMax框架开源AI🚀实现自编自导自演。**
黄超教授团队推出[ViMax(AI资讯)](https://github.com/HKUDS/ViMax)GitHub已获⭐1.4k。通过多智能体协作(✧∀✧)从创意到成片全流程自动化。编剧、导演、摄像、剪辑智能体分工协作用户只需一句话💡AI就能独立完成千赞级视频内容。系统采用递归式叙事分解策略RAG增强全局上下文同步图网络驱动视觉一致性确保跨镜头角色形象、场景风格不变脸🔥。目前计算效率、交互编辑、多元文化支持、音频制作整合仍待提升但已标志AI视频生成从"碎片化拼接"向"体系化创作"[重要跃迁(AI资讯)](https://www.jiqizhixin.com/articles/2025-12-12-10)。<br/>![AI资讯香港大学黄超教授团队ViMax框架多智能体协作工作流程](https://image.jiqizhixin.com/uploads/editor/d4257b13-f483-44a9-98aa-281de647836b/640.png)<br/>
2. **谷歌Gemini Deep Research升级专治幻觉强化检索能力。**
正式发布增强版[Gemini Deep Research(AI资讯)](https://blog.google/technology/developers/deep-research-agent-gemini-api/)基于Gemini 3 Pro构建。采用迭代式推理🎯不仅提出查询需求还能读取整合搜索结果发现知识空白后针对性开展新一轮搜索💡。在HLE、BrowseComp、DeepSearchQA等测试中刷新SOTA成绩。配套推出DeepSearchQA基准测试集(✧∀✧)包含17个领域900个手工设计因果链任务比传统事实检索测试更能衡量多步推理与信息融合能力。同时发布Interactions API🚀为开发者提供与Gemini 3 Pro和Deep Research智能体交互的统一接口适配复杂上下文交互场景[来源:(AI资讯日报)](https://www.qbitai.com/2025/12/360539.html)。<br/>![AI资讯谷歌Gemini Deep Research在复杂信息检索任务中的表现对比图](https://www.qbitai.com/wp-content/uploads/replace/f27c8330b806f24888c250fc89ed1a8f374a4d1a.png)<br/>
3. **港大ViMax视觉资产生成采用先图后视频策略。**
ViMax制作智能体采用"先图后视频"的两步生成策略💡,首先创建核心视觉元素(角色造型、场景设计、关键画面),然后以此为基础生成对应的动态视频片段,确保视觉风格的精准控制🎯。质检智能体运用视觉语言模型进行专业评估,筛选出最符合分镜要求的版本。若所有候选都未达标,系统将自动调优参数并重新生成。这种闭环质量控制机制🚀确保每个制作环节都能输出专业级别的成果,为最终的完整视频奠定坚实基础[查看更多(AI资讯)](https://www.jiqizhixin.com/articles/2025-12-12-10)。<br/>![AI资讯ViMax框架中先图后视频的视觉资产生成流程示意图](https://image.jiqizhixin.com/uploads/editor/44e98817-e042-4c7a-97ee-34aaf938976f/1765534497630.png)<br/>
### 产品与功能更新
1. **GPT-5.2发布引争议,基准优异但产品体验翻车**
OpenAI推出GPT-5.2宣称在ARC-AGI-2、GDPval等基准上取得跃升💡并扩展上下文窗口与新的推理档位xhigh。不过用户反映🔥日常使用存在严重可用性问题会话在中断或切换时丢失、移动端websocket掉线导致历史不同步、上传图片与照片识别功能出错等。API定价相比5.1上调约40%,引发"性能是否匹配价格"的争论。发布页的视觉示例被发现多处明显错误🤨如把CMOS电池当成RAM、把DisplayPort说成HDMI等被批评为过度宣传且误导用户。[来源:(AI资讯日报)](https://newshacker.me/story?id=46234788)<br/>![AI资讯GPT-5.2在多项基准测试中的表现对比图表](https://newshacker.me/story?id=46234788)<br/>
1. **OpenAI新版引争议**
GPT-5.2号称[基准暴涨(AI资讯)](https://www.qbitai.com/2025/12/360539.html)但成本猛增40%🔥。网友质疑:换个推理档就能叫新版本?价格翻番谁买单(╯‵□′)╯。<br/>![AI资讯GPT-5.2基准测试对比图表](https://www.qbitai.com/wp-content/uploads/replace/f27c8330b806f24888c250fc50e89ed3.png)<br/>
2. **谷歌Gemini 3.0多模态能力完爆GPT-5.2**
有开发者将GPT-5.2宣传案例图让Nano Banana去掉标记框后🎯分别发给GPT-5.2和Gemini 3.0。结果显示Gemini 3.0完胜GPT-5.2🚀打脸OpenAI关于GPT 5.2的多模态超过Gemini 3的结论。尽管在UI重建或SVG/屏幕元素识别等基准上有提升(✧∀✧)视觉任务的方差仍然很大少数错误在宣传材料中造成信任损失💡。总的来看multimodal能力确有进步但对视觉错误的透明/退让更能维护用户信心[来源:(AI资讯日报)](https://x.com/op7418/status/1999450738242781409)。<br/>![AI资讯Gemini 3.0与GPT-5.2在同一图像识别任务中的对比结果](https://pbs.twimg.com/media/G76hG4aWsAAqgvm?format=png&name=orig)<br/>
2. **谷歌Deep Research升级**
Gemini 3 Pro驱动的[新工具来了(AI资讯)](https://www.qbitai.com/2025/12/360539.html)专治幻觉💡。NotebookLM即将集成还推出🚀Interactions API统一接口。五阶段智能体协作像剧组分工明确。<br/>![AI资讯谷歌Deep Research架构示意图](https://www.qbitai.com/wp-content/uploads/replace/0a1f1d80d6882e69d57e4a8f374a4d1a.png)<br/>
3. **NotebookLM加入Google AI Ultra计划顶配待遇来袭**
从今天开始🚀订阅Google AI Ultra计划的用户将在NotebookLM中享受顶配待遇最强模型支持直接调用Gemini系列最新、最强大的模型版本💡更高用量上限音频和视频概览、幻灯片生成等核心功能拥有最高额度限制最大容量空间笔记本的容量全面扩容每个笔记本支持添加的资料来源数量达到巅峰🎯。独家特权体验包括抢先使用特定功能(✧∀✧),比如重新上线的幻灯片"长篇模式",以及导出幻灯片和信息图表时可去除水印[来源:(AI资讯日报)](https://x.com/dotey/status/1999258681096175768)。<br/>![AI资讯NotebookLM加入Google AI Ultra计划后的功能提升对比图](https://pbs.twimg.com/media/G77HTATagAQImzl?format=jpg&name=orig)<br/>
3. **浏览器将变AI工具箱**
谷歌实验项目[Disco曝光(AI资讯)](https://www.xiaohu.ai/c/xiaohu-ai/disco-ai)能把开的网页自动组装成应用✨。旅行规划、花园设计都能一键搞定GenTabs技术打破标签隔阂(✧∀✧)。<br/>![AI资讯Disco自动生成旅行规划应用界面](https://assets-v2.circle.so/axtt6fpnloykgcakn0pvkzkyl0ug)<br/>
4. **谷歌TTS震撼登场。**
Gemini 2.5 Pro语音合成堪比[11Labs v3水准(AI资讯)](https://x.com/Gorden_Sun/status/1999115934175478252)情感丰富能发拟声词🎙。审核宽松引发争议NSFW内容竟能通过测试(⊙o⊙)。<br/><video src="https://video.twimg.com/amplify_video/1999115768634740736/vid/avc1/2172x1080/QefaNqnIwmVRH3Th.mp4?tag=21"></video><br/>
5. **NotebookLM加入顶配计划。**
订阅Google AI Ultra的用户获得[最高权限(AI资讯)](https://x.com/dotey/status/1999258681096175768)🏆。音频视频概览额度拉满幻灯片导出无水印Gemini最强模型随时调用。<br/>![AI资讯NotebookLM Ultra功能对比界面](https://pbs.twimg.com/media/G77HTATagAQImzl?format=jpg&name=orig)<br/>
### 前沿研究
1. **Lang2Motion突破动作生成。**
香港大学团队开源[轨迹生成框架(AI资讯)](https://arxiv.org/abs/2512.10617)用CLIP对齐语言与运动🎯。文本检索准确率34.2%超视频方法12.5个点动作识别88.3%(✧∀✧)。<br/>![AI资讯Lang2Motion文本到轨迹转换流程图](https://arxiv.org/abs/2512.10617)<br/>
2. **极端天气预测新范式。**
UniExtreme模型整合[频谱差异分析(AI资讯)](https://arxiv.org/abs/2508.01426)⚡。Beta分布滤波器捕获异常天气特征双层记忆融合网络解决多元极端场景。<br/>![AI资讯UniExtreme极端天气检测热力图](https://arxiv.org/abs/2508.01426)<br/>
3. **文生图对齐迎来破局。**
NPC管线通过[负向提示词自动化(AI资讯)](https://arxiv.org/abs/2512.07702)抑制非预期内容🚫。GenEval++得分0.571碾压基线0.371,交叉注意力模式揭示奥秘。<br/>![AI资讯NPC负向提示词生成效果对比](https://arxiv.org/abs/2512.07702)<br/>
4. **ViMax实现AI自编自导。**
港大开源的[多智能体框架(AI资讯)](https://www.jiqizhixin.com/articles/2025-12-12-10)⭐1.4k从剧本创作到成片输出全自动化🎬。RAG增强上下文同步图网络驱动视觉一致性。<br/>![AI资讯ViMax五阶段制作流程可视化](https://image.jiqizhixin.com/uploads/editor/bdb0ac38-fe09-4a2a-8728-03de6e4f660e/1765534474300.png)<br/>
### 行业展望与社会影响
1. **迪士尼投资10亿美元200+顶级IP授权OpenAI。**
迪士尼官宣向OpenAI投资10亿美元💡并签下一份为期三年的合作协议授权Sora使用旗下IP生成短视频内容🚀。一夜之间OpenAI直接拿到了200多个国际公认顶级IP的合法使用权包括米奇、米妮、灰姑娘、小美人鱼、《玩具总动员》、《头脑特工队》、《超能陆战队》、钢铁侠、雷神、洛基、达斯·维达、曼达洛人等。不过授权仅限动画或插画版本🎯不涉及任何真人演员的肖像与声音。此举标志着AI版权战从"锁起来不让AI碰"转向"谈一个合适的出场费"(✧∀✧)但也引发海量AI短视频"精神垃圾"的隐忧[来源:(AI资讯日报)](https://www.jiqizhixin.com/articles/2025-12-12-9)。<br/>![AI资讯迪士尼授权OpenAI使用的部分经典IP角色展示](https://image.jiqizhixin.com/uploads/editor/7a45a896-d2fd-4e05-b53e-3cd9dbed6991/640.gif)<br/>
1. **迪士尼下注OpenAI惹争议**
迪士尼砸10亿美元[授权200+IP给Sora(AI资讯)](https://www.jiqizhixin.com/articles/2025-12-12-9)💰。米奇灰姑娘随便捏,网友担忧版权沦为精神垃圾制造机(╯‵□′)╯。<br/>![AI资讯迪士尼IP授权OpenAI合作示意](https://image.jiqizhixin.com/uploads/editor/a9c83e39-c73e-4456-b1d0-cb5567284c52/640.gif)<br/>
2. **腾讯反向挖角字节AI研究员薪资直接翻倍**
过去几个月里🔥腾讯向字节跳动的AI研究员开出薪资直接翻倍的挖角条件💡且不是个案。字节大模型团队中的部分核心研究员已接受腾讯邀约标志着中国互联网大厂AI人才争夺战出现戏剧性风向逆转🚀。过去一年里主动四处挖人的是字节跳动如今风向却悄然对调。这或许正是字节抓紧推动豆包股等长期激励计划的原因(✧∀✧)——通过股权绑定核心人才,应对竞争对手的高薪攻势。腾讯的决心不仅体现在挖角竞争对手核心力量上🎯,还将橄榄枝伸向校园[来源:(AI资讯日报)](https://www.aibase.com/zh/news/23638)<br/>
2. **AI人才战风向逆转**
腾讯开出双倍薪资[挖角字节研究员(AI资讯)](https://www.aibase.com/zh/news/23638)🔥博士生薪酬超市场价50%。字节推豆包股权激励应战,产业重心转向科研型人才。<br/>![AI资讯互联网大厂AI人才薪资对比柱状图](https://pic.chinaz.com/picmap/201812191620400902_0.jpg)<br/>
3. **中国机器人应急救援比赛让美国网友Reddit破防**
最近,一篇"中国机器人在比火场救人🚀,美国机器狗还在给扎克伯格套脸?"的帖子被顶上了Reddit热门💡。发帖网友表示中国的机器人已经在比赛应急救援了咱还在给机器狗化妆拍段子。这一救援项目出自最近在上海举办的GDPS 2025全球开发者先锋大会暨国际具身智能技能大赛🎯。除了机器人应急救援比赛GDPS 2025比赛的规模也实属给外国网友刺激到了(✧∀✧),有网友表示:"刚看到2025年GDPS上海阵容就跟一支军队似的。我们还在制造理论人家就已经开始实地部署了。"[来源:(AI资讯日报)](https://www.qbitai.com/2025/12/360542.html)<br/>![AI资讯GDPS 2025上海大会中机器人应急救援比赛现场](https://www.qbitai.com/wp-content/uploads/replace/bae4c76d335f5ed775555cffdf1db241.png)<br/>
3. **具身智能中国震撼老外**
GDPS 2025上海赛事[让美国网友破防(AI资讯)](https://www.qbitai.com/2025/12/360542.html)😱。机器人应急救援对比,美国还在给机器狗化妆拍段子,量产优势形成代差。<br/>![AI资讯GDPS 2025机器人救援比赛现场](https://www.qbitai.com/wp-content/uploads/replace/bae4c76d335f5ed775555cffdf1db241.png)<br/>
### 开源TOP项目
4. **GPT-5.2基准成疑。**
网友[拆穿视觉对比猫腻(AI资讯)](https://x.com/op7418/status/1999450738242781409)🔍去掉标记框后Gemini 3.0完胜GPT-5.2。主板标注错误百出CMOS当RAM闹笑话。<br/>![AI资讯Gemini与GPT-5.2视觉识别盲测对比](https://pbs.twimg.com/media/G76hG4aWsAAqgvm?format=png&name=orig)<br/>
1. **goose开源可扩展AI智能体超越代码建议**
goose是一个开源、可扩展的AI智能体🚀超越代码建议——可使用任何LLM进行安装、执行、编辑和测试💡。目前在GitHub上已获得⭐23971。该项目标志着AI智能体从单一代码建议工具向全流程开发助手转变🎯用户可以通过配置不同的LLM来定制智能体的能力(✧∀✧),实现从代码生成到测试执行的完整开发流程自动化[项目地址(AI资讯)](https://github.com/block/goose)<br/>
2. **refly发布面向非技术创作者的Vibe工作流平台。**
refly是一个面向非技术创作者的Vibe工作流平台🚀在GitHub上已获得⭐5108。该平台专注于降低创作者使用AI工具的门槛💡通过可视化工作流设计让非技术背景的创作者也能轻松构建和部署AI应用🎯。平台支持多种创作场景(✧∀✧)从内容生成到多媒体处理为创作者提供了一站式AI创作解决方案[项目地址(AI资讯)](https://github.com/refly-ai/refly)。<br/>
5. **成本优化惊人突破**
ARC Prize验证[GPT-5.2效率提升390倍(AI资讯)](https://x.com/sama/status/1999191411313508704)💸。一年前o3(High)单任务4500美元如今X-High模式仅11.64美元达90.5%准确率⚡。<br/>![AI资讯ARC-AGI成本降低趋势曲线图](https://pbs.twimg.com/media/G76GGZwagAUn7ub?format=jpg&name=orig)<br/>
### 社媒分享
1. **ARC Prize宣布GPT-5.2 Pro成本下降390倍**
一年前🚀ARC Prize验证了OpenAI o3High在ARC-AGI-1上的得分为88%,每任务成本约$4.5k💡。今天验证了新的GPT-5.2 ProX-HighSOTA得分为90.5%,每任务成本$11.64🎯。这代表一年内效率提升约390倍(✧∀✧)Sam Altman对此表示"390x cost reduction in a year!"。这一数据也引发了对GPT-5.1是否故意降智以衬托5.2性能提升的讨论[来源:(AI资讯日报)](https://x.com/sama/status/1999191411313508704)。<br/>![AI资讯ARC Prize公布的GPT-5.2 Pro成本下降与性能提升对比](https://pbs.twimg.com/media/G76GGZwagAUn7ub?format=jpg&name=orig)<br/>
1. **Skills积累胜过重复造Agent**
Anthropic理念结合[Kombaico实践(AI资讯)](https://x.com/shao__meng/status/1999393092290638275)证明有Skills的AI设计品位完胜通用能力🎨。前端规范一致性成核心竞争力(✧∀✧)。<br/>![AI资讯Claude与Kombai前端设计效果对比](https://pbs.twimg.com/media/G79FXhAasAABhBW?format=jpg&name=orig)<br/>
2. **谷歌TTS达到Next Level水平审核松懈引发争议**
Gorden Sun分享了谷歌最新的TTS技术🚀表示其已达到11Labs v3差不多的水平语气自然、情感丰富能发出拟声词的音💡。音频由Gemini 2.5 Pro TTS生成这个模型现在对文本和音频都没有审核🎯且玩且珍惜(✧∀✧)。不过他也提醒NSFW警告不要在公开场合外放视频。该功能目前可在AI Studio免费使用[来源:(AI资讯日报)](https://x.com/Gorden_Sun/status/1999115934175478252)<br/>
3. **NotebookLM集成Skills概念提升前端设计能力。**
meng shao分享了Anthropic提出的"不要重复构建Agent💡而是要构建积累Skills"的概念🚀。结合"Improving frontend design through Skills"博客中的前端设计效果对比有无Skills时的差异非常明显🎯一个是前端能力强但不懂当前环境和品位要求的AI一个是既保持了通用的前端能力又对当前环境和品味要求有深入了解的AI(✧∀✧)。他还分享了Kombaico这个专门做前端开发的Coding Agent在前端设计还原、前端规范一致性、设计系统延续性、复杂前端工程开发等方面都有很多自己的特点[来源:(AI资讯日报)](https://x.com/shao__meng/status/1999393092290638275)。<br/>![AI资讯有无Skills时前端设计效果对比示例](https://pbs.twimg.com/media/G79FXhAasAABhBW?format=jpg&name=orig)<br/>
2. **GPT-5.1被怀疑故意降智**
开发者质疑[5.1是5.2陪衬(AI资讯)](https://x.com/Jimmy_JingLv/status/1999266190091518230)😅。Cursor里12月11号前免费5.1贼难用,数值对比纯粹为好看。<br/>![AI资讯GPT-5.1与5.2性能指标落差图](https://pbs.twimg.com/media/G76In9AagAE-A_i?format=jpg&name=orig)<br/>
---