来生小酒馆 2025/8/27

Full: Podcast Formatting

AI诊断，究竟是未来神医还是现实废物？游戏美术全流程AI化，美术师的饭碗还稳吗？ AI大模型突然开始说胡话，是谁在往它脑子里灌水？

嘿，亲爱的V，欢迎收听新一期的来生情报站，我是你们的老朋友，何夕2077。咱们今天聊的这三件事儿啊，个个都有点意思。好了，闲话不多说，赶紧来看看科技巨头们又端出了什么新菜。

首先是谷歌，他家的创意引擎又开始轰鸣了，推出了一个叫Gemini 2.5 Flash Image的东西。简单说，就是个图像生成和编辑的工具，能帮你搞出各种动态智能的视觉效果。开发者们现在已经可以在Google AI Studio里头尝鲜了，感觉一个更生动的视觉创作时代……嗯，已经到门口了。

另一边，阿里巴巴的通义万相团队也不甘示弱，预告了一个叫Wan 2.2-S2V的新模型。这家伙厉害了，能让AI自己拍视频，还自己配乐、配音，一步到位。以后AI生成的视频，可就不是尴尬的“默片”了，说不定还能给你唱首歌呢。

说到声音，微软也放了个大招，开源了一个叫VibeVoice的模型。这东西，简直就是你口袋里的播客工作室。你想想，它能生成长达90分钟的音频，还能模拟最多四个人的流畅对话，甚至……还能加BGM。这下，开发者们估计又有得玩了。

当然，腾讯也没闲着，他们盯上了游戏美术师。发布了一套叫VISVISE的AI解决方案，覆盖了从3D建模到动画制作的全流程。据说，里头的MotionBlink工具，4秒钟就能补完200帧动画，效率直接提了8倍。诶，这可不是说要抢美术师的饭碗啊，而是想让大家从繁重的“肝活”里解脱出来，把更多精力放在创意本身，对吧？

除了这些好玩好用的新工具，底层的技术研究也没停下。

英伟达嘛，感觉他们的护城河又挖深了一圈。先是搞出了个FlashAttention-4，专门适配他们最新的Blackwell GPU，速度比自家的库还快了22%，性能怪兽一个。接着又扔出个“效率核弹”Jet-Nemotron，这模型在保证精度的同时，生成速度飙升了53倍。看来英伟达是想告诉大家，性能和效率，小孩子才做选择，我全都要。

话说回来，咱们一直在说要让AI对齐人类的价值观，别让它学坏了。可之前的方法论，也就是那个RLHF，好像有点理论上的小毛病，像是在雾里开车。不过，作业帮团队似乎找到了灯塔，他们提出一个基于能量的新模型，从根上解决了“奖励跑偏”的问题，让AI训练起来更稳当。

还有个好玩的研究，专门治AI“不懂你”的毛病。现在有种新方法，能让多模态大模型……扮演你的“艺术总监”，你给它看几张参考图，它就能领会你的审美，然后实时指导AI画出你想要的感觉。这种心有灵犀的创作体验，离我们是越来越近了。

当然啦，AI也不是万能的，有时候也会犯点傻。比如DeepSeek最近的V3.1模型，就莫名其妙地迷上了一个“极”字，说啥都要带上，搞得用户哭笑不得。大家都在猜，这可能是训练数据被污染了，AI吃坏了肚子。你看，这事儿虽然搞笑，但也给所有开发者敲了个警钟：数据清洗真的很重要！

说到现实应用，有位一线医生就在社交媒体上泼了盆冷水。他说，别看AI炒得火热，但在临床诊断上，目前基本就是“废物”。他觉得AI还处理不了真实病人的复杂情况，它真正的价值，是帮忙处理账单、写报告这些杂事，而不是取代医生。这个观点……嗯，很尖锐，也很诚实，确实值得我们反思。

最后，再分享两个社区里的暖心事。OpenAI宣布在印度免费提供50万份ChatGPT许可证，还给顶尖学府投钱搞研究，这是要给印度的AI教育添把火啊。还有一个开源项目叫DocStrange，开发者做了个免费网站，你把乱七八糟的文档图片传上去，它就能一键帮你提取出干净整洁的数据。这种开源精神，必须得点个赞。

今天的情报就到这里，注意隐蔽，赶紧撤离。

本期关键词: #谷歌 #阿里巴巴 #微软 #腾讯 #英伟达 #OpenAI #文生图 #文本转语音 #FlashAttention #游戏美术 #AI教育 #AI安全 #RLHF #DeepSeek #开源项目 #临床诊断

Short: Podcast Formatting

AI在临床上是废物吗？科技巨头又在卷什么新花样？ AI模型也会消化不良吗？

三问炼心，嘿，亲爱的V，欢迎收听新一期的来生情报站，我是你们的老朋友，何夕2077。这周的AI圈子，可以说是神仙打架，凡人吃瓜，咱们赶紧来看看都有哪些新乐子。

首先是巨头们的才艺展示环节。谷歌推出了Gemini 2.5 Flash Image，以后P图估计就是跟AI聊聊天的事儿了。阿里通义万相团队说，AI视频的默片时代该结束了，他们预告的新模型Wan 2.2-S2V，能直接生成带配音配乐的视频，AI自导自演还自己唱主题曲，这以后还有导演什么事？

另一边，微软直接把“口袋里的播客工作室”给开源了，这个叫VibeVoice的模型，能生成90分钟的超长音频，还能搞定四人对话，甚至加BGM，现在已经扔Hugging Face上了。腾讯游戏则掏出了一把“神笔”VISVISE，专治游戏美术师的“肝”，据说一个动画工具4秒就能补完200帧，效率提升8倍，看来以后游戏公司招人，不光看画工，还得看谁的AI提示词写得好。

前沿研究这边更是精彩。英伟达的护城河是越挖越深，发布了FlashAttention-4，速度比自家的库还快22%，这操作属于是“我卷起来连自己都怕”。他们还搞了个Jet-Nemotron模型，主打一个又快又准，性能和效率全都要。

更逗的是，有研究发现，咱们一直用的RLHF对齐方法，理论上居然有缺陷，就像在迷雾里开车。不过作业帮团队好像找到了灯塔，提出了新方法，让AI调教之路更稳了。还有个研究简直是“数字驱魔仪式”，能精准“切除”被植入文生图模型的后门，让模型“忘掉”那些恶意的咒语。类似的研究还有不少，比如让AI秒懂你的审美偏好，或者让它在长长的群聊记录里帮你精准找东西，总之，AI是越来越懂事了。

行业这边也是瓜料不断。首先得给所有模型开发者提个醒，DeepSeek最新的模型最近迷上了一个汉字，输出啥都莫名其妙地带个“极”字，社区都猜是训练数据没洗干净，消化不良了，这可真是个“极”其离奇的bug。

然后是一则人事变动，字节跳动视觉大牛冯佳时离职了，再次说明AI顶尖人才真是抢手货。而OpenAI则在印度下一盘大棋，免费发了50万份ChatGPT许可证，还给顶尖学府投钱，这是要从娃娃抓起，培养未来的AI大军啊。

不过，在一片热闹中，也有人泼冷水。一位一线医生在社交媒体上直言，目前AI在临床诊断上基本是“废物”，处理真实病人的复杂情况还差得远，但处理账单报销这种杂活倒是一把好手。这盆冷水，浇得挺及时。

最后，给各位V推荐几个好玩的开源项目。DocStrange的开发者做了个免费网页，能把乱七八糟的文档一键转成干净数据。还有个叫system_prompts_leaks的项目，把各大聊天机器人的“秘密咒语”都公开了，想知道AI为啥这么听话，可以去围观一下。

今天的情报就到这里，注意隐蔽，赶紧撤离。

本期关键词:

#AI模型 #谷歌 #阿里 #微软 #腾讯 #英伟达 #OpenAI #FlashAttention-4 #文本转语音 #文生图 #游戏美术 #模型对齐 #对抗性后门 #行业应用 #开源项目 #临床诊断 #数据清洗

7.9 KiB Raw Blame History Unescape Escape

来生小酒馆 2025/8/27

Full: Podcast Formatting

Short: Podcast Formatting

本期关键词:

7.9 KiB

Raw Blame History