Files
CloudFlare-AI-Insight-Daily/podcast/2025-08-27.md
2025-08-26 23:50:53 +08:00

99 lines
7.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 来生小酒馆 2025/8/27
## Full: Podcast Formatting
AI诊断究竟是未来神医还是现实废物
游戏美术全流程AI化美术师的饭碗还稳吗
AI大模型突然开始说胡话是谁在往它脑子里灌水
亲爱的V欢迎收听新一期的来生情报站我是你们的老朋友何夕2077。咱们今天聊的这三件事儿啊个个都有点意思。好了闲话不多说赶紧来看看科技巨头们又端出了什么新菜。
首先是谷歌他家的创意引擎又开始轰鸣了推出了一个叫Gemini 2.5 Flash Image的东西。简单说就是个图像生成和编辑的工具能帮你搞出各种动态智能的视觉效果。开发者们现在已经可以在Google AI Studio里头尝鲜了感觉一个更生动的视觉创作时代……嗯已经到门口了。
另一边阿里巴巴的通义万相团队也不甘示弱预告了一个叫Wan 2.2-S2V的新模型。这家伙厉害了能让AI自己拍视频还自己配乐、配音一步到位。以后AI生成的视频可就不是尴尬的“默片”了说不定还能给你唱首歌呢。
说到声音微软也放了个大招开源了一个叫VibeVoice的模型。这东西简直就是你口袋里的播客工作室。你想想它能生成长达90分钟的音频还能模拟最多四个人的流畅对话甚至……还能加BGM。这下开发者们估计又有得玩了。
当然腾讯也没闲着他们盯上了游戏美术师。发布了一套叫VISVISE的AI解决方案覆盖了从3D建模到动画制作的全流程。据说里头的MotionBlink工具4秒钟就能补完200帧动画效率直接提了8倍。诶这可不是说要抢美术师的饭碗啊而是想让大家从繁重的“肝活”里解脱出来把更多精力放在创意本身对吧
除了这些好玩好用的新工具,底层的技术研究也没停下。
英伟达嘛感觉他们的护城河又挖深了一圈。先是搞出了个FlashAttention-4专门适配他们最新的Blackwell GPU速度比自家的库还快了22%性能怪兽一个。接着又扔出个“效率核弹”Jet-Nemotron这模型在保证精度的同时生成速度飙升了53倍。看来英伟达是想告诉大家性能和效率小孩子才做选择我全都要。
话说回来咱们一直在说要让AI对齐人类的价值观别让它学坏了。可之前的方法论也就是那个RLHF好像有点理论上的小毛病像是在雾里开车。不过作业帮团队似乎找到了灯塔他们提出一个基于能量的新模型从根上解决了“奖励跑偏”的问题让AI训练起来更稳当。
还有个好玩的研究专门治AI“不懂你”的毛病。现在有种新方法能让多模态大模型……扮演你的“艺术总监”你给它看几张参考图它就能领会你的审美然后实时指导AI画出你想要的感觉。这种心有灵犀的创作体验离我们是越来越近了。
当然啦AI也不是万能的有时候也会犯点傻。比如DeepSeek最近的V3.1模型就莫名其妙地迷上了一个“极”字说啥都要带上搞得用户哭笑不得。大家都在猜这可能是训练数据被污染了AI吃坏了肚子。你看这事儿虽然搞笑但也给所有开发者敲了个警钟数据清洗真的很重要
说到现实应用有位一线医生就在社交媒体上泼了盆冷水。他说别看AI炒得火热但在临床诊断上目前基本就是“废物”。他觉得AI还处理不了真实病人的复杂情况它真正的价值是帮忙处理账单、写报告这些杂事而不是取代医生。这个观点……嗯很尖锐也很诚实确实值得我们反思。
最后再分享两个社区里的暖心事。OpenAI宣布在印度免费提供50万份ChatGPT许可证还给顶尖学府投钱搞研究这是要给印度的AI教育添把火啊。还有一个开源项目叫DocStrange开发者做了个免费网站你把乱七八糟的文档图片传上去它就能一键帮你提取出干净整洁的数据。这种开源精神必须得点个赞。
今天的情报就到这里,注意隐蔽,赶紧撤离。
---
本期关键词:
#谷歌
#阿里巴巴
#微软
#腾讯
#英伟达
#OpenAI
#文生图
#文本转语音
#FlashAttention
#游戏美术
#AI教育
#AI安全
#RLHF
#DeepSeek
#开源项目
#临床诊断
## Short: Podcast Formatting
AI在临床上是废物吗
科技巨头又在卷什么新花样?
AI模型也会消化不良吗
三问炼心亲爱的V欢迎收听新一期的来生情报站我是你们的老朋友何夕2077。这周的AI圈子可以说是神仙打架凡人吃瓜咱们赶紧来看看都有哪些新乐子。
首先是巨头们的才艺展示环节。谷歌推出了Gemini 2.5 Flash Image以后P图估计就是跟AI聊聊天的事儿了。阿里通义万相团队说AI视频的默片时代该结束了他们预告的新模型Wan 2.2-S2V能直接生成带配音配乐的视频AI自导自演还自己唱主题曲这以后还有导演什么事
另一边微软直接把“口袋里的播客工作室”给开源了这个叫VibeVoice的模型能生成90分钟的超长音频还能搞定四人对话甚至加BGM现在已经扔Hugging Face上了。腾讯游戏则掏出了一把“神笔”VISVISE专治游戏美术师的“肝”据说一个动画工具4秒就能补完200帧效率提升8倍看来以后游戏公司招人不光看画工还得看谁的AI提示词写得好。
前沿研究这边更是精彩。英伟达的护城河是越挖越深发布了FlashAttention-4速度比自家的库还快22%这操作属于是“我卷起来连自己都怕”。他们还搞了个Jet-Nemotron模型主打一个又快又准性能和效率全都要。
更逗的是有研究发现咱们一直用的RLHF对齐方法理论上居然有缺陷就像在迷雾里开车。不过作业帮团队好像找到了灯塔提出了新方法让AI调教之路更稳了。还有个研究简直是“数字驱魔仪式”能精准“切除”被植入文生图模型的后门让模型“忘掉”那些恶意的咒语。类似的研究还有不少比如让AI秒懂你的审美偏好或者让它在长长的群聊记录里帮你精准找东西总之AI是越来越懂事了。
行业这边也是瓜料不断。首先得给所有模型开发者提个醒DeepSeek最新的模型最近迷上了一个汉字输出啥都莫名其妙地带个“极”字社区都猜是训练数据没洗干净消化不良了这可真是个“极”其离奇的bug。
然后是一则人事变动字节跳动视觉大牛冯佳时离职了再次说明AI顶尖人才真是抢手货。而OpenAI则在印度下一盘大棋免费发了50万份ChatGPT许可证还给顶尖学府投钱这是要从娃娃抓起培养未来的AI大军啊。
不过在一片热闹中也有人泼冷水。一位一线医生在社交媒体上直言目前AI在临床诊断上基本是“废物”处理真实病人的复杂情况还差得远但处理账单报销这种杂活倒是一把好手。这盆冷水浇得挺及时。
最后给各位V推荐几个好玩的开源项目。DocStrange的开发者做了个免费网页能把乱七八糟的文档一键转成干净数据。还有个叫system_prompts_leaks的项目把各大聊天机器人的“秘密咒语”都公开了想知道AI为啥这么听话可以去围观一下。
今天的情报就到这里,注意隐蔽,赶紧撤离。
---
### **本期关键词:**
#AI模型
#谷歌
#阿里
#微软
#腾讯
#英伟达
#OpenAI
#FlashAttention-4
#文本转语音
#文生图
#游戏美术
#模型对齐
#对抗性后门
#行业应用
#开源项目
#临床诊断
#数据清洗