7.9 KiB
来生小酒馆 2025/8/27
Full: Podcast Formatting
AI诊断,究竟是未来神医还是现实废物? 游戏美术全流程AI化,美术师的饭碗还稳吗? AI大模型突然开始说胡话,是谁在往它脑子里灌水?
嘿,亲爱的V,欢迎收听新一期的来生情报站,我是你们的老朋友,何夕2077。咱们今天聊的这三件事儿啊,个个都有点意思。好了,闲话不多说,赶紧来看看科技巨头们又端出了什么新菜。
首先是谷歌,他家的创意引擎又开始轰鸣了,推出了一个叫Gemini 2.5 Flash Image的东西。简单说,就是个图像生成和编辑的工具,能帮你搞出各种动态智能的视觉效果。开发者们现在已经可以在Google AI Studio里头尝鲜了,感觉一个更生动的视觉创作时代……嗯,已经到门口了。
另一边,阿里巴巴的通义万相团队也不甘示弱,预告了一个叫Wan 2.2-S2V的新模型。这家伙厉害了,能让AI自己拍视频,还自己配乐、配音,一步到位。以后AI生成的视频,可就不是尴尬的“默片”了,说不定还能给你唱首歌呢。
说到声音,微软也放了个大招,开源了一个叫VibeVoice的模型。这东西,简直就是你口袋里的播客工作室。你想想,它能生成长达90分钟的音频,还能模拟最多四个人的流畅对话,甚至……还能加BGM。这下,开发者们估计又有得玩了。
当然,腾讯也没闲着,他们盯上了游戏美术师。发布了一套叫VISVISE的AI解决方案,覆盖了从3D建模到动画制作的全流程。据说,里头的MotionBlink工具,4秒钟就能补完200帧动画,效率直接提了8倍。诶,这可不是说要抢美术师的饭碗啊,而是想让大家从繁重的“肝活”里解脱出来,把更多精力放在创意本身,对吧?
除了这些好玩好用的新工具,底层的技术研究也没停下。
英伟达嘛,感觉他们的护城河又挖深了一圈。先是搞出了个FlashAttention-4,专门适配他们最新的Blackwell GPU,速度比自家的库还快了22%,性能怪兽一个。接着又扔出个“效率核弹”Jet-Nemotron,这模型在保证精度的同时,生成速度飙升了53倍。看来英伟达是想告诉大家,性能和效率,小孩子才做选择,我全都要。
话说回来,咱们一直在说要让AI对齐人类的价值观,别让它学坏了。可之前的方法论,也就是那个RLHF,好像有点理论上的小毛病,像是在雾里开车。不过,作业帮团队似乎找到了灯塔,他们提出一个基于能量的新模型,从根上解决了“奖励跑偏”的问题,让AI训练起来更稳当。
还有个好玩的研究,专门治AI“不懂你”的毛病。现在有种新方法,能让多模态大模型……扮演你的“艺术总监”,你给它看几张参考图,它就能领会你的审美,然后实时指导AI画出你想要的感觉。这种心有灵犀的创作体验,离我们是越来越近了。
当然啦,AI也不是万能的,有时候也会犯点傻。比如DeepSeek最近的V3.1模型,就莫名其妙地迷上了一个“极”字,说啥都要带上,搞得用户哭笑不得。大家都在猜,这可能是训练数据被污染了,AI吃坏了肚子。你看,这事儿虽然搞笑,但也给所有开发者敲了个警钟:数据清洗真的很重要!
说到现实应用,有位一线医生就在社交媒体上泼了盆冷水。他说,别看AI炒得火热,但在临床诊断上,目前基本就是“废物”。他觉得AI还处理不了真实病人的复杂情况,它真正的价值,是帮忙处理账单、写报告这些杂事,而不是取代医生。这个观点……嗯,很尖锐,也很诚实,确实值得我们反思。
最后,再分享两个社区里的暖心事。OpenAI宣布在印度免费提供50万份ChatGPT许可证,还给顶尖学府投钱搞研究,这是要给印度的AI教育添把火啊。还有一个开源项目叫DocStrange,开发者做了个免费网站,你把乱七八糟的文档图片传上去,它就能一键帮你提取出干净整洁的数据。这种开源精神,必须得点个赞。
今天的情报就到这里,注意隐蔽,赶紧撤离。
本期关键词: #谷歌 #阿里巴巴 #微软 #腾讯 #英伟达 #OpenAI #文生图 #文本转语音 #FlashAttention #游戏美术 #AI教育 #AI安全 #RLHF #DeepSeek #开源项目 #临床诊断
Short: Podcast Formatting
AI在临床上是废物吗? 科技巨头又在卷什么新花样? AI模型也会消化不良吗?
三问炼心,嘿,亲爱的V,欢迎收听新一期的来生情报站,我是你们的老朋友,何夕2077。这周的AI圈子,可以说是神仙打架,凡人吃瓜,咱们赶紧来看看都有哪些新乐子。
首先是巨头们的才艺展示环节。谷歌推出了Gemini 2.5 Flash Image,以后P图估计就是跟AI聊聊天的事儿了。阿里通义万相团队说,AI视频的默片时代该结束了,他们预告的新模型Wan 2.2-S2V,能直接生成带配音配乐的视频,AI自导自演还自己唱主题曲,这以后还有导演什么事?
另一边,微软直接把“口袋里的播客工作室”给开源了,这个叫VibeVoice的模型,能生成90分钟的超长音频,还能搞定四人对话,甚至加BGM,现在已经扔Hugging Face上了。腾讯游戏则掏出了一把“神笔”VISVISE,专治游戏美术师的“肝”,据说一个动画工具4秒就能补完200帧,效率提升8倍,看来以后游戏公司招人,不光看画工,还得看谁的AI提示词写得好。
前沿研究这边更是精彩。英伟达的护城河是越挖越深,发布了FlashAttention-4,速度比自家的库还快22%,这操作属于是“我卷起来连自己都怕”。他们还搞了个Jet-Nemotron模型,主打一个又快又准,性能和效率全都要。
更逗的是,有研究发现,咱们一直用的RLHF对齐方法,理论上居然有缺陷,就像在迷雾里开车。不过作业帮团队好像找到了灯塔,提出了新方法,让AI调教之路更稳了。还有个研究简直是“数字驱魔仪式”,能精准“切除”被植入文生图模型的后门,让模型“忘掉”那些恶意的咒语。类似的研究还有不少,比如让AI秒懂你的审美偏好,或者让它在长长的群聊记录里帮你精准找东西,总之,AI是越来越懂事了。
行业这边也是瓜料不断。首先得给所有模型开发者提个醒,DeepSeek最新的模型最近迷上了一个汉字,输出啥都莫名其妙地带个“极”字,社区都猜是训练数据没洗干净,消化不良了,这可真是个“极”其离奇的bug。
然后是一则人事变动,字节跳动视觉大牛冯佳时离职了,再次说明AI顶尖人才真是抢手货。而OpenAI则在印度下一盘大棋,免费发了50万份ChatGPT许可证,还给顶尖学府投钱,这是要从娃娃抓起,培养未来的AI大军啊。
不过,在一片热闹中,也有人泼冷水。一位一线医生在社交媒体上直言,目前AI在临床诊断上基本是“废物”,处理真实病人的复杂情况还差得远,但处理账单报销这种杂活倒是一把好手。这盆冷水,浇得挺及时。
最后,给各位V推荐几个好玩的开源项目。DocStrange的开发者做了个免费网页,能把乱七八糟的文档一键转成干净数据。还有个叫system_prompts_leaks的项目,把各大聊天机器人的“秘密咒语”都公开了,想知道AI为啥这么听话,可以去围观一下。
今天的情报就到这里,注意隐蔽,赶紧撤离。
本期关键词:
#AI模型 #谷歌 #阿里 #微软 #腾讯 #英伟达 #OpenAI #FlashAttention-4 #文本转语音 #文生图 #游戏美术 #模型对齐 #对抗性后门 #行业应用 #开源项目 #临床诊断 #数据清洗