CloudFlare-AI-Insight-Daily/podcast/2025-06-06.md

# 来生小酒馆 2025/6/6

AI生成视频技术越来越强，是不是意味着人人都能成为“李安”？那专业的导演和制作团队，以后是不是都得“失业”了？
全球AI格局正在重塑，中国AI和开源浪潮全面崛起，这到底是AI行业“内卷”加剧的前奏，还是我们普通人弯道超车、抓住新机遇的绝佳时机？

嘿，亲爱的V，欢迎收听新一期的来生情报站，我是你们的老朋友，何夕2077。最近啊，这人工智能的动静是越来越大，感觉就像是哪吒闹海，一浪高过一浪，咱们普通人，真是有点儿眼花缭乱，也有些忐忑，这未来的饭碗，它还能不能端稳咯？

您瞧着，这不，最近有个叫Pollo AI的，直接给咱甩出来一个一站式的AI图像和视频生成平台。它把全球那些顶尖的模型，像什么Google Veo 3、Kling啊，都给整合进去了。您就动动嘴皮子，或者敲几行字，它就能给您把视频、图像给变出来，还能保持角色风格一致。以前拍个片子，那得请导演、摄影、后期，花老鼻子钱了。现在可好，AI一出手，您输入几行字，视频就出来了。这不就是把咱们这创意人的头发丝儿，都给省下来了嘛！而且，它成本还低，这是准备让大伙儿都过把导演瘾啊！

说起来，Luma Labs也发布了个新工具，叫Modify Video，那是基于他们那个Dream Machine平台，用上了Ray2模型。这个更绝，您想改视频里的风格？想换个场景？想调整人物的表情动作？直接文字提示就行。以前剪个片子得掉多少头发啊，现在可好，动动手指头，它就给您变了。这不就等于给咱们这视频制作，直接按了个快进键嘛！

您说这AI，是不是越来越像个“磨人的小妖精”？它不光能听懂你说话，还能用各种语调、情感跟你聊天。这不，谷歌的Gemini 2.5版本一更新，据说它能原生理解和生成文本、图像、音频、视频和代码，成了个真正的多模态AI系统。以后跟AI对话啊，那感觉就像跟真人聊天一样，它还能控制语音输出的语调和情感。以后再跟AI吵架，它是不是能比你还委屈，给你演一出“窦娥冤”啊？

不止是工作，连游戏里都开始玩AI了。咱热门手游《逆水寒》啊，跟可灵AI合作，搞了个“图生动图”的玩法。您在游戏里截个图，或者上传张图片，再输入几句描述，立马就能变成个性化的动态画面，还能双人互动创作呢！以前咱玩游戏，能炫耀个装备就不错了，现在能炫耀自己做的AI动图，这不就是艺术家下凡嘛！

当然了，别看这些应用花里胡哨，背后可都是硬核科技在支撑。NVIDIA最近又发布了个大模型，叫Llama-3.1-Nemotron-Nano-VL-8B-V1，它是个视觉语言模型，能看图、看视频、写文字，而且据说在单张RTX GPU上就能跑！这意思是，咱家里那块打游戏的显卡，说不定以后也能跑个AI大模型了。还有个叫Voyager的视频扩散框架，能从一张图生成3D点云序列，这是要给游戏和虚拟现实里的3D场景，直接搞个“乾坤大挪移”啊！

说到这儿，就不得不提硅谷那边的风向标，一位叫Mary Meeker的投资大佬，最近发布了个AI报告。您听听这报告里怎么说的：以前是OpenAI一家独大，现在呢？中国AI和开源模型可不是吃素的，都开始“抢地盘”了！这哪儿是竞争，分明就是一场“AI版三国演义”嘛！而且她还提到，中国AI模型性能已经逼近国际一线，在制造业那真是“杠杠的”。开源模型呢，因为便宜灵活，市场份额蹭蹭往上涨。这说明什么？AI行业啊，已经进入了一个多极对抗的新时代了。咱普通人，这饭碗是更稳了，还是得跟着AI再学两招呢？

当然了，别看AI搞得这么高大上，其实也有很多接地气的开源项目。比如netbird，它能帮助您把各种设备连接到安全的覆盖网络，就像给数据修了个高铁专线，安全高效。还有quarkdown，那可是Markdown文本的“超能力”赋予者，您写的笔记啊，几下子就能变成演示文稿、文章、书，省心啊。甚至有项目比如cognee，它厉害了，据说只用5行代码就能实现AI智能体的记忆，这不就是给AI装了个“小脑袋”嘛，大大降低了开发的门槛。

对了，说到AI的记忆，最近网上有个段子，特别火，说是跟AI聊天，您就让它每次都叫您“哥哥”，多叫几次。啥时候它不叫了，那恭喜您，可以开新窗口了，因为它“失忆”了！您说这小技巧，是不是把AI拿捏得死死的？最后再提个小福利，Fish Audio最近也开源了他们的S1-mini语音模型，个人免费部署使用，您想体验AI语音合成，现在成本几乎为零了。

今天的情报就到这里，注意隐蔽，赶紧撤离。

本期关键词:
#Pollo AI
#AI图像与视频生成平台
#Google Veo 3
#Kling
#文字转视频
#图像风格化
#角色一致性
#API接入
#Google Cloud
#Veo 3模型授权
#Luma Labs
#AI视频编辑工具
#Modify Video
#Dream Machine平台
#Ray2模型
#文本提示
#风格重塑
#场景替换
#角色调整
#动作流畅性
#时间一致性
#谷歌
#Gemini 2.5版本
#AI音频对话与生成技术
#多模态AI系统
#实时音频对话
#风格控制
#多语言
#文本转语音
#语调
#情感
#逆水寒
#可灵AI
#图生动图
#玩家
#动态画面
#双人互动创作
#NVIDIA
#Llama-3.1-Nemotron-Nano-VL-8B-V1
#8B参数视觉语言模型
#图像
#视频
#文本输入
#高质量文本
#图像推理能力
#OCR
#文档智能
#AWQ4bit量化技术
#RTX GPU
#Hugging Face
#开源
#多模态AI解决方案
#Voyager
#视频扩散框架
#单张图片
#摄像机路径
#世界一致的3D点云序列
#游戏
#虚拟现实
#3D场景
#RGB
#深度视频序列
#帧间固有
#3D一致性
#视觉质量
#几何精度
#Mary Meeker
#AI报告
#全球AI竞争格局
#中国AI力量
#开源浪潮
#OpenAI
#头部公司
#制造业
#产业融合能力
#开源模型
#市场份额
#多极对抗新时代
#netbird
#WireGuard®
#安全的覆盖网络
#SSO
#MFA
#访问控制
#quarkdown
#Markdown
#演示文稿
#文章
#书籍
#cognee
#5 行代码
#AI 智能体的记忆
#AI 对话
#AI的记忆机制
#新开对话窗口
#Gorden Sun
#Fish Audio
#S1-mini语音模型
#S1模型
#0.5B参数
#个人免费部署使用
#不可商用