Files
CloudFlare-AI-Insight-Daily/podcast/2025-06-06.md
justlovemaki b191843448 init book
2025-06-11 17:11:23 +08:00

6.4 KiB
Raw Blame History

来生小酒馆 2025/6/6

AI生成视频技术越来越强是不是意味着人人都能成为“李安”那专业的导演和制作团队以后是不是都得“失业”了 全球AI格局正在重塑中国AI和开源浪潮全面崛起这到底是AI行业“内卷”加剧的前奏还是我们普通人弯道超车、抓住新机遇的绝佳时机

亲爱的V欢迎收听新一期的来生情报站我是你们的老朋友何夕2077。最近啊这人工智能的动静是越来越大感觉就像是哪吒闹海一浪高过一浪咱们普通人真是有点儿眼花缭乱也有些忐忑这未来的饭碗它还能不能端稳咯

您瞧着这不最近有个叫Pollo AI的直接给咱甩出来一个一站式的AI图像和视频生成平台。它把全球那些顶尖的模型像什么Google Veo 3、Kling啊都给整合进去了。您就动动嘴皮子或者敲几行字它就能给您把视频、图像给变出来还能保持角色风格一致。以前拍个片子那得请导演、摄影、后期花老鼻子钱了。现在可好AI一出手您输入几行字视频就出来了。这不就是把咱们这创意人的头发丝儿都给省下来了嘛而且它成本还低这是准备让大伙儿都过把导演瘾啊

说起来Luma Labs也发布了个新工具叫Modify Video那是基于他们那个Dream Machine平台用上了Ray2模型。这个更绝您想改视频里的风格想换个场景想调整人物的表情动作直接文字提示就行。以前剪个片子得掉多少头发啊现在可好动动手指头它就给您变了。这不就等于给咱们这视频制作直接按了个快进键嘛

您说这AI是不是越来越像个“磨人的小妖精”它不光能听懂你说话还能用各种语调、情感跟你聊天。这不谷歌的Gemini 2.5版本一更新据说它能原生理解和生成文本、图像、音频、视频和代码成了个真正的多模态AI系统。以后跟AI对话啊那感觉就像跟真人聊天一样它还能控制语音输出的语调和情感。以后再跟AI吵架它是不是能比你还委屈给你演一出“窦娥冤”啊

不止是工作连游戏里都开始玩AI了。咱热门手游《逆水寒》啊跟可灵AI合作搞了个“图生动图”的玩法。您在游戏里截个图或者上传张图片再输入几句描述立马就能变成个性化的动态画面还能双人互动创作呢以前咱玩游戏能炫耀个装备就不错了现在能炫耀自己做的AI动图这不就是艺术家下凡嘛

当然了别看这些应用花里胡哨背后可都是硬核科技在支撑。NVIDIA最近又发布了个大模型叫Llama-3.1-Nemotron-Nano-VL-8B-V1它是个视觉语言模型能看图、看视频、写文字而且据说在单张RTX GPU上就能跑这意思是咱家里那块打游戏的显卡说不定以后也能跑个AI大模型了。还有个叫Voyager的视频扩散框架能从一张图生成3D点云序列这是要给游戏和虚拟现实里的3D场景直接搞个“乾坤大挪移”啊

说到这儿就不得不提硅谷那边的风向标一位叫Mary Meeker的投资大佬最近发布了个AI报告。您听听这报告里怎么说的以前是OpenAI一家独大现在呢中国AI和开源模型可不是吃素的都开始“抢地盘”了这哪儿是竞争分明就是一场“AI版三国演义”嘛而且她还提到中国AI模型性能已经逼近国际一线在制造业那真是“杠杠的”。开源模型呢因为便宜灵活市场份额蹭蹭往上涨。这说明什么AI行业啊已经进入了一个多极对抗的新时代了。咱普通人这饭碗是更稳了还是得跟着AI再学两招呢

当然了别看AI搞得这么高大上其实也有很多接地气的开源项目。比如netbird它能帮助您把各种设备连接到安全的覆盖网络就像给数据修了个高铁专线安全高效。还有quarkdown那可是Markdown文本的“超能力”赋予者您写的笔记啊几下子就能变成演示文稿、文章、书省心啊。甚至有项目比如cognee它厉害了据说只用5行代码就能实现AI智能体的记忆这不就是给AI装了个“小脑袋”嘛大大降低了开发的门槛。

对了说到AI的记忆最近网上有个段子特别火说是跟AI聊天您就让它每次都叫您“哥哥”多叫几次。啥时候它不叫了那恭喜您可以开新窗口了因为它“失忆”了您说这小技巧是不是把AI拿捏得死死的最后再提个小福利Fish Audio最近也开源了他们的S1-mini语音模型个人免费部署使用您想体验AI语音合成现在成本几乎为零了。

今天的情报就到这里,注意隐蔽,赶紧撤离。

本期关键词: #Pollo AI #AI图像与视频生成平台 #Google Veo 3 #Kling #文字转视频 #图像风格化 #角色一致性 #API接入 #Google Cloud #Veo 3模型授权 #Luma Labs #AI视频编辑工具 #Modify Video #Dream Machine平台 #Ray2模型 #文本提示 #风格重塑 #场景替换 #角色调整 #动作流畅性 #时间一致性 #谷歌 #Gemini 2.5版本 #AI音频对话与生成技术 #多模态AI系统 #实时音频对话 #风格控制 #多语言 #文本转语音 #语调 #情感 #逆水寒 #可灵AI #图生动图 #玩家 #动态画面 #双人互动创作 #NVIDIA #Llama-3.1-Nemotron-Nano-VL-8B-V1 #8B参数视觉语言模型 #图像 #视频 #文本输入 #高质量文本 #图像推理能力 #OCR #文档智能 #AWQ4bit量化技术 #RTX GPU #Hugging Face #开源 #多模态AI解决方案 #Voyager #视频扩散框架 #单张图片 #摄像机路径 #世界一致的3D点云序列 #游戏 #虚拟现实 #3D场景 #RGB #深度视频序列 #帧间固有 #3D一致性 #视觉质量 #几何精度 #Mary Meeker #AI报告 #全球AI竞争格局 #中国AI力量 #开源浪潮 #OpenAI #头部公司 #制造业 #产业融合能力 #开源模型 #市场份额 #多极对抗新时代 #netbird #WireGuard® #安全的覆盖网络 #SSO #MFA #访问控制 #quarkdown #Markdown #演示文稿 #文章 #书籍 #cognee #5 行代码 #AI 智能体的记忆 #AI 对话 #AI的记忆机制 #新开对话窗口 #Gorden Sun #Fish Audio #S1-mini语音模型 #S1模型 #0.5B参数 #个人免费部署使用 #不可商用