Files
CloudFlare-AI-Insight-Daily/podcast/2025-09-10.md
2025-09-09 23:06:07 +08:00

84 lines
6.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 来生小酒馆 2025/9/10
## Full: Podcast Formatting
AI会让“996”成为全球标配吗
给AI定规矩是束缚还是保护
当AI工具免费创意还值钱吗
三步走亲爱的V欢迎收听新一期的来生情报站我是你们的老朋友何夕2077。
好,咱们废话不多说,直接上干货。
先来看看科技巨头们又在搞什么新花样。谷歌那边啊最近给他们的NotebookLM来了个史诗级的增强。这玩意儿现在可不是个简单的笔记本了它摇身一变成了你的私人报告助理。什么意思呢就是说它能用超过80种语言帮你生成结构化的报告还能智能推荐格式。你甚至可以用提示词去微调语气和风格……这意味着咱们这些打工人终于可以告别繁琐的格式调整把精力都放在那些闪光的创意上了对吧
同样是谷歌他们还干了件大事。文生视频模型Veo 3和Veo 3 Fast现在通过Gemini API全面开放了。重点来了价格直接大刀阔斧地砍了将近50%还加上了现在最火的9:16竖屏视频和1080p高清输出。嗯……这基本上就是把高质量AI视频创作的门槛从珠穆朗玛峰降到了你家门口的台阶上。全球的创作者们你们的工具箱又变重了。哦对了谷歌开发者社区还在搞一个AI Studio多模态挑战赛奖金3000美刀9月14号截止有想法的朋友可以去露一手。
说完谷歌再聊聊阿里。通义千问发布了一个全新的语音识别模型叫Qwen3-ASR-Flash。这模型啊不仅在11种语言里识别准确率顶尖它还有一个……怎么说呢有点惊人的超能力。它能转录歌声而且错误率低于8%。你没听错就是你五音不全的歌声它也能给你明明白白地转成文字。以后KTV里的麦霸们可得注意了你唱得好不好AI可都给你记着呢。
当然技术跑得快规矩也得跟上。这不中国最近就正式发布了30项人工智能国家标准还有84项在路上。这里面覆盖了从基础软硬件到安全治理的方方面面。特别值得注意的是针对现在很火的人形机器人已经有15项专属国标在全力推进了。这就像什么呢就像大家都在造各种各样的车而我们开始修高速公路、定交通规则了。这是想把咱们的“中国方案”推向全球的舞台啊。
说到规则就不得不提工作与生活的平衡。有个挺有意思的数据金融科技公司Ramp分析发现在硅谷的旧金山周六加班的现象正在急剧增加。嗯看来AI竞赛这股风不仅吹热了技术也把“卷文化”给吹起来了。
不过别光看大公司开源社区和社媒上的分享也同样精彩。比如字节跳动的Seedream 4.0模型最近就有个万字长文指南火了。它能干嘛呢能把你的宠物猫P成神话里的瑞兽能生成角色一致的漫画还能帮你设计PPT页面。这想象力……简直是创意AI应用的大师课。
还有B站备受期待的文本转语音模型IndexTTS2也开源了大家最关心的就是效果到底怎么样现在源码和模型都有了你可以自己去试试。
开源社区里还有一堆实用的小宝贝。比如说Umi-OCR一个离线的文字识别工具不需要联网保护隐私截图、PDF都能搞定。还有个叫AutoAgent的框架号称不用写代码就能构建复杂的AI代理。另外还有把普通割草机变智能的OpenMower还有个被誉为本地版Canva的设计工具jaaz……你看社区的力量总是能给我们带来惊喜。
最后有个开发者的分享我觉得很有意思。他在几个AI编程搭档之间反复横跳发现每个模型都有自己的“脾气”需要不同的“顺毛”技巧。这说明什么说明工具再好关键还是得看你怎么用找到最适合自己工作流的那个组合才是王道。
今天的情报就到这里,注意隐蔽,赶紧撤离。
本期关键词:
#谷歌
#NotebookLM
#Veo3
#阿里
#Qwen3-ASR
#语音识别
#人工智能国家标准
#人形机器人
#开源社区
#Umi-OCR
#字节跳动
#Seedream4.0
## Short: Podcast Formatting
AI让工作更“卷”了吗
AI能听懂KTV里的跑调歌手吗
为AI制定国标是铺路还是设障
亲爱的V欢迎收听新一期的来生情报站我是你们的老朋友何夕2077。这周的AI圈子可真热闹既有科技巨头们互相“卷”价格、“卷”功能也有咱们国家队下场制定规则咱们赶紧来看看都有哪些新动态。
先看谷歌他们家最近是懂怎么给打工人减负的。那个NotebookLM现在能用80多种语言帮你写报告格式都给你安排得明明白白。另一边文生视频模型Veo 3不仅价格“腰斩”还学会了做咱们爱看的9:16竖屏短视频。想练手的朋友也别错过谷歌AI Studio还有个多模态挑战赛等你拿奖金。
国内这边阿里通义千问的Qwen3-ASR模型放了个大招能把歌声转成文字错误率还极低以后去KTV可能得自带实时字幕了。巧了B站也刚开源了自家的文本转语音模型IndexTTS2效果到底惊不惊艳大家可以亲自去试试。
说到创意字节的Seedream 4.0模型被大神挖出了万字长篇指南能把你的宠物P成神话瑞兽还能一条龙生成漫画和PPT感觉想象力才是唯一的限制了。不过工具虽好也得会用。就有开发者分享在Gemini、DeepSeek这些模型间反复横跳后发现每个都有自己的“小脾气”关键还是得找到最适合自己的那一款。
技术狂奔规则也得跟上。咱们国家就正式发布了30项人工智能国家标准连新兴的人形机器人都安排上了15项。与此同时硅谷的数据显示AI竞赛正让周六加班成为新常态。看来AI带来的不只是便利还有新的思考题啊。
最后快速盘点一下开源社区的宝藏需要离线识别文字有Umi-OCR。想零代码构建AI代理试试AutoAgent。甚至还有能把你家傻瓜割草机变聪明的OpenMower。总之工具库又丰富了。
今天的情报就到这里,注意隐蔽,赶紧撤离。
---
本期关键词:
#谷歌
#NotebookLM
#Veo_3
#阿里
#Qwen3-ASR
#国家标准
#人形机器人
#开源
#Umi-OCR
#AutoAgent
#字节跳动
#Seedream_4.0
#IndexTTS2
#隐私
#996
#多模态