刚刚已往的这周,AI圈又迎来诸神之战。 外洋,OpenAI破天荒三天两次发布,上线GPT-4.1、o3、o4-mini三款模子,紧接着Google就立即推出Gemini 2.5 Flash,对着o4-mini狂炫性价比。 国内,快手开辟布会高调公布可灵2.0上新,字节则在发布会前一天,悄悄上线视频生成底子模子Seaweed。 除却这几家的公开对垒,Anthropic、Grok、阿里、腾讯、Kimi、智谱、蚂蚁等公司均有差别程度的模子、产品更新。 根据我们的不完全统计,已往七天,至少有超十家着名AI公司公布了AI希望,涉及近20款模子、10个应用层产品的更新。 总结来看,本次AI公司们的批量上新重要出现以下特点:
模子侧上新:Google猛打OpenAI、字节偷袭可灵 中门对狙之外,多家公司还公布了图像推理、开源方面的希望。 OpenAI:3天2次上新 4月14日和16日,OpenAI分别举行两场发布会,带来3款大模子:GPT-4.1、o3、o4-mini。
14日发布的 GPT-4.1 模子一共有 GPT-4.1,GPT-4.1 mini、GPT-4.1 nano三个版本。 全系列模子均只有 API 版本,支持百万上下文,主打性价比,好像是专门“抢”开辟者用户的一款模子。 对比前两个月刚发布的 GPT-4.5 预览版,GPT-4.1 系列性能并不输,而且输出代价约莫只有GPT-4.5代价的1/20。对比 Gemini 2.5 Pro Experimental、Claude 3.7 Sonnet 等模子,代价也还是具备上风的。 功能表现上,GPT-4.1 比力善于代码、指令依照、多模态长上下文。 在同一段提示词来创建一个网页应用的case上,能看到 GPT-4.1 对比 GPT-4o 有了显着的 UI 雅观度提拔 *GPT-4o 创建的应用页面 *GPT-4.1 创建的应用,UI 更雅观
推理模子方面,OpenAI 推出了“有史以来的最强模子” o3,以及更具性价比的 o4-mini。 本次推出的两款模子,主打的亮点之一是多模态推理本领和工具使用本领。 *网友让 o3 识别照片中笔记本上的乐曲标题,o3 在放大图片两次后,做出了正确的手写字识别 *网友上传一张照片,让 o3 判定拍摄地点,o3 将图片截取成多个小块,放大并查找全部大概存在的线索 Google:夸大性价比,追着OpenAI打?
4月18日,紧跟着o4-mini,谷歌发布首个混合推理模子Gemini 2.5 Flash。而且,Gemini 2.5 Flash好像在性价比上赢过了o4-mini。 混合推理模子,为必要在性能、资本、延迟之间找到完满均衡的开辟者而设计。 据介绍,Gemini 2.5 Flash 不但继承了 2.0 Flash 的高速相应特点,还可以自由设定思考深度,资助预算不敷的用户进一步控制推理资本。 *网友用 Gemini 2.5 Flash 生成的概率模子demo
这个版本的Gemma 3经过量化感知练习 (Quantization-Aware Training,QAT)优化,能在保持高质量的同时显着低沉内存需求。 与传统在模子练习完成后再量化的方式差别,QAT 将量化过程直接融入练习阶段。它通过在练习中模仿低精度运算,使模子在后续被量化为更小、更快的版本时,仍能保持正确率丧失最小化。 现在经过 QAT 优化后,Gemma 3 27B 的 VRAM 占用量可以从 54GB 降至 14.1GB,可以在 NVIDIA RTX 3090 等斲丧级 GPU 上本地运行。
本周,谷歌Veo 2视频生成模子上线 Gemini,订阅 Gemini Advanced的付费用户已经可以使用。 Veo 2的首次亮相是近期的Next 2025大会,它从一个生成工具变化为一个全面的视频创作和编辑平台。 *使用Veo 2编辑不必要的配景、徽标或干扰物 *生成链接帧 快手:发布可灵AI 2.0和可图AI 2.0 4月15日,快手发布了可灵AI 2.0和可图AI 2.0。 和字节悄悄上线Seaweed差别,快手对这场发布做了不少铺垫。 发布会中,快手公布现在可灵 AI 环球用户规模突破 2200 万,已往的 10 个月里,月活用户量增长 25 倍,累计生成凌驾 1.68 亿个视频及 3.44 亿张图片。
可灵AI 2.0是视频生成模子。这次引入了多模态视觉语言(MVL),结合文本、图片和动态影像。同时,可灵AI还上新了多模态编辑创作功能。 *使用多模态编辑功能生成视频,用参考图中的人物形象更换原视频中的形象 从结果上,快手以为现在创作者们会遇到两类题目:一类是语义依照本领妨碍创作者们用笔墨精准表达、控制生成结果;二是动态质量,包罗运动崩坏或者不符合物理规律题目。 为此,可灵 2.0 视频生成模子在语义相应、画面质量、动态质量、真实度和美感上都有提拔。 *在这个小球掉落的 case 中,Kling 2.0的细节表现已经凌驾了 Veo 2
可图是图像生成模子。快手表现,可图 2.0 模子,在指令依照、电影质感及艺术风格表现等方面作了提拔。 在风格化相应上,可图 2.0 支持 60 多种风格化的结果转绘,包罗GPT 风格、二次元风格、插画风格、数字天下、3D 等。 有网友已经在可灵创意区圈里分享了本身的风格转绘结果: 原图: 转绘: *提示词:着色器瓦解,每32个像素为1个单元,每一个单元的基色出现非常厘革。 图源:可灵创意圈 星辰之子月神.exe 字节:2个发布,2个升级,1个开源 字节本周公布多个模子侧希望,覆盖深度思考、视频生成、智能体模子。 具体来看,它发布了豆包1.5·深度思考模子和视频底子大模子Seaweed,升级了文生图模子3.0和豆包视觉明白模子,开源了智能体模子 UI-TARS-1.5。 字节还披露了豆包大模子的最新调用信息。 制止2025年3月尾,豆包大模子日均tokens调用量凌驾12.7万亿,是2024年12月的3倍、一年前的106倍,火山引擎在中国公有云大模子市场份额位居第一。
声势最大的,是豆包1.5·深度思考模子的发布。 字节介绍,全新发布的豆包1.5·深度思考模子,在数学、代码、科学等专业范畴推理使命中表现出色,已经到达或靠近环球第一梯队程度;在创意写作等非推理使命中,模子也展示出良好的泛化本领,可以大概胜任更广泛和复杂的使用场景。 总结来看,字节表现豆包1.5·深度思考模子有以下几个特点:
*网友用豆包 1.5·深度思考模子来推理上传图地点的地理位置
4月14日,字节Seed团队发布了给定图像视频生成底子模子Seaweed。 据称,这一模子参数为70亿,却能实现逾越同类140亿参数视频模子的结果,可依据文本形貌创建各种分辨率、宽高比与时长的视频。 *使用 Seaweed 生成的视频
字节还公布升级文生图模子。 据介绍,升级的豆包·文生图模子3.0,可以大概更好地举行笔墨排版、到达实拍级图像生成结果,以及2K的高清图片生成方式,可以广泛应用于影视、海报、绘画、玩偶设计等营销、电商、设计场景。
同时升级的尚有视觉明白模子。 字节介绍,新版本的豆包·视觉明白模子具备更强的视觉定位本领,在视频明白本领上也有提拔。
*官方给出的视觉明白模子case
本周,字节Seed还开源了一款“智能体模子”。 据介绍,这是一款基于视觉-语言模子构建的开源多模态智能体,能在假造天下中高效实行各类使命。它具备真实利用电脑和手机体系的本领,同时,还可操控欣赏器、完成复杂交互使命。 *使用UI-TARS-1.5来主动玩消消乐 阿里:发力视频生成,Qwen3依然没声音? 阿里本周的模子层希望重要在视频生成范畴,前段时间风很大的Qwen3依然没动静。
4月17日,通义万相开源了基于Wan2.1文生视频14B大模子的首尾帧生视频模子,支持生成时长5秒的720p高清视频。 据介绍,这个首尾帧模子可以大概精准复刻输入图像细节,生成的视频动作真实自然流畅。 比方,可实现小女孩侧脸被阴影遮挡、剑齿虎在森林中移动、宇宙飞船灯光熄灭等复杂场景的自然过渡。同时,模子在殊效变更和创意场景上也表现不错,如实现漩涡变莲花的奇幻结果。 具体结果参考: *提示词:“写实风格,脸部特写,一个红发碧眼的小女孩,镜头微微左移,记载她被阴影遮住的侧脸。” 生成视频: 在技能上,它接纳DiT架构,通过高效的视频压缩VAE模子低沉运算资本,并使用Transformer的Full Attention机制捕捉长时程时空依赖关系。 智谱:开源新一代GLM模子 4月15日,智谱公布开源新一代GLM模子,包罗GLM-4-32B-0414基座模子、GLM-Z1-32B-0414推理模子、GLM-Z1-Rumination-32B-0414沉思模子和小尺寸的9B系列模子。 它们均依照MIT许可协议,可通过z.ai访问体验。
GLM-4-32B-0414 善于工程代码、Artifacts 生成、函数调用、搜索问答及陈诉撰写等使命比力善于。 智谱官方也给出了相应的案例: *提示词:给我设计一个移动端呆板学习平台的 UI,此中要包罗练习使命,存储管理,和个人统计界面。个人统计界面要用图表展示用户已往一段时间的各类资源使用环境。使用 Tailwind CSS 来美化页面,把这 3 个手机界面平铺展示到一个 HTML 页面中 GLM-Z1-32B-0414还重推理,在多个基准测试中显现强盛的数理推理本领。 |

专注IT众包服务
平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全
交易资金托管平台,保障资 金安全,确认完成再付款

实力商家
优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管
交易过程中产生纠纷,官方100%介入受理,交易无忧

微信访问
手机APP