科技信息

7天近20款模子更新，环球AI再现最卷一周

刚刚已往的这周，AI圈又迎来诸神之战。外洋，OpenAI破天荒三天两次发布，上线GPT-4.1、o3、o4-mini三款模子，紧接着Google就立即推出Gemini 2.5 Flash，对着o4-mini狂炫性价比。国内，快手开辟布会高调公布可灵2.0上

刚刚已往的这周，AI圈又迎来诸神之战。

外洋，OpenAI破天荒三天两次发布，上线GPT-4.1、o3、o4-mini三款模子，紧接着Google就立即推出Gemini 2.5 Flash，对着o4-mini狂炫性价比。

国内，快手开辟布会高调公布可灵2.0上新，字节则在发布会前一天，悄悄上线视频生成底子模子Seaweed。

除却这几家的公开对垒，Anthropic、Grok、阿里、腾讯、Kimi、智谱、蚂蚁等公司均有差别程度的模子、产品更新。

根据我们的不完全统计，已往七天，至少有超十家着名AI公司公布了AI希望，涉及近20款模子、10个应用层产品的更新。

总结来看，本次AI公司们的批量上新重要出现以下特点：

推理（包罗图像推理）、多模态本领和视频生成是模子侧的重要更新方向。
模子的高性价比和开源的趋势仍旧连续。
产品侧更注意工具使用的完满，Agent实践更加成熟。

模子侧上新：Google猛打OpenAI、字节偷袭可灵

本周的模子层更新非常猛烈，Google VS OpenAI，字节 VS 可灵，都透出一丝火药味儿。

中门对狙之外，多家公司还公布了图像推理、开源方面的希望。

OpenAI：3天2次上新

4月14日和16日，OpenAI分别举行两场发布会，带来3款大模子：GPT-4.1、o3、o4-mini。

GPT-4.1

14日发布的 GPT-4.1 模子一共有 GPT-4.1，GPT-4.1 mini、GPT-4.1 nano三个版本。

全系列模子均只有 API 版本，支持百万上下文，主打性价比，好像是专门“抢”开辟者用户的一款模子。

对比前两个月刚发布的 GPT-4.5 预览版，GPT-4.1 系列性能并不输，而且输出代价约莫只有GPT-4.5代价的1/20。对比 Gemini 2.5 Pro Experimental、Claude 3.7 Sonnet 等模子，代价也还是具备上风的。

功能表现上，GPT-4.1 比力善于代码、指令依照、多模态长上下文。

在同一段提示词来创建一个网页应用的case上，能看到 GPT-4.1 对比 GPT-4o 有了显着的 UI 雅观度提拔

*GPT-4o 创建的应用页面

*GPT-4.1 创建的应用，UI 更雅观

o3 和 o4-mini

推理模子方面，OpenAI 推出了“有史以来的最强模子” o3，以及更具性价比的 o4-mini。

本次推出的两款模子，主打的亮点之一是多模态推理本领和工具使用本领。

*网友让 o3 识别照片中笔记本上的乐曲标题，o3 在放大图片两次后，做出了正确的手写字识别

*网友上传一张照片，让 o3 判定拍摄地点，o3 将图片截取成多个小块，放大并查找全部大概存在的线索

Google:夸大性价比，追着OpenAI打?

发布Gemini 2.5 Flash

4月18日，紧跟着o4-mini，谷歌发布首个混合推理模子Gemini 2.5 Flash。而且，Gemini 2.5 Flash好像在性价比上赢过了o4-mini。

混合推理模子，为必要在性能、资本、延迟之间找到完满均衡的开辟者而设计。

据介绍，Gemini 2.5 Flash 不但继承了 2.0 Flash 的高速相应特点，还可以自由设定思考深度，资助预算不敷的用户进一步控制推理资本。

*网友用 Gemini 2.5 Flash 生成的概率模子demo

发布Gemma 3全系QAT版模子

这个版本的Gemma 3经过量化感知练习

（Quantization-Aware Training，QAT）优化，能在保持高质量的同时显着低沉内存需求。

与传统在模子练习完成后再量化的方式差别，QAT 将量化过程直接融入练习阶段。它通过在练习中模仿低精度运算，使模子在后续被量化为更小、更快的版本时，仍能保持正确率丧失最小化。

现在经过 QAT 优化后，Gemma 3 27B 的 VRAM 占用量可以从 54GB 降至 14.1GB，可以在 NVIDIA RTX 3090 等斲丧级 GPU 上本地运行。

正式上线Veo 2

本周，谷歌Veo 2视频生成模子上线 Gemini，订阅 Gemini Advanced的付费用户已经可以使用。

Veo 2的首次亮相是近期的Next 2025大会，它从一个生成工具变化为一个全面的视频创作和编辑平台。

*使用Veo 2编辑不必要的配景、徽标或干扰物

*生成链接帧

快手：发布可灵AI 2.0和可图AI 2.0

4月15日，快手发布了可灵AI 2.0和可图AI 2.0。

和字节悄悄上线Seaweed差别，快手对这场发布做了不少铺垫。

发布会中，快手公布现在可灵 AI 环球用户规模突破 2200 万，已往的 10 个月里，月活用户量增长 25 倍，累计生成凌驾 1.68 亿个视频及 3.44 亿张图片。

可灵AI 2.0 视频生成模子

可灵AI 2.0是视频生成模子。这次引入了多模态视觉语言（MVL），结合文本、图片和动态影像。同时，可灵AI还上新了多模态编辑创作功能。

*使用多模态编辑功能生成视频，用参考图中的人物形象更换原视频中的形象

从结果上，快手以为现在创作者们会遇到两类题目：一类是语义依照本领妨碍创作者们用笔墨精准表达、控制生成结果；二是动态质量，包罗运动崩坏或者不符合物理规律题目。

为此，可灵 2.0 视频生成模子在语义相应、画面质量、动态质量、真实度和美感上都有提拔。

*在这个小球掉落的 case 中，Kling 2.0的细节表现已经凌驾了 Veo 2

可图 2.0 图像生成模子

可图是图像生成模子。快手表现，可图 2.0 模子，在指令依照、电影质感及艺术风格表现等方面作了提拔。

在风格化相应上，可图 2.0 支持 60 多种风格化的结果转绘，包罗GPT 风格、二次元风格、插画风格、数字天下、3D 等。

有网友已经在可灵创意区圈里分享了本身的风格转绘结果：

原图：

转绘：

*提示词：着色器瓦解，每32个像素为1个单元，每一个单元的基色出现非常厘革。图源：可灵创意圈星辰之子月神.exe

字节：2个发布，2个升级，1个开源

字节本周公布多个模子侧希望，覆盖深度思考、视频生成、智能体模子。

具体来看，它发布了豆包1.5·深度思考模子和视频底子大模子Seaweed，升级了文生图模子3.0和豆包视觉明白模子，开源了智能体模子 UI-TARS-1.5。

字节还披露了豆包大模子的最新调用信息。

制止2025年3月尾，豆包大模子日均tokens调用量凌驾12.7万亿，是2024年12月的3倍、一年前的106倍，火山引擎在中国公有云大模子市场份额位居第一。

发布1: 豆包1.5·深度思考模子

声势最大的，是豆包1.5·深度思考模子的发布。

字节介绍，全新发布的豆包1.5·深度思考模子，在数学、代码、科学等专业范畴推理使命中表现出色，已经到达或靠近环球第一梯队程度；在创意写作等非推理使命中，模子也展示出良好的泛化本领，可以大概胜任更广泛和复杂的使用场景。

总结来看，字节表现豆包1.5·深度思考模子有以下几个特点：

接纳 MoE 架构，总参数为200B，激活参数仅20B，具备显着的练习和推理资本上风。

由于算法优化，可以实现20毫秒极低延迟。

与其他推理模子“先搜索再思考”差别，豆包APP 基于豆包1.5·深度思考模子举行定向练习，可以“边想边搜”。

豆包1.5·深度思考模子具备视觉明白本领。

*网友用豆包 1.5·深度思考模子来推理上传图地点的地理位置

发布2: 视频底子大模子

4月14日，字节Seed团队发布了给定图像视频生成底子模子Seaweed。

据称，这一模子参数为70亿，却能实现逾越同类140亿参数视频模子的结果，可依据文本形貌创建各种分辨率、宽高比与时长的视频。

*使用 Seaweed 生成的视频

升级1：文生图模子3.0

字节还公布升级文生图模子。

据介绍，升级的豆包·文生图模子3.0，可以大概更好地举行笔墨排版、到达实拍级图像生成结果，以及2K的高清图片生成方式，可以广泛应用于影视、海报、绘画、玩偶设计等营销、电商、设计场景。

*官方给出的使用文生图模子3.0生成的海报图

升级2: 豆包视觉明白模子

同时升级的尚有视觉明白模子。

字节介绍，新版本的豆包·视觉明白模子具备更强的视觉定位本领，在视频明白本领上也有提拔。

视觉定位：它支持多目的、小目的、通用目的的框定位和点定位，并支持定位计数、形貌定位内容、3D 定位，更实用于线下门店的巡检场景、GUI agent、呆板人练习、主动驾驶练习等。

视频明白：包罗影象、总结明白、速度感知、长视频明白等方面的提拔。这一模子结合向量搜索，可直接对视频举行语义搜索，更实用于安防、家庭关照等场景。

*官方给出的视觉明白模子case

开源：字节 Seed 智能体模子 UI-TARS-1.5

本周，字节Seed还开源了一款“智能体模子”。

据介绍，这是一款基于视觉-语言模子构建的开源多模态智能体，能在假造天下中高效实行各类使命。它具备真实利用电脑和手机体系的本领，同时，还可操控欣赏器、完成复杂交互使命。

*使用UI-TARS-1.5来主动玩消消乐

阿里:发力视频生成，Qwen3依然没声音?

阿里本周的模子层希望重要在视频生成范畴，前段时间风很大的Qwen3依然没动静。

通义万相开源首尾帧生视频模子

4月17日，通义万相开源了基于Wan2.1文生视频14B大模子的首尾帧生视频模子，支持生成时长5秒的720p高清视频。

据介绍，这个首尾帧模子可以大概精准复刻输入图像细节，生成的视频动作真实自然流畅。

比方，可实现小女孩侧脸被阴影遮挡、剑齿虎在森林中移动、宇宙飞船灯光熄灭等复杂场景的自然过渡。同时，模子在殊效变更和创意场景上也表现不错，如实现漩涡变莲花的奇幻结果。

具体结果参考：

*提示词：“写实风格，脸部特写，一个红发碧眼的小女孩，镜头微微左移，记载她被阴影遮住的侧脸。”

生成视频：

在技能上，它接纳DiT架构，通过高效的视频压缩VAE模子低沉运算资本，并使用Transformer的Full Attention机制捕捉长时程时空依赖关系。

智谱：开源新一代GLM模子

4月15日，智谱公布开源新一代GLM模子，包罗GLM-4-32B-0414基座模子、GLM-Z1-32B-0414推理模子、GLM-Z1-Rumination-32B-0414沉思模子和小尺寸的9B系列模子。

它们均依照MIT许可协议，可通过z.ai访问体验。

GLM-4-32B-0414

GLM-4-32B-0414 善于工程代码、Artifacts 生成、函数调用、搜索问答及陈诉撰写等使命比力善于。

智谱官方也给出了相应的案例：

*提示词：给我设计一个移动端呆板学习平台的 UI，此中要包罗练习使命，存储管理，和个人统计界面。个人统计界面要用图表展示用户已往一段时间的各类资源使用环境。使用 Tailwind CSS 来美化页面，把这 3 个手机界面平铺展示到一个 HTML 页面中

GLM-Z1-32B-0414还重推理，在多个基准测试中显现强盛的数理推理本领。

收藏邀请

我有任务需求要发布

专业服务商主动承接

快速解决你的需求

我要发布

专注IT众包服务

平台只专注IT众包，服务数十万用户，快速解决需求

资金安全

交易资金托管平台，保障资金安全，确认完成再付款

实力商家

优秀软件人才汇集，实力服务商入驻，高效解决需求

全程监管

交易过程中产生纠纷，官方100%介入受理，交易无忧

时代威客APP

时代威客公众号

时代威客小程序

猜你需要

热门需求

7天近20款模子更新，环球AI再现最卷一周

今日头条

热门资讯

优

快

专

保

新手帮助

平台规则

关于时代

便捷服务

微信小程序

新浪微博

手机客户端