快捷导航
科技信息

7天近20款模子更新,环球AI再现最卷一周

刚刚已往的这周,AI圈又迎来诸神之战。外洋,OpenAI破天荒三天两次发布,上线GPT-4.1、o3、o4-mini三款模子,紧接着Google就立即推出Gemini 2.5 Flash,对着o4-mini狂炫性价比。国内,快手开辟布会高调公布可灵2.0上

刚刚已往的这周,AI圈又迎来诸神之战。


外洋,OpenAI破天荒三天两次发布,上线GPT-4.1、o3、o4-mini三款模子,紧接着Google就立即推出Gemini 2.5 Flash,对着o4-mini狂炫性价比。


国内,快手开辟布会高调公布可灵2.0上新,字节则在发布会前一天,悄悄上线视频生成底子模子Seaweed。


除却这几家的公开对垒,Anthropic、Grok、阿里、腾讯、Kimi、智谱、蚂蚁等公司均有差别程度的模子、产品更新。



根据我们的不完全统计,已往七天,至少有超十家着名AI公司公布了AI希望,涉及近20款模子、10个应用层产品的更新。


总结来看,本次AI公司们的批量上新重要出现以下特点:


  • 推理(包罗图像推理)、多模态本领和视频生成是模子侧的重要更新方向。

  • 模子的高性价比和开源的趋势仍旧连续。

  • 产品侧更注意工具使用的完满,Agent实践更加成熟。



模子侧上新:Google猛打OpenAI、字节偷袭可灵
















本周的模子层更新非常猛烈,Google VS OpenAI,字节 VS 可灵,都透出一丝火药味儿。


中门对狙之外,多家公司还公布了图像推理、开源方面的希望。


OpenAI:3天2次上新

4月14日和16日,OpenAI分别举行两场发布会,带来3款大模子:GPT-4.1、o3、o4-mini。


  • GPT-4.1


14日发布的 GPT-4.1 模子一共有 GPT-4.1,GPT-4.1 mini、GPT-4.1 nano三个版本。


全系列模子均只有 API 版本,支持百万上下文,主打性价比,好像是专门“抢”开辟者用户的一款模子。


对比前两个月刚发布的 GPT-4.5 预览版,GPT-4.1 系列性能并不输,而且输出代价约莫只有GPT-4.5代价的1/20。对比 Gemini 2.5 Pro Experimental、Claude 3.7 Sonnet 等模子,代价也还是具备上风的。



功能表现上,GPT-4.1 比力善于代码、指令依照、多模态长上下文。


在同一段提示词来创建一个网页应用的case上,能看到 GPT-4.1 对比 GPT-4o 有了显着的 UI 雅观度提拔

*GPT-4o 创建的应用页面


*GPT-4.1 创建的应用,UI 更雅观


  • o3 和 o4-mini


推理模子方面,OpenAI 推出了“有史以来的最强模子” o3,以及更具性价比的 o4-mini。


本次推出的两款模子,主打的亮点之一是多模态推理本领和工具使用本领。


*网友让 o3 识别照片中笔记本上的乐曲标题,o3 在放大图片两次后,做出了正确的手写字识别


*网友上传一张照片,让 o3 判定拍摄地点,o3 将图片截取成多个小块,放大并查找全部大概存在的线索


Google:夸大性价比,追着OpenAI打?

  • 发布Gemini 2.5 Flash


4月18日,紧跟着o4-mini,谷歌发布首个混合推理模子Gemini 2.5 Flash。而且,Gemini 2.5 Flash好像在性价比上赢过了o4-mini。


混合推理模子,为必要在性能、资本、延迟之间找到完满均衡的开辟者而设计。


据介绍,Gemini 2.5 Flash 不但继承了 2.0 Flash 的高速相应特点,还可以自由设定思考深度,资助预算不敷的用户进一步控制推理资本。


*网友用 Gemini 2.5 Flash 生成的概率模子demo


  • 发布Gemma 3全系QAT版模子


这个版本的Gemma 3经过量化感知练习

(Quantization-Aware Training,QAT)优化,能在保持高质量的同时显着低沉内存需求。


与传统在模子练习完成后再量化的方式差别,QAT 将量化过程直接融入练习阶段。它通过在练习中模仿低精度运算,使模子在后续被量化为更小、更快的版本时,仍能保持正确率丧失最小化。


现在经过 QAT 优化后,Gemma 3 27B 的 VRAM 占用量可以从 54GB 降至 14.1GB,可以在 NVIDIA RTX 3090 等斲丧级 GPU 上本地运行。



  • 正式上线Veo 2


本周,谷歌Veo 2视频生成模子上线 Gemini,订阅 Gemini Advanced的付费用户已经可以使用。


Veo 2的首次亮相是近期的Next 2025大会,它从一个生成工具变化为一个全面的视频创作和编辑平台。



*使用Veo 2编辑不必要的配景、徽标或干扰物



*生成链接帧


快手:发布可灵AI 2.0和可图AI 2.0

4月15日,快手发布了可灵AI 2.0和可图AI 2.0。


和字节悄悄上线Seaweed差别,快手对这场发布做了不少铺垫。


发布会中,快手公布现在可灵 AI 环球用户规模突破 2200 万,已往的 10 个月里,月活用户量增长 25 倍,累计生成凌驾 1.68 亿个视频及 3.44 亿张图片。


  • 可灵AI 2.0 视频生成模子


可灵AI 2.0是视频生成模子。这次引入了多模态视觉语言(MVL),结合文本、图片和动态影像。同时,可灵AI还上新了多模态编辑创作功能。


*使用多模态编辑功能生成视频,用参考图中的人物形象更换原视频中的形象


从结果上,快手以为现在创作者们会遇到两类题目:一类是语义依照本领妨碍创作者们用笔墨精准表达、控制生成结果;二是动态质量,包罗运动崩坏或者不符合物理规律题目。


为此,可灵 2.0 视频生成模子在语义相应、画面质量、动态质量、真实度和美感上都有提拔。


*在这个小球掉落的 case 中,Kling 2.0的细节表现已经凌驾了 Veo 2


  • 可图 2.0 图像生成模子


可图是图像生成模子。快手表现,可图 2.0 模子,在指令依照、电影质感及艺术风格表现等方面作了提拔。


在风格化相应上,可图 2.0 支持 60 多种风格化的结果转绘,包罗GPT 风格、二次元风格、插画风格、数字天下、3D 等。


有网友已经在可灵创意区圈里分享了本身的风格转绘结果:

原图:


转绘:

*提示词:着色器瓦解,每32个像素为1个单元,每一个单元的基色出现非常厘革。 图源:可灵创意圈 星辰之子月神.exe


字节:2个发布,2个升级,1个开源

字节本周公布多个模子侧希望,覆盖深度思考、视频生成、智能体模子。


具体来看,它发布了豆包1.5·深度思考模子和视频底子大模子Seaweed,升级了文生图模子3.0和豆包视觉明白模子,开源了智能体模子 UI-TARS-1.5。


字节还披露了豆包大模子的最新调用信息。


制止2025年3月尾,豆包大模子日均tokens调用量凌驾12.7万亿,是2024年12月的3倍、一年前的106倍,火山引擎在中国公有云大模子市场份额位居第一。


  • 发布1: 豆包1.5·深度思考模子


声势最大的,是豆包1.5·深度思考模子的发布。


字节介绍,全新发布的豆包1.5·深度思考模子,在数学、代码、科学等专业范畴推理使命中表现出色,已经到达或靠近环球第一梯队程度;在创意写作等非推理使命中,模子也展示出良好的泛化本领,可以大概胜任更广泛和复杂的使用场景。


总结来看,字节表现豆包1.5·深度思考模子有以下几个特点:

    • 接纳 MoE 架构,总参数为200B,激活参数仅20B,具备显着的练习和推理资本上风。

    • 由于算法优化,可以实现20毫秒极低延迟。

    • 与其他推理模子“先搜索再思考”差别,豆包APP 基于豆包1.5·深度思考模子举行定向练习,可以“边想边搜”。

    • 豆包1.5·深度思考模子具备视觉明白本领。


*网友用豆包 1.5·深度思考模子来推理上传图地点的地理位置


  • 发布2: 视频底子大模子


4月14日,字节Seed团队发布了给定图像视频生成底子模子Seaweed。


据称,这一模子参数为70亿,却能实现逾越同类140亿参数视频模子的结果,可依据文本形貌创建各种分辨率、宽高比与时长的视频。


*使用 Seaweed 生成的视频


  • 升级1:文生图模子3.0


字节还公布升级文生图模子。


据介绍,升级的豆包·文生图模子3.0,可以大概更好地举行笔墨排版、到达实拍级图像生成结果,以及2K的高清图片生成方式,可以广泛应用于影视、海报、绘画、玩偶设计等营销、电商、设计场景。


*官方给出的使用文生图模子3.0生成的海报图


  • 升级2: 豆包视觉明白模子


同时升级的尚有视觉明白模子。


字节介绍,新版本的豆包·视觉明白模子具备更强的视觉定位本领,在视频明白本领上也有提拔。


    • 视觉定位:它支持多目的、小目的、通用目的的框定位和点定位,并支持定位计数、形貌定位内容、3D 定位,更实用于线下门店的巡检场景、GUI agent、呆板人练习、主动驾驶练习等。

    • 视频明白:包罗影象、总结明白、速度感知、长视频明白等方面的提拔。这一模子结合向量搜索,可直接对视频举行语义搜索,更实用于安防、家庭关照等场景。


*官方给出的视觉明白模子case


  • 开源:字节 Seed 智能体模子 UI-TARS-1.5


本周,字节Seed还开源了一款“智能体模子”。


据介绍,这是一款基于视觉-语言模子构建的开源多模态智能体,能在假造天下中高效实行各类使命。它具备真实利用电脑和手机体系的本领,同时,还可操控欣赏器、完成复杂交互使命。


*使用UI-TARS-1.5来主动玩消消乐


阿里:发力视频生成,Qwen3依然没声音?

阿里本周的模子层希望重要在视频生成范畴,前段时间风很大的Qwen3依然没动静。


  • 通义万相开源首尾帧生视频模子


4月17日,通义万相开源了基于Wan2.1文生视频14B大模子的首尾帧生视频模子,支持生成时长5秒的720p高清视频。


据介绍,这个首尾帧模子可以大概精准复刻输入图像细节,生成的视频动作真实自然流畅。


比方,可实现小女孩侧脸被阴影遮挡、剑齿虎在森林中移动、宇宙飞船灯光熄灭等复杂场景的自然过渡。同时,模子在殊效变更和创意场景上也表现不错,如实现漩涡变莲花的奇幻结果。


具体结果参考:

*提示词:“写实风格,脸部特写,一个红发碧眼的小女孩,镜头微微左移,记载她被阴影遮住的侧脸。”


生成视频:

<>


在技能上,它接纳DiT架构,通过高效的视频压缩VAE模子低沉运算资本,并使用Transformer的Full Attention机制捕捉长时程时空依赖关系。


智谱:开源新一代GLM模子

4月15日,智谱公布开源新一代GLM模子,包罗GLM-4-32B-0414基座模子、GLM-Z1-32B-0414推理模子、GLM-Z1-Rumination-32B-0414沉思模子和小尺寸的9B系列模子。


它们均依照MIT许可协议,可通过z.ai访问体验。


  • GLM-4-32B-0414


GLM-4-32B-0414 善于工程代码、Artifacts 生成、函数调用、搜索问答及陈诉撰写等使命比力善于。


智谱官方也给出了相应的案例:

*提示词:给我设计一个移动端呆板学习平台的 UI,此中要包罗练习使命,存储管理,和个人统计界面。个人统计界面要用图表展示用户已往一段时间的各类资源使用环境。使用 Tailwind CSS 来美化页面,把这 3 个手机界面平铺展示到一个 HTML 页面中


GLM-Z1-32B-0414还重推理,在多个基准测试中显现强盛的数理推理本领。


收藏 邀请
我有任务需求要发布
专业服务商主动承接
快速解决你的需求

专注IT众包服务

平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全

交易资金托管平台,保障资 金安全,确认完成再付款

实力商家

优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管

交易过程中产生纠纷,官方100%介入受理,交易无忧

  • 微信访问
  • 手机APP