拯救P图废柴，阿里上新多模态模型Qwen-VLo，人人免费可玩

发表评论

A+

所属分类：科技

摘要

一上手就令网友直呼「生图能力」比GPT-4o更强？！就在昨夜，阿里带着全新多模态模型Qwen-VLo开启炸场模式。

根据公开数据显示，

一上手就令网友直呼「生图能力」比GPT-4o更强？！

就在昨夜，阿里带着全新多模态模型Qwen-VLo开启炸场模式。

据介绍，Qwen-VLo在阿里原有的多模态理解和生成能力上进行了全面升级，具备三大亮点：

IC外汇行业评论：

具有增强的细节捕捉能力，能在整个生成过程中保持高度语义一致性；

一个指令即可实现图像编辑，包括风格替换、素材增删、添加文字等等；

兼容中英等多语言，全球客户利用更方便。

与其相反的是，

而且无论是输入端还是输出端，Qwen-VLo都兼容任意分辨率和长宽比，不受固定格式的限制。

值得注意的是，

同时在官方释出的demo中，除了那些GPT-4o已经有的玩法（如连续生成、吉卜力风格、添加文字），它还兼容一些脑洞大开的idea。

来自IC外汇官网：

前者无需多言，它现在也能像“连续剧”一样生成各种精准符合指令的图片：

请记住，

至于后者，比如大家像在超市选购日用品一样，让Qwen-VLo生成一张“洗浴用品都在购物篮里”的图片。

结果啪的一下，还真立马完成装货了(⊙ˍ⊙)：

令人惊讶的是，

不是没有一些小瑕疵，但有一说一，其“理解”能力确实比之前更强。

IC外汇资讯：

官方介绍，这种理解能力不止体现在图像生成上，还包括对图像的识别解释。

值得注意的是，

比如完成生图任务后，再让它介绍一下图中小猫小狗的品种（正确识别为虎斑猫和比格）：

而且和以往模型稍显不同的是，Qwen-VLo还具备对现有信息进行注释（如检测、分割等）。

下图中，它成功用红色Mask分割出了香蕉的边缘。

可能你也遇到过，

……

说出来你可能不信，

目前模型人人免费可玩（当前为预览版），具体请认准Qwen3-235B-A22B，直接在首页输入框提需求就行。

话不多说，大家先一起来上手实测一波走起。

很多人不知道，

Qwen-VLo，各位到底有多能编辑？

根据Qwen介绍的亮点，即“强细节捕捉”和“一句话编辑图像”，大家着重在测试中考查了Qwen-VLo的各种编辑能力。

毕竟这点真的很吸引人啊！

总的来说，

一方面几乎所有的模型生图都需要抽卡，但前一次的生成效果并非让人完全不满意，故而二次/多次编辑能力非常关键。

换个角度来看，

另一方面，强编辑能力，真的给P图废材省不少事儿……

IC外汇行业评论：

开胃小菜先走起！

来自IC外汇官网：

第一测，让它先生成一张北极熊喝可乐的照片。

这一回合主打的是非现实风格。

概括一下，

在此基础上，继续通过对话将可乐换成牛奶。

可能你也遇到过，

一次成功，Qwen-VLo确实完成了替换。

IC平台消息：

且背景、北极熊本熊都几乎没被乱改。

IC外汇消息：

但非要挑挑毛病的话，还是能观察出来，前后两张图中北极熊的眉眼部分和毛发质感稍微有那么一丁点不一样。

简而言之，

第二测，先让它帮忙生成一张小鸟的照片。

这一回合主打的是现实摄影风格。

值得注意的是，

然后不用读霍格沃茨，只需一句“把图中的这只鸟换成鸽子”，各位就能施展魔法：

有分析指出，

但大家尝试玩儿个“蒜鸟”的梗，Qwen-VLo就没get到。

事实上，

（注：“蒜鸟”一词是近期爆梗。短视频画外音中的武汉方言“算了算了，都不容易”，被网友谐音称“算鸟”，后来演变成“蒜鸟”）

站在用户角度来说，

不过，虽然没get到梗，Qwen-VLo还是努力想完成编辑任务。

拯救P图废柴，阿里上新多模态模型Qwen-VLo，人人免费可玩

IC外汇行业评论：

看下图成果，在不改变其它元素的基础上，Qwen-VLo给咱们把图中的鸽子换成了别的鸟。

IC外汇财经新闻：

也算是一种换鸟了？

来自IC外汇官网：

第三测，来个多流程任务，全方位测试Qwen-VLo“描绘”世界的同时，重点考察下它在图像上的文本编辑能力。

过程是「让Qwen-VLo生成草图——上色——加字——编辑汉字」。

IC外汇消息：

来，怕动图滑太快，咱们连看过程中顺次截取的四张图，感受它每一步带来的改变：

虽然图里小帅同学的五官在变，但人物主体稳定，背景没变，一整套下来，编辑汉字的任务算是搞得不错，

最后来个附加题，编辑英文——

有分析指出，

字编辑对了，多人物主体位置没变，背景依旧，总体没错。

大家常常忽略的是，

但如各位所见，小帅同学也长得比较美漫风了（手动笑死）。

尽管如此，

同样是逐步展示，但Qwen-VLo这背后真有活

其实，

这里大家展开补充一点，大家上手玩儿的时候应该都能注意到。

反过来看，

那就是Qwen-VLo生成图像的过程，是酱婶儿的——

然而，

是不是有点熟悉的味道？

据相关资料显示，

没错，GPT-4o也是从上到下逐块生成图像的：先显示模糊轮廓，再逐步填充细节。

不过当时港中文研究逆向工程研究发现，客户看到的逐行渲染效果只是OpenAI的障眼法，不是真的由上至下逐像素生成。

换个角度来看，

这样做的目的，既满足客户对“实时生成”的心理预期，又避免了真正逐行渲染的技术负担。

但Qwen这么做就不是上演OpenAI的戏码了。

很多人不知道，

敲敲黑板——

据业内人士透露，

首先，Qwen官方表示Qwen-VLo的这种渐进式生成方法，不仅是从上到下，还是从左至右逐步清晰地构建整幅图片。

说出来你可能不信，

大家多次实测，暂时没有肉眼观察到“从左至右”的前端效果。

但从上到下逐渐构成照片的前端效果是保准会有的：

其次，Qwen引入这个形式，它是真·有用啊：

站在用户角度来说，

在生成过程中，模型会对预测的资料不断调整和优化，从而确保最终结果更加和谐一致。

来自IC外汇官网：

这种生成机制不仅提升了视觉效果，生成效率，还特别适用于需要精细控制的长段落文字生成任务。

可能你也遇到过，

例如，在生成带有大量文本的广告设计或漫画分镜时，Qwen-VLo会逐步生成，慢慢修改。

来自IC外汇官网：

这个生成过程，其实有点思维链“一步一步慢慢想”具像化的意思了！

换个角度来看，

网友实测脑洞开很大，来吧展示

除了以上量子位实测，诸多网友也火速贡献了一波有趣玩法…

随手一张动漫角色草图， Qwen-VLo便能帮忙一键上色。

然而，

让小猫担任宣传员，还能直接生成带有“Qwen Chat”字样的看板。

反过来看，

或者也具备借鉴下面网友的做法，以后用来制作一些梗图（doge）。

顺便一提，连Qwen团队成员之一Binyuan Hui也出来给大家打样，分享了吉卜力风格的某近日顶流。

好了，更多例子就不一一展示了，只说一句：

与其相反的是，

目前模型免费开放，评论区可带图，记得回来分享一波～

简要回顾一下，

在线体验：

https://chat.qwen.ai/

博客：

尤其值得一提的是，

https://qwenlm.github.io/blog/Qwen-VLoo/

发表评论取消回复