智东西
智东西12月8日报谈,本日,好意思团厚爱发布并开源图像生成模子LongCat-Image,这是一款在图像剪辑才气上达到开源SOTA水准的6B参数模子,重心对准文生图与单图剪辑两大中枢场景。

▲图源:Hugging Face
从官方流露的基准测试按捺来看,LongCat-Image主要对标了Seedream4.0、Qwen-Image、HunyuanImage-3.0、Nano Banana以及FLUX.1-dev等主流开源与闭源生图模子,其中枢优化勾通在“剪辑可控性”和“华文翰墨渲染”两项才气上。
而在试验体验中,它在赓续改图、格调变化和材质细节上证实较好,但在复杂排版场景下,华文翰墨渲染仍存在不踏实的情况。在波及复杂UI筹办、游戏界面生成等任务时,模子的审好意思也暴涌现一定短板,这梗概与其不具备联网搜索才气关联。
在体验进口方面,好意思团也同步提供了多种使用神色。在出动端,LongCat APP已复旧文生图与图生图才气;在网页端,用户也可通过 https://longcat.ai/ 插足图片生成进口进行体验。
关于设置者而言,LongCat-Image的模子权重与代码也已同步开源:
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Image
GitHub:https://github.com/meituan-longcat/LongCat-Image底下咱们就来望望LongCat-Image的模子结构、评测收成和具体的实测证实。
一、从模子结构到评测收成,LongCat-Image把“剪辑可控性”和“华文渲染”算作主攻所在从模子筹办上看,LongCat-Image收受了文生图与图像剪辑同源的协调架构,并通过渐进式学习计谋,在仅6B参数规模下兼顾了提示着力精确度、生图质地与翰墨渲染三项才气的协同耕种。

▲模子架构
这套稽查阶梯并非从零动手堆参数,而是基于文生图中期稽查模子进行动手化,并在后续阶段收受文生图与提示剪辑的多任务结伙学习机制,来幸免剪辑才气在后稽查阶段被压缩的问题。
在图像剪辑才气上,LongCat-Image在GEdit-Bench、ImgEdit-Bench等多个剪辑类基准中赢得了开源SOTA收成。

▲客不雅基准测试性能对比
LongCat-Image通过多源数据预稽查、提示改写计谋与东谈主工精标SFT数据的引入,使模子在靠近复杂剪辑条款时更扼制易出现格调漂移和结构失真。
针对华文翰墨渲染这一永恒痛点,LongCat-Image收受了掩盖8105个要领汉字的合成字形数据进行预稽查,并在SFT阶段引入果然寰宇文本图片强化排版与字体泛化才气,在RL阶段还引入OCR与好意思学双奖励模子共同不竭,最终在ChineseWord评测中赢得90.7分的收成,跳动于现存开源模子。
在果然感方面,LongCat-Image通过抗击稽查和严格的数据筛选机制,刻意绕开AIGC“塑料感”的纹理陷坑,并在RL阶段引入AIGC检测器算作奖励信号,反向教悔模子学习果然寰宇的物理纹理与光影变化。
概括评测按捺自大,在东谈主类主不雅评分(MOS)维度上,LongCat-Image在文本对王人、视觉果然度与好意思学质地等多个子项中的证实已接近Seedream4.0等买卖模子水平。

▲东谈主类主不雅评分(MOS)对比

▲比肩对比评估胜率(SBS)
在图像剪辑任务的比肩对比评估(SBS)中,LongCat-Image-Edit在概括质地与一致性两项要津主张上,对NanoBanana和Qwen-Image-Edit等模子均赢得较高胜率。
举座来看,LongCat-Image在图像剪辑任务上已靠近部分闭源模子水平,在文生图基础才气上也保抓在开起源部阵营。
二、从漫画重绘到玩偶家具渲染,赓续剪辑踏实,但华文渲染依然短板从试验体验过程来看,LongCat-Image在“赓续提示可剪辑性”上的证实是较为踏实的,咱们成功拿近期大火的《豪恣动物城2》联系图片进行测试,在合并脚色基础上赓续进行多轮修改。

▲参考图
提示:修改为像素格调作品。

提示:重绘为彩色,保留像修养感。

提示:图片脚色重绘为师法乐高积木主题的动物。

在漫绘制像测试中,通过像素风、彩色像素重绘以及师法乐高积木动物主题的赓续重绘提示,模子不错保抓脚色结构踏实,同期完成格调与材质的多轮移动。屡次修悛改程中,东谈主物轮廓和构图基本未出现彰着乖张。
在此基础上,咱们也进一步尝试了电影海报的制作场景,用合并脚色图进行主视觉海报生成与多话语标题渲染测试。
提示:电影《豪恣动物城2》的宣传海报,海报的主画面是电影主角的精彩模式,主标题用艺术手写字体“豪恣动物城2”,底下附上英文名“Zootopia”,另外附上电影海报需要的其他小字,翰墨了了可鉴别。

在电影海报场景中,模子对参考图的袭取才气较为踏实,不论是脚色形象照旧动态姿势,都能与原始图片保抓较高一致度,中英文标题的主标题证实也较为了了。不外在“小字”区域,一系列细节翰墨仍然存在乱码与英文混合的问题,阐扬华文翰墨渲染在复杂排版场景下依然存在不踏实性。
进一步测试东谈主物档案式华文海报时,模子不错正确渲染部分中枢字段信息,但仍不成幸免地出现中英文错位与局部乱码。
提示:生成动画电影脚色的东谈主物档案式宣传海报,用翰墨体现以下信息: 尼克•王尔德(Nick Wilde),是一只在迪士尼动画电影《豪恣动物城》中出场的狐狸。 华文名:尼克狐尼克。 外文名:Nick Wilde。 原型:赤狐。 干事:从骗子到考察。 搭档:兔子警官朱迪。 经典台词:“伤了你的小腹黑?”

在产等级渲染测试中,朱迪警官玩偶在影棚光、台灯暖光、当然光客厅与床品光照等多个现实场景下的质感证实相对踏实。短绒毛的细节、眼睛的高光反射、沙发布料与玩偶绒毛之间的材质对比都能够被较为准确地证实出来,举座更接近买卖家具渲染后果。

比拟之下,在主流模子较为擅长的游戏界面生成场景中,LongCat-Image的短板更为彰着。不论是卡牌游戏、射击游戏,照旧MOBA类第一视角界面,整身材调都偏向十多年前的UI筹办审好意思,与当下主流游戏家具存在彰着代差。
提示:生成一个卡牌游戏界面。

提示:生成一个射击游戏界面。

提示:生成一个能人定约的游戏界面。

提示:生成一个王者荣耀第一视角的游戏界面。

从本次测试按捺来看,LongCat-Image在改图与家具渲染类任务中的可用性更高,而在游戏界面与复杂排版场景中的证实相对一般。
结语:开源图像模子插足“可控剪辑”竞赛,AI生图战况升级从LongCat-Image的举座定位来看,好意思团并莫得试图用更大的参数规模去正面冲击旗舰级生图模子,而是明确礼聘在可控性、赓续剪辑和华文渲染这几个方进取深挖。
图像模子的竞争焦点,正在快速向“能否果然插足筹办、家具、品牌等具体分娩经过”的实用才气勾通。