傳統的影象由單一的畫素平面構成,所有元素被「焊接」在一起,想單獨修改某部分常常要手工摳圖或遮罩處理。Qwen-Image-Layered 的設計思路是自動將一幅影象拆成幾個邏輯上有意義的層,比如背景、主體、前景物等,並保持 RGBA 資訊(含透明度),方便後續重新組合或進一步編輯。
這種層級結構不只是簡單分割畫素,而是嘗試理解圖片的語義成分,因此輸出比普通遮罩更接近專業設計工作流。
詳細描述
1、影象層級分解思想
專案核心不是生成新圖,而是把現有影象「解構」成多個可操作的片段。每一層包含自己的顏色(RGB)和透明度(A),這意味著即使影象原本沒有透明背景,分解後也有真實的透明資訊供後續處理使用。
相比傳統「背景移除」工具,它不僅分離背景,還試圖把影象中的語義物體或視覺部分分開,輸出一套帶 alpha 通道的圖層。
2、可變層級與遞迴分解
不同於只固定輸出三層或四層,Qwen-Image-Layered 支援指定輸出層級數量(比如 3、4、8 層等),並允許對某一層進一步拆解成更細的子層。這個遞迴拆分機制讓模型在處理複雜場景時更有靈活性。
3、編輯流程特點
分解後每個層級都是獨立的 RGBA 影象。這些層可以單獨移動、縮放、變色甚至替換,而不會干擾其它層的資訊。這種隔離級別讓後處理更接近設計軟體裡的圖層操作,而不只是簡單遮罩。
4、應用與輸出
輸出結果通常是一組分層影象(帶透明通道),可在 Photoshop、Figma、GIMP 等影象工具中開啟。部分生態還能匯出為 PPTX 檔案格式,用於展示、彙報或演示場景。
社羣反饋
目前社羣討論顯示,該模型創新性在於引入層級分解思想,但部分使用者反饋效果存在波動,在細節重建、分層質量等方面還有提升空間。另外,模型本身資源消耗較高,在低視訊記憶體機器上難以流暢執行。










評論
暫無評論
成為第一個評論的人