【共绩 ComfyUI 小课堂】Class 6 ComfyUI 局部重绘工作流完整指南:精准控制图像编辑的艺术
局部重绘是 AI 绘图中最实用的功能之一,它让你能够精确地修改图像的特定部分,而不影响其他区域。无论是清除画面中的物体、修改人物表情、调整服饰颜色,还是替换背景元素,局部重绘都能帮你实现。 ComfyUI 作为目前最强大的 Stable Diffusion 工作流工具,在局部重绘方面提供了灵活的控制...
探索前沿技术,分享实践经验,追踪行业动态
局部重绘是 AI 绘图中最实用的功能之一,它让你能够精确地修改图像的特定部分,而不影响其他区域。无论是清除画面中的物体、修改人物表情、调整服饰颜色,还是替换背景元素,局部重绘都能帮你实现。 ComfyUI 作为目前最强大的 Stable Diffusion 工作流工具,在局部重绘方面提供了灵活的控制...
AI 前沿观察发现 Google 推出的 ShieldGemma 2 模型为图像内容安全领域带来了一次重要升级。这款基于 Gemma 3 打造的 40 亿参数模型,专为图像安全分类设计,旨在帮助开发者和研究人员有效规避有害内容风险,这不仅是对现有 AI 安全模型的补充,更是一种前瞻性的内容防护策略...
Llama 4 多模态大模型震撼发布 Meta 推出 Llama 4 系列开启 AI 新纪元。 Meta 近日正式发布其新一代旗舰模型 Llama 4 系列 包含 Llama 4 Scout 和 Llama 4 Maverick 两款模型。这标志着 Llama 生态系统迈入一个全新时代 其核心创新...
AI 前沿动态聚焦 OpenBMB 最新力作 MiniCPM-o 2.6 模型以仅 80 亿参数的体量,在多项基准测试中展现出与 GPT-4o 202405 GPT-4V Claude 3.5 Sonnet Gemini 1.5 Pro 等专有大型模型相媲美甚至超越的性能,尤其令人瞩目的是其在手机端...
deepseek-ai 再次展现其在 AI 前沿的探索精神,最新推出的 Janus-Pro 模型,为多模态 AI 领域带来了创新的统一框架。这款模型不仅能理解图像内容,还能生成图像,其独特之处在于视觉编码的巧妙解耦设计,打破了传统多模态模型在理解与生成任务中的潜在冲突。 Janus-Pro 的发布预...
NVIDIA Isaac GR00T N1 是世界上首个面向通用类人机器人推理和技能的开放基础模型。 这款由 NVIDIA 推出的模型,不仅标志着机器人 AI 领域的一次重大飞跃,更预示着机器人将从传统的“任务专家”走向具备泛化能力的“环境通才”。 模型亮点与架构解析 GR00T N1 的核心亮点在...
提示词是 AI 绘图的核心,一个好的提示词能够让你的创意完美呈现,而糟糕的提示词则可能让你失望而归。ComfyUI 作为目前最强大的 Stable Diffusion 工作流工具,在提示词处理方面有着独特的语法规则和功能特性。 今天我们就来详细讲解 ComfyUI 中的提示词基础语法,从最基础的书写...
ComfyUI 的强大之处在于它支持各种类型的模型,每种模型都有其独特的作用和应用场景。但对于新手来说,面对五花八门的模型类型和复杂的安装过程,往往感到无从下手。 今天我们就来详细讲解 ComfyUI 中各类模型的安装方法,从基础的 Stable Diffusion 检查点模型,到进阶的 LoRA、...
微软(Microsoft)最新推出的 Kosmos-2.5 多模态模型,正重新定义我们对图像中文本的处理方式。它不仅是简单的光学字符识别(OCR),更是一个能够“阅读”并理解文本密集图像的“识字”模型。这标志着文档智能处理领域的一次重大飞跃,让机器不再只看到文字,更能理解文字的结构与含义。 核心亮点...
M87 Labs 带来了其前沿的视觉语言模型 Moondream 3 (Preview) 这一模型以其独特的专家混合 MoE 架构 脱颖而出。它在保持极致效率的同时 提供了业界领先的视觉推理能力 为 AI 爱好者和开发者打开了视觉 AI 应用的新篇章。 Moondream 3 MoE 架构揭秘 Mo...
Apriel-1.5-15b-Thinker 多模态推理模型由 ServiceNow-AI 团队发布 带来了 AI 训练领域的新鲜视角。这款模型的核心理念是“中间训练即所需”Mid training is all you need. 团队通过深度且广泛的持续预训练 Continual Pre-tra...
ComfyUI 作为目前最受欢迎的 Stable Diffusion 工作流工具,更新频率相当高。新版本不仅修复了 bug,还经常带来性能优化和新功能。但很多用户面对升级这件事总是犯愁,不知道该怎么操作。 今天我们就来详细讲解 ComfyUI 的升级方法。由于不同的安装方式对应不同的升级策略,我们需...
一、为什么你需要「提示词反推」? 做 AI 绘图的同学都懂: 1. 好不容易找到一张“梦中情图”,却写不出同样味道的提示词; 2. 训练 LoRA/角色模型时,需要给成百上千张图写标注,手打到天荒地老; 3. 多人协作,标注风格不统一,炼出来的丹直接“歪脸”。 共绩算力刚刚上线的「提示词反推工具」...
多模态 AI 的边界正在不断拓展一个能够无缝处理多种数据形式并进行生成与理解的统一模型始终是人工智能研究的核心目标。Lumina-DiMOO 的出现标志着这一目标又向前迈出了重要一步它以独特的技术路径描绘了未来的多模态交互图景。 Lumina-DiMOO 揭秘 Lumina-DiMOO 由 Alph...
IBM Research 发布了 granite-docling-258M 模型 这是一款专为高效文档转换设计的图像文本到文本多模态模型 它在 Idefics3 架构基础上进行了关键改进 用 siglip2-base-patch16-512 替换了视觉编码器 并集成了更轻量的 Granite 165...
Rhymes AI 最新推出了 Aria 模型 它以业界首个开源多模态原生 Mixture-of-Experts MoE 模型的姿态 重新定义了 AI 领域的交互与理解范式。Aria 的核心在于其能够同时处理文本 图像 视频以及代码等多种模态输入 并在这些任务上展现出卓越的性能。 多模态原生性能突...
如果你只用 ComfyUI 一个工具,这部分可以跳过,但了解自定义模型路径还是挺有用的,能帮你更好地管理文件。下面我们一步步来看怎么让 ComfyUI 和其他 Stable Diffusion WebUI(如 A1111)共享模型资源,或者设置专属的模型存储位置。我们主要针对两个常见版本:Comfy...
Meta Llama 4 Maverick 和 Scout 模型近日在 Hugging Face Hub 上发布 这标志着大型语言模型发展的一个重要飞跃 两款模型均采用原生多模态 MoE 架构 不仅能力强大 而且在长文本处理方面展现了惊人创新 Llama 4 技术亮点 Llama 4 是 Meta...
