٩(◕‿◕。)۶ 嗨,探险家!
还没拿到探险许可吗?
加入数字探险
欢迎回到数智世界!
用户名
密码
同意
《用户服务协议》
《隐私政策》
开启
密码掉进黑洞了?
微信公众号
抖音视频
微信视频号
小红书
数智朋克
DIGIPUNK
快讯
智选
创新
探索
欢迎进群
来自
去投稿
开源创新
RollingDepth创新性地为视频深度估计带来了革命性的突破,打破了传统依赖昂贵视频模型的束缚,直接通过短视频生成精准的三维深度图。其利用单帧图像潜在扩散模型(LDM)与优化配准技术,在长视频中的表现尤为突出,准确性令人瞩目,开创了视频深度估计的新未来。
看视频也能测深度?深度视频估计技术的颠覆者,RollingDepth来了!
开源创新
ComfyUI桌面版的开源发布,标志着AI创作工具的一个新进步。作为一款开源的图形化AI创作工具,ComfyUI桌面版将传统的技术复杂性转化为简便易用的操作界面,帮助用户通过拖拽节点来创建和管理自己的AI图像生成工作流。
ComfyUI桌面版开源:释放创作潜力,AI工具的未来已来!
开源创新
Lightricks推出的LTX-Video模型,基于DiT架构,实现了实时生成高质量视频的能力。该模型在消费级硬件上高效运行,为视频创作带来了全新可能。
LTX-Video:颠覆视频创作的AI黑科技,速度与质量兼得!
开源创新
MagicQuill 是一个基于 AI 的互动图像编辑工具,致力于为创作者提供精准的图像修改能力。通过该平台,用户可以利用智能提示和实时编辑功能,轻松生成个性化的图像创作。该项目的 GitHub 仓库为开发者提供了详细的实现代码和模型文件,让开发者能够进一步定制和扩展工具的功能。
MagicQuill:开源AI互动图像编辑系统,探索创意无限可能
开源创新
IC-Light v2.0是一款开源AI自动打光工具,通过背景和文本提示来实现光影自动调整。其高精度和细节保留能力使其成为电商摄影、图像设计等领域的得力助手,尤其适合需要快速、批量处理的场景。
IC-Light v2.0:开源AI打光革命,解锁电商和创意设计新潜力
开源创新
DreamClear是一款为真实世界图像恢复设计的高效工具,采用了隐私安全的数据集管理方法,解决了高分辨率图像生成中的隐私问题。它通过生成HQ-LQ配对数据进行训练,支持从256到1024的超分辨率还原。此外,该项目的预训练模型可在Hugging Face等平台上获得,为研究者和开发者提供了多样化的支持。
实现真实世界图像清晰还原:DreamClear隐私友好的图像恢复方案
开源创新
MIMO 是一个基于空间分解建模的可控角色视频合成模型,可以通过简单的用户输入,在复杂的现实场景中生成可动画化的角色视频。该模型不仅实现了多种复杂动作、3D场景互动,还能灵活控制角色的动作和外观。这使得 MIMO 成为动画制作、游戏设计等领域的潜在利器。
体验虚拟角色的全新维度:MIMO阿里巴巴达摩院出品可控视频合成模型
开源创新
随着各行业对高质量3D资产需求的增加,3DTopia-XL 通过全新的Primitive Diffusion技术,大幅提升了几何细节与材质渲染的能力。该模型引入了PrimX表示形式和Diffusion Transformer框架,使得生成速度与质量远超当前主流模型,并支持从文本或视觉输入生成3D资产。
3DTopia-XL:下一代高质量3D资产生成的变革
开源创新
OmniGen是一种全新的扩散模型,专为统一的图像生成而设计。它无需额外的模块如ControlNet或IP-Adapter,能够处理多种控制条件。OmniGen不仅支持文本生成图像,还能用于图像编辑、基于对象的生成和视觉条件生成。它通过简化的架构和高效的知识迁移,突破了许多现有模型的局限,展现了广泛的应用潜力。
OmniGen:打破图像生成的边界
开源创新
MeshAnything V2 是一种创新的自动网格生成模型,使用全新开发的**邻近网格标记化(AMT)**方法,大幅提升了3D艺术网格的生成效率和性能。相比于传统方法,AMT将网格标记序列长度缩减了近一半,使得模型在保持高精度的同时,极大地降低了计算和内存需求。MeshAnything V2 的推出为3D资产的高效生成和应用开辟了新的可能性。
MeshAnything V2:重新定义3D艺术网格生成的效率与精度
DIGIPUNK
AIGC社群
联系我们
加入我们
商务合作
我要投稿
解决方案
媒体矩阵
Copyright © 2023-2024 DIGIPUNK LTD.