需求人群
目标受众为视频制作者、内容创作者以及AI爱好者。视频制作者可以通过该工具探索新的视频创作方式,内容创作者可以利用图像提示生成视频内容,而AI爱好者可以在此基础上进一步探索和优化图像到视频的转换技术。
使用场景
使用IP2V技术将风景图片转换为视频,用于旅游宣传。将产品图片转换为视频,用于电商产品展示。利用历史图片生成视频,用于教育和纪录片制作。
产品特色
支持图像到视频的转换(IP2V):利用图像作为视频生成的条件,而非仅仅作为视频的第一帧。图像风格和概念提取:通过图像提示,提取图像的风格和概念,融入视频生成中。模型选择与配置:支持下载模型并放置在指定文件夹,或依赖自动下载机制。图像加载与连接:使用ComfyUI原生节点加载图像,并连接至Hunyuan TextImageEncode节点。高级配置选项:提供`image_token_selection_expression`用于选择图像隐藏状态的哪一部分用于条件。支持多图像输入:最多可以连接2张图像至Hunyuan TextImageEncode节点。实验性功能:产品处于工作进展中,但已经可以正常使用。
使用教程
11. 选择模型:下载xtuner/llava-llama-3-8b-v1_1-transformers模型,并放置在models/LLM文件夹,或依赖自动下载机制。22. 设置模型类型:将lm_type设置为vision_language。33. 加载和连接图像:使用ComfyUI原生节点加载图像,并连接至Hunyuan TextImageEncode节点。44. 提示与图像:在提示中包含<image>标签,以引用图像。55. 高级配置(可选):根据需要配置image_token_selection_expression,以选择用于条件的图像隐藏状态部分。