本文介绍如何使用GPU云服务器搭建Stable Diffusion模型,并基于ModelScope框架,实现使用文本生成视频。
背景信息
自多态模型GPT-4发布后,AIGC(AI Generated Content,AI生成内容)时代正扑面而来,从单一的文字文本,演化到更丰富的图片、视频、音频、3D模型等。
本文基于阿里云GPU服务器和文本生成视频模型,采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现文本生成视频功能。
重要
-
阿里云不对第三方模型“文本生成视频大模型”的合法性、安全性、准确性进行任何保证,阿里云不对由此引发的任何损害承担责任。关于模型的详细信息,请参见文本生成视频大模型。
-
您应自觉遵守第三方模型的用户协议、使用规范和相关法律法规,并就使用第三方模型的合法性、合规性自行承担相关责任。
操作步骤
创建ECS实例
本文使用的ai-inference-solution市场镜像中,内置了以下三个模型及运行环境。
-
v1-5-pruned-emaonly.safetensors:Stable Diffusion v1.5模型,一种潜在的text-to-image(文本到图像)的扩散模型,能够在给定任何文本输入的情况下生成逼真的图像。
说明
该模型中文提示词效果不好,建议使用英文提示词。
-
Taiyi-Stable-Diffusion-1B-Chinese-v0.1:太乙-中文模型,基于0.2亿筛选过的中文图文对训练,可以使用中文进行AI绘画。
-
Taiyi-Stable-Diffusion-1B-Anime-Chinese-v0.1:太乙-动漫风格模型,首个开源的中文Stable Diffusion动漫模型,该模型是基于Taiyi-Stable-Diffusion-1B-Chinese-v0.1进行继续训练,经过100万筛选过的动漫中文图文对训练得到的。太乙-动漫风格模型不仅能够生成精美的动漫图像,还保留了太乙-中文模型对于中文概念强大的理解能力。
-
前往实例创建页。
-
按照界面提示完成参数配置,创建一台ECS实例。
需要注意的参数如下,其他参数的配置,请参见自定义购买实例。
-
实例:选择实例规格为ecs.gn7i-c16g1.4xlarge。
-
镜像:本文使用已部署好推理所需环境的云市场镜像,名称为ai-inference-solution。
公网IP:选中分配公网IPv4地址,带宽计费模式选择按使用流量,带宽峰值设置为100 Mbps。以加快模型下载速度。
-
文本生成视频
执行如下命令,切换conda环境到modelscope中。
conda activate modelscope
-
执行如下命令,切换到
scripts
目录。cd /root/scripts
-
执行如下脚本,生成视频。
./text2video.py
运行过程中,请根据提示输入英文文本,例如
Clown fish swimming through the coral reef.
。说明
首次执行脚本时,会通过公网自动下载所需模型库,100 Mbps带宽下载时间大约为20分钟,请耐心等待。
-
文件存放:生成的text2video.mp4视频文件存放在
/root/scripts/output
目录中。 -
文件下载:在左上角顶部菜单栏,选择文件> 打开新文件树,找到目标文件后右键,单击下载文件即可。本文生成示例如下:
-
了解更多AIGC实践和GPU优惠
活动入口:立即开启AIGC之旅
腾讯云1折,限时活动,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠
转转请注明出处:https://www.yunxiaoer.com/153423.html