一个多模态长篇故事生成模型,能够基于用户提供的文本和图像生成连贯的叙述文本和一致风格的图像。
可用于:
儿童故事书生成:通过输入一些简单的文字和图片,可以生成完整的故事,适用于儿童电子书和纸质书的创作。
广告和营销:根据初始的品牌图片和文本描述,生成一系列连贯的广告宣传素材。
教育与培训:生成包含图文并茂的教材,帮助学生通过图像和故事更好地理解知识。
游戏和娱乐:自动生成游戏剧情和角色设定,减少开发者的创作负担。
使用教程:
1. 克隆SEED-Story仓库到本地环境。
2. 安装依赖包,根据requirements.txt配置Python环境。
3. 下载并准备StoryStream数据集,用于训练和测试。
4. 使用提供的脚本进行数据集的分块处理,以提高训练效率。
5. 下载并保存预训练的模型权重到指定文件夹。
6. 运行inference脚本进行多模态故事生成。
7. 利用可视化脚本展示生成的故事和多模态注意力。
8. 通过GPT4 API进行生成结果的评估。
地址:https://github.com/TencentARC/SEED-Story