AI-Vtuber虚拟人直播

项目简介

AI-Vtuber 是一个高自由度、可定制的虚拟主播项目,支持与哔哩哔哩直播间对接,并以智谱API作为语言模型基础。项目的主要功能包括意图识别、长短期记忆、认知库和歌曲作品库的构建,以及语音转换、语音合成、图像生成等功能。项目的特色包括低显卡要求、较大的安装体积、内置Miniconda3管理虚拟环境、基于Streamlit的可视化客户端,以及后端API服务器支持多种服务。

图片[1]-AI-VTuber:哔哩哔哩对接、语音合成与多模板自定义

技术实现

  1. 多种技术集成:项目集成了so-vits-svc4.1(语音转换)、GPT-Sovits(语音合成)、UVR5(人声分离)、fast-whisper(语音识别)、stable-diffusion-webui(图像生成)等多个开源项目。
  2. 客户端功能:可视化客户端支持环境管理、虚拟主播定制、扩展项目自启动、直播后端监听、图数据库编辑等操作。
  3. 知识库与认知库:通过图数据库和向量数据库构建AI虚拟主播的人设,并支持短期/长期记忆和情感聊天功能。
  4. API服务:提供后端API服务器,支持通过get/post请求获取大部分服务。

部署与使用

该项目对本地显卡要求低,适合能够运行stable-diffusion的电脑使用。项目占用空间较大,完整部署后需要约20GB的存储。内置Miniconda3管理虚拟环境,便于扩展第三方模块。

实用工具

项目还提供视频/音频爬虫、语音识别、人声分离、语音合成、AI绘画等多种小工具,极大地丰富了用户的操作体验。

结语

AI-Vtuber 项目展示了当前AI与虚拟主播技术的高度集成性和实用性,适合有相关需求的开发者和创作者使用。如果您对项目的详细实现感兴趣,可以访问项目的GitHub页面或作者的博客,获取更多技术文档和操作指南。

© 版权声明
THE END
喜欢就支持一下吧
赞赏