数字孪生 - 赛博莉莉丝

Relic是荒坂一个旗舰级试验项目“守护你的灵魂”的接口和组件。它使用人格转移的概念，将人类神经系统的数据转化为数字印记，然后作为意识体储存在Relic生物芯片上。“守护你的灵魂”的目标就是让你能够与逝去的亲人交流，当然目前只有最富裕的客户才做得到。他们的人格意识体被保存在Relic生物芯片上，也就是说在实际意义上，死亡不再是人类的终极阻碍了。然而，就算是普通人也能明白，Relic技术的潜力远不止如此，目前，荒坂没有透露任何关于该项目未来走向的信息。

——《赛博朋克2077》游戏内数据库

（思路有点散，想到哪儿学到哪儿写到哪儿，时间太零碎了，等全部弄完再整理叭😅）

怎么想的

为了制作父母的虚拟数字人（AI Character）作为原始目标，Gatebox作为成型目标：
1、父母人体&头像3D建模
2、父母的语音库、TTS、Voice assistant
3、人偶开口说话（animation、Lip-sync)
4、3D全息
5、More…（其实前面的东西已经够我喝一壶的了 – -）

除了第一点的头像3D建模在本科毕业阶段研究过，其他都是门外汉，（其实当时也是使用TF-FLAME，基于图片生成的头像3D建模，效果并不精细也不好，答辩的时候院教授问：“为啥建模出来的结果很瘦，和你本人不太像呢？”我只好回答：“因为疫情期间研究这个，吃胖了”。导师们和院教授笑笑也就过去了，挺有趣的一段回忆。

一开始并没有制作父母的AI Character的想法，只是单纯的想用影像记录生活以及一些琐事的回答。在Twitter闲逛看科技新闻的时候，看到日本的Gatebox突然感觉可以朝着这个方向走，一句话介绍Gatebox：是一款专为宅男定制的家用智能化全息机器人。样子就是头图展现的样子。

自己一直是赛博朋克的粉丝，玩了Cyberpunk 2077后，开场的relic芯片的介绍还是很有触动的。relic芯片的介绍像是这个项目的灵魂吧。最近又看到了“赛博母亲”的故事，也是一个很伟大的母亲，她和牛牛一样，是夜之城的大人物。至此，打算把以前的想法再拿出来，看看如何去实现它。

1.人体&头像建模

目标：真人向或二次元卡通向

方案考虑有：

3D face reconstruction（效果不好）
3D human reconstruction
人工建模：Zbrush建模软件等（学习成本很高，但是也会去学习啦）
Character Creator 4

目前使用的是Character Creator 4 + Headshot插件，这是我力所能及的以图片的形式去快速建模头部，至于身体的方面会有预设的人体，而且还有很详细的部位的调整bar。

2.语音助手(等待更新，使用chatTTS）

updated: 之前使用的是mockingbird AI拟声，现在是用ChatTTS作为替换，原因之一是mockingbird没办法生成和模仿真人的暂停和语气，故使用chatTTS。

原Mockingbird AI拟声流程（被替换）

借此表达一下对稚晖君的赞叹和敬佩，稚晖君太厉害了。得好好看一下稚晖君的语音助手Pico文章。

想要用父母的声音做语音助手，得从头来。（借鉴稚晖君文章里面的思维导图）

语音处理：
- 离线唤醒
- ASR
- TTS
- 语音聊天对话
智能家居：
- 接入自定义硬件
- 设备消息订阅
- 设备语音控制
扩展技能

语音处理

流程：收集父母的音频数据创建数据集；生成模型，调整模型；音频和梅尔频谱图预处理；训练encoder；训练合成器synthesizer；训练声码器。

想要收集音频数据，那一定得有一个麦克风和安静的地方去录音，声音的情绪尽量稳定，不要有‘额’‘嗯’‘啊’‘哈’之类的语气词，电脑端使用adobe audition，audacity等软件或者手机录都行，音频长度最好在2s~10s之间，最后导出为24000采样率的wav格式。录的文本就很随意了，可以是一段电影，一本书，报纸的新闻，手机上的新闻。

数据集整理好后使用：

1、Mockingbird实时语音克隆的开源项目，也可以训练encoder、合成器、声码器。需要先对数据集进行处理，分割音频和字幕（transcript校对文本），为后面进行音频和梅尔频谱图预处理做准备。

2、baidu的Aistudio有个“用你自己的声音做语音合成”，白嫖算力，简化操作。

训练完encoder，合成器，声码器后，使用mockingbird GUI去看看效果如何。

数据集建立步骤（软件篇👨‍💻）

Adobe Audition：（八仙过海各显神通哈，有个搜索关键词：Adobe + Genp或者vposy或者CCmaker，都是我大哥🤣）
RTX Voice：作为一款全新插件，它可以充分利用RTX GPU及其AI功能，在直播、语音聊天、远程视频会议时，帮助消除令人分心的背景噪音。（看到RTX不要怕，现在技术下放了，GTX系列甚至更以前的显卡都可以安装了。
Whisper-webui：音频出srt字幕的开源程序。有gui其实会简单明了一点，不过这个项目托管在Hugging Face上，注册个账号然后git克隆到本地就好了。源程序在Whisper，如果喜欢命令行式的可以从github克隆。
ChineseSubtitleConversionTool：srt字幕繁简体转换，繁简体字幕转换工具
SoundLebal：语音数据集制作标注工具，用于从音频文件和srt字幕文件开始制作数据集，用户可以相对方便的在图形界面中编辑数据信息并导出。
Mockingbird（数据集使用，在这里一起列出来了）：AI拟声: 5秒内克隆您的声音并生成任意语音内容，同时训练encoder、合成器、声码器，包括后续测试自己训练出来的声音能不能使用。

数据集建立步骤（开始吧😆）

（因为本人正好单位里有采访的麦克风，所以录音这一步是PC段的步骤，方便性来说用手机录音也可以，但是记得需要一个较为安静的环境，然后后期导出wav，再降噪就好了）

找个麦克风，插上电脑，Audition和RTX Voice配合，给父母录音。Nvidia RTX Voice使用你的麦克风作为输入源，Audition使用RTX Voice作为输入源。（声音从RTX Voice输入并且降噪，然后被Audition录制下来，效果非常好，就算周围环境有点点嘈杂，背景音也会被降噪的很好）

录音的文本的话，我找了《汉语日常对话》和《现代汉语语料库》，后者直接搜关键词，可以直接网页使用（下载语料是xls格式，用Excel打开格式有点奇怪，推荐直接网页使用吧，拿个平板让父母读就好了）

Audition新建一个音频文件，采样率48000Hz（2w4*2），声道就选择单声道就好了，最后录制完成最后保存成wav文件就完事儿了。

有了录音文件，那还需要声音的transcripts（声音的文本？😅）还得处理一下，Whisper-webui就闪亮登场了。Whisper把读的那些话识别成Srt字幕文件，有时间戳后面方便点。

Srt下载好是繁体字，使用繁简体字幕转换工具，把字幕拖进软件=>转为简体=>保存

好了，我们手上有了Wav和对应的Srt，但是很长咋办0 0。尊敬的SoundLebal登场。把wav和srt都放进filepath文件夹

SoundLebal导出数据集后，在filepath中会生成一个output文件夹，存放分段好的wav音频和transcript文本。Mockingbird的作者在炼丹文中和github issue中说，训练集长度最好是小时级的，聚沙成塔吧少年，慢慢来不着急。训练集时长越长，后续训练应该越准确😇（数据多嘛，能更好的学习呗）

吼了，到此数据集算是搞出来了，这一部分还挺花时间的，我是没本事把所有的软件整合成一个软件啦，（写不了！没这个能力知道伐？范志毅.gif😂），顶多写个windows forms app 把上述用到的软件做个缝合怪🙄