EmotiVoice 网易开源的中英文 TTS 引擎

EmotiVoice 是网易有道 AI 团队开源的一个强大的 [[TTS]] 引擎,支持中英文双语,包含 2000 多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。上线一周时间便获得了 4000 多星的成绩,并且荣登了 GitHub Trending 榜首。 首先我们来解释一下什么是 TTS,TTS 是 Text-to-Speech 的缩写,就是「文本到语音」的技术,是一种将文本内容转换成语音输出的技术。 功能 中英文双语 2000 多种不同音色 情感合成,语音更有表现力 网页界面,提供 Read more ...


升级 Mastodon 从 4.1.19 至 4.2.x

记录一下 Mastodon 实例维护,为 4.1.19 升级至 4.2.x 的过程。因为之前的版本还在 4.1.x 所以先按照官方的教程升级到了 4.1.19 最新的版本,然后开始研究如何跨版本升级,之前已经成功将 Mastodon 从 V3 升级到了 V4 版本,我大致猜测应该也差不多,但是为了数据安全起见,还是做了好充分的备份。 备份 首先是数据库备份 docker exec mastodon-db-1 pg_dump -Fc -U mastodon mastodon > ~/20240914mastodon_backup.dump Read more ...


自托管的开源视频分享平台 MediaCMS

MediaCMS 是一个现代化的开源的视频和媒体 CMS,使用 Django 和 React 实现。 MediaCMS 也提供了完善的 RESTful API 接口。 特点 可定制,提供了丰富的插件和主题,满足不同用户的需求 响应式布局:良好的显示效果 内容管理功能,丰富的内容管理功能,包括视频,图片和音频,支持创建,编辑,分类,删除等 支持多种音频格式,包括 MP4,MKV,AVI 等 RESTful API 接口,方便二次开发和集成 完善的用户管理,提供了用户注册权限控制 高级视频播放器,支持多分辨率和播放速度控制 Read more ...


使用 pyVideoTrans 自动进行视频翻译及配音

前两天分享过一款通过 macOS 本地芯片实时生成字幕的 [[YPlayer]] 播放器,也分享过通过 [[MemoAI]] 来生成双语字幕,后来来发现了一款叫做 Fig Player 的播放器,也可以通过 Whisper 模型来生成双语字幕,但是这一些工具的底层原理基本上都是通过 OpenAI 发布的 Whisper,以及其衍生的模型来完成音频转字幕的,这一个过程叫做 Transcript,但是今天要介绍一个更加强大的工具 [[pyVideoTrans]],这一款开源,免费的项目完全实现了上述所有的产品的功能,并且更加强大。 pyVideoTrans Read more ...


使用 Docker 安装单节点 Rancher

Rancher 是一个 [[Kubernetes]] 管理工具,提供部署和管理集群的能力。Rancher 为所有集群提供集中身份验证和基于角色的访问控制 RBAC,管理员可以在一个位置控制集群访问。 在现有的节点上配置 Kubernetes Catalog 管理,使用 Helm charts 轻松部署应用程序 管理项目 Fleet 持续交付 Istio 集成 测试单节点安装 根据官方的单节点安装建议: 直接执行如下的命令,或者转换成 docker-compose docker run -d --restart unles Read more ...

2024-09-10 docker , rancher , kubernetes , google , k3s

通过聆听的方式看论文 Google Illuminate

Illuminate by Google 是 Google 发布的一个创新工具,将复杂的学术研究论文转变成简短的音频对话形式。 登录 Illuminate 也可以看到 Google 给出了一个非常醒目的提醒。 Illuminate 是一项实验性技术,它是利用 AI 来辅助学习的工具。 该工具用于促进学习,目前针对计算机科学主题进行了优化。并且特别强调,所有讨论和声音均由 AI 生成。 回想之前 Google 推出的 NotebookLM,通过上传 PDF 的方式以及和内容进行对话方式提升学习效率,现在的 Illuminate 则是更进一步将文 Read more ...


iPhone 重启之后照片丢失及解决方案

昨天手机选择照片的时候一直都是转圈,怎么都选不出来,索性就重启了一下手机,但是没想到的是重启完手机,我发现最近的照片全部都找不到了,8 月 31 号之后的所有照片在我的本地相册中全部找不到了,最后一张照片就是 10 多天前拍摄的了,大叫不好。 然后我就去 Google 查了一下发现, iOS 17.4.1 确实存在系统级的 BUG,在官方的论坛里面,搜到了无数的人反馈相同的问题,触发的情况全部都是重启手机之后,最新的照片找不到,有一些是丢失了前半天拍摄的内容,有一些丢失了几天,也有像我这样丢失了接近 10 天照片的情况。 所以就开始寻找解决办法,我首 Read more ...

2024-09-09 iphone , iphone-bug , ios-bug , ios

利用 macOS 的 LiveText 轻松复制视频文字实现观看韩综

前两天我录制了一期视频讲述如何通过 MemoAI 这样的语音转文字的应用来自动通过音频转写文字,然后变成字幕来观看韩综《思想验证区域:The community》,其实那一期视频主要是为了介绍软件应用的,所以就以我正在观看的韩综做了一个例子,但是其实制作字幕的时候我也知道,这一个综艺比较特殊,因为其中有很长的一段「讨论」,里面的参与者是通过匿名在线聊天室的方式录制的,所以整个综艺会有相当长的一段时间是没有人说话,而是大家都在打字进行辩论的!那么语音转文字就变得鸡肋了。所以这个地方字幕组也是非常辛苦,需要将视频中的字幕一个个取出来然后进行翻译叠加到视频里面 Read more ...


OpenAI 的 Whisper 以及相关模型和项目

自动语音识别技术 (Automatic Speech Recognition,简称 ASR)最近得到了非常大的提升,这个技术允许计算机通过识别语音将其转录成文本,在日常生活中有着非常广泛的应用,比如各类语音助手,Siri,Google Now ,Alex 等等。 另外还有一项技术是通过文字生成语音(Text to Speech,简称 TTS),这一项技术在前两年听书的时候经常会用到,但是之前的语音合成的效果非常不好,但是这两年的发展越来越听不出来是机器了。 而现在要说的是 OpenAI 在语音识别技术上推出的 Whisper 模型,并且随着 Whisp Read more ...


信银国际大湾区双币信用卡开卡及使用

信银国际大湾区双币信用卡是中信香港(信银国际)发行的一张双币信用卡,专为经常往返大湾区的人士设计,支持人民币和港币签账。 9 月 11 号应用内申请,9 月 12 号拨打客服电话,获取了邮件,并提交身份材料到邮箱,9 月 15 号收到 CNCBI GBA DC CARD 申请获批的邮件,9 月 23 号 EMS 收到卡片。 权益 人民币签账高达 10%现金回赠及免外币签账手续费。 指定大湾区酒店以及高铁折扣 永安旅游 9% 的立减折扣。 高铁,满 200 HKD 享有 20 HKD 折扣。 指定商户消费立减 迎新礼遇 Read more ...


最近文章

  • Gemini 2 的原生多模态图片生成 Google 今天发布了 Gemini 2.0 Flash 的多模态图像生成功能。
  • Helm 使用 Helm 是 [[Kubernetes]] 的一个包管理工具,用来简化 Kubernetes 应用的部署和管理。
  • K8s 部署 TiDB TiDB 是由 PingCAP 开发的一款开源分布式 SQL 数据库,支持事务处理和实时分析。它与 Kubernetes 的结合使得数据库能够实现云原生化,具备弹性扩展、自动故障转移等特性。
  • 开源 Kotlin ORM 框架 Exposed 使用说明 Exposed 是 JetBrains 在数年前推出的轻量级 ORM 框架,Kotlin 编写,已经在 JetBrains 内部多个关键产品使用。
  • Open WebUI 基于网页的大语言交互界面及联网搜索配置 之前的视频也介绍过,ChatWise,Cherry Studio,Chatbox 等大语言模型调用的本地客户端,虽然这些客户端都还是跨平台的,但是总还是需要占用本地的空间,今天我就来介绍一款基于网页的 LLM 交互客户端 Open WebUI,以及再介绍一下如何配置 Open WebUI 让其支持联网搜索。