使用 pyVideoTrans 自动进行视频翻译及配音

前两天分享过一款通过 macOS 本地芯片实时生成字幕的 [[YPlayer]] 播放器,也分享过通过 [[MemoAI]] 来生成双语字幕,后来来发现了一款叫做 Fig Player 的播放器,也可以通过 Whisper 模型来生成双语字幕,但是这一些工具的底层原理基本上都是通过 OpenAI 发布的 Whisper,以及其衍生的模型来完成音频转字幕的,这一个过程叫做 Transcript,但是今天要介绍一个更加强大的工具 [[pyVideoTrans]],这一款开源,免费的项目完全实现了上述所有的产品的功能,并且更加强大。 pyVideoTrans Read more ...


通过聆听的方式看论文 Google Illuminate

Illuminate by Google 是 Google 发布的一个创新工具,将复杂的学术研究论文转变成简短的音频对话形式。 登录 Illuminate 也可以看到 Google 给出了一个非常醒目的提醒。 Illuminate 是一项实验性技术,它是利用 AI 来辅助学习的工具。 该工具用于促进学习,目前针对计算机科学主题进行了优化。并且特别强调,所有讨论和声音均由 AI 生成。 回想之前 Google 推出的 NotebookLM,通过上传 PDF 的方式以及和内容进行对话方式提升学习效率,现在的 Illuminate 则是更进一步将文 Read more ...


iPhone 重启之后照片丢失及解决方案

昨天手机选择照片的时候一直都是转圈,怎么都选不出来,索性就重启了一下手机,但是没想到的是重启完手机,我发现最近的照片全部都找不到了,8 月 31 号之后的所有照片在我的本地相册中全部找不到了,最后一张照片就是 10 多天前拍摄的了,大叫不好。 然后我就去 Google 查了一下发现, iOS 17.4.1 确实存在系统级的 BUG,在官方的论坛里面,搜到了无数的人反馈相同的问题,触发的情况全部都是重启手机之后,最新的照片找不到,有一些是丢失了前半天拍摄的内容,有一些丢失了几天,也有像我这样丢失了接近 10 天照片的情况。 所以就开始寻找解决办法,我首 Read more ...

2024-09-09 iphone , iphone-bug , ios-bug , ios

利用 macOS 的 LiveText 轻松复制视频文字实现观看韩综

前两天我录制了一期视频讲述如何通过 MemoAI 这样的语音转文字的应用来自动通过音频转写文字,然后变成字幕来观看韩综《思想验证区域:The community》,其实那一期视频主要是为了介绍软件应用的,所以就以我正在观看的韩综做了一个例子,但是其实制作字幕的时候我也知道,这一个综艺比较特殊,因为其中有很长的一段「讨论」,里面的参与者是通过匿名在线聊天室的方式录制的,所以整个综艺会有相当长的一段时间是没有人说话,而是大家都在打字进行辩论的!那么语音转文字就变得鸡肋了。所以这个地方字幕组也是非常辛苦,需要将视频中的字幕一个个取出来然后进行翻译叠加到视频里面 Read more ...


OpenAI 的 Whisper 以及相关模型和项目

自动语音识别技术 (Automatic Speech Recognition,简称 ASR)最近得到了非常大的提升,这个技术允许计算机通过识别语音将其转录成文本,在日常生活中有着非常广泛的应用,比如各类语音助手,Siri,Google Now ,Alex 等等。 另外还有一项技术是通过文字生成语音(Text to Speech,简称 TTS),这一项技术在前两年听书的时候经常会用到,但是之前的语音合成的效果非常不好,但是这两年的发展越来越听不出来是机器了。 而现在要说的是 OpenAI 在语音识别技术上推出的 Whisper 模型,并且随着 Whisp Read more ...


信银国际大湾区双币信用卡开卡及使用

信银国际大湾区双币信用卡是中信香港(信银国际)发行的一张双币信用卡,专为经常往返大湾区的人士设计,支持人民币和港币签账。 9 月 11 号应用内申请,9 月 12 号拨打客服电话,获取了邮件,并提交身份材料到邮箱,9 月 15 号收到 CNCBI GBA DC CARD 申请获批的邮件,9 月 23 号 EMS 收到卡片。 权益 人民币签账高达 10%现金回赠及免外币签账手续费。 指定大湾区酒店以及高铁折扣 永安旅游 9% 的立减折扣。 高铁,满 200 HKD 享有 20 HKD 折扣。 指定商户消费立减 迎新礼遇 Read more ...


MemoAI 一款跨平台的语音视频转文字工具

MemoAI 是一款 AI 驱动的音频,视频转文字的工具,集成了高精度的语音识别技术,能够处理多语言的语音转文本,并且支持翻译成多语种字幕。 前两天介绍过一款 macOS 和 iOS 上的实时字幕生成的播放器 YPlayer,但是实际测试下来 YPlayer 虽然可以支持实时字幕,但是 YPlayer 并不能很好的支持字幕翻译,并且在一些小语种方面 YPlayer 识别准确率还有待提高,但是 MemoAI 可以通过加载更精确的模型,通过 AI 转写,提高识别的准确率以及通顺程度。 MemoAI 特别适合用于教育讲座,会议记录,媒体制作等领域。 Read more ...


关于懒猫微服的一点想法

这两天在 X 上看到一款非常有趣的产品「懒猫微服」,简单的了解了一下,定位是一款微型家用服务器。因为产品定位比较特殊,我也非常感兴趣,所以就做了一点点购买前的小小总结。顺便也给自己理一理思路,是否值得购买。 配置 Intel Core i5-1135G7 处理器,Intel 首款 AI 芯片,四核八线程,2.5GHz 主频,睿频 4.5GHz 西数 SN580 SSD 或三星 SSD 存储盘为东芝 2.5 寸机械硬盘 购买的理由 适合不折腾使用,打开安装,绑定账号即可使用,省去了自己安装系统,创建账号,然后还需要根据自己的需 Read more ...


开源的调查问卷 HeyForm

HeyForm 是一个开源表单,调查问卷生成器,允许任何人通过拖拽的方式设计调查问卷,测验等。无需任何编码技能,就可以快速生成一个美观的调查问卷。 HeyForm 是一个基于 JavaScript 开发的表单工具,提供了丰富的表单元素和模板,无需代码基础,只需要简单拖拽式操作,就可以轻松创建各种类型表单,比如调查问卷,订单收集,活动报名等等。 HeyForm 基于对话式的设计理念,将表单的每个问题都作为一个对话节点,我们可以根据自己的选择进行下一步操作,从而体验更加流畅的表单。 主要功能包括: 拖拽式表单设计界面,简单易用 丰富的表单元 Read more ...


YPlayer 一款支持本地生成字幕的播放器

YPlayer 是一款创新的视频播放器,专注于本地实时生成字幕,充分尊重用户的隐私。它不采集任何用户数据,也不会对外发送数据,确保用户的隐私安全。YPlayer 利用 macOS 的 Speech Recognition 和苹果的 CoreML 机器学习框架,实现了高效的语音识别和字幕生成功能。由于采用了 SwiftUI 的新特性,该播放器目前仅支持 macOS Big Sur (11.0) 及以上版本。 功能亮点 实时字幕生成:YPlayer 能够为每个视频本地实时生成字幕文件,支持多种语言,包括汉语(简体、繁体)、英语、日语、德语、意大利语 Read more ...


最近文章

  • VideoLingo:一键自动将视频翻译成中文字幕 我之前的文章和视频中也介绍过好几款,或收费或开源的视频翻译工具,包括
  • 每天学习一个命令:wrk 单机性能测试工具 wrk 是一个使用 C 编写的 HTTP 压力测试工具,性能基准测试工具。可以在单机多核 CPU 的条件下,充分利用系统的高性能 IO,epoll,kqueue 等,通过多线程和事件,对目标机产生大量的负载。
  • 爱沙尼亚电子公民身份启动及邮件转发 今年 6 月份的时候申请 了爱沙尼亚电子居民卡,其实一个月左右就已经审批通过了,但是一直懒得没有去拿,直到 9 月底,终于抽出空来去了趟东京的爱沙尼亚大使馆,领取了实体卡片。
  • 使用 Tailscale Funnel 暴露本地服务 之前我介绍过 Tailscale,也介绍过如何使用 Tailscale 的出口节点功能配置流量出口,今天再介绍一个 Tailscale 的功能 Tailscale Funnel,可以将本地服务完全地暴露在互联网上。Tailscale Funnel 允许将运行在私有 Tailnet 上的 Web 服务与公共互联网共享,提供了一种简单的方式,无需配置复杂的网络。
  • 我购买了一台懒猫微服 前些天写了一篇文章,表达了一下我对懒猫微服 的一点看法,但是前两天没忍住还是在微信小程序上下了单,与此同时我还在京东购买 [[SER8]],准备将两台微型主机放到一起对比一下,并根据自己的需求分别给这两台机器不同的作用,懒猫微服在购买之前我就已经打算将其作为照片存储的一个备份,我在之前的文章中也提过一些我的疑虑,在机器拿到手之后有一些疑虑依然还是没有打消,尤其是数据安全性方面的问题,如果这个问题无法解决,那么我最多也只能将其作为照片备份的一个存储。另外就是会将懒猫微服作为家用的服务器,不折腾放在家中。但是 SER8 我则会根据之前我配置的 NAS 重新安装 [[Proxmox VE]] 然后安装 [[OpenMediaVault]] 作为 NAS 管理放在家中。