语音活动检测 VAD 介绍

最近在整理一条语音处理链路的时候,我又一次被一个看起来不起眼,但实际上特别关键的模块提醒了:很多系统不是先输在大模型不够强,而是输在前面那一步根本没把“真正有人说话的片段”挑出来。麦克风一直开着,环境噪声不断,空白段一大堆,如果这些内容都一股脑喂给后面的 [[ASR]] 或语音理解模块,效果和成本都会一起变差。 这个前置模块就是 [[VAD]],全称是 Voice Activity Detection,中文通常翻成语音活动检测,或者更直白一点,叫“语音端点检测”也可以。它要解决的问题非常朴素:当前这段音频里,到底有没有人在说话。如果有,是从哪里开始,到 Read more ...


独角数卡用 Go 重写了:Dujiao-Next 全新架构的自动发卡系统

如果你做过数字商品的在线销售——卡密、激活码、会员订阅、虚拟服务之类的——大概率听说过[[独角数卡]](Dujiaoka)。这个基于 [[Laravel]] 框架的开源自动发卡系统在 GitHub 上积累了接近 12000 个 Star,是中文开源社区里最知名的发卡平台之一。我自己也用过一段时间,整体功能完整,但作为一个 PHP 项目,在部署和性能方面确实有一些让人头疼的地方。 最近发现原作者 assimon 做了一件大事——用 [[Go]] 语言从零重写了整个系统,推出了全新的 Dujiao-Next。从 2026 年 2 月创建仓库到现在,已经 Read more ...


轻量文件服务工具 dufs 介绍

我最近又开始折腾文件分享这件小事。 说它是小事,是因为需求其实很朴素:把一个目录临时共享出去,让手机、平板、另一台电脑能直接访问;或者给朋友、同事丢一批文件,顺手开个上传入口,把资料收回来。说它不小,是因为只要你认真找过一圈工具,就会发现这类需求特别容易落进两个极端。一个极端是太重,动不动就是数据库、用户系统、反向代理、对象存储、后台管理整套一起上;另一个极端是太轻,轻到只能下载静态文件,稍微多一点需求就卡住了。 也是在这种背景下,我重新注意到了 [[dufs]]。第一次知道它的时候,我只是把它当成一个“更好看一点的 python -m http.s Read more ...


AI Coding Agent 语境下的 Harness Engineering

最近这半年,我一直在深度使用各种 AI Coding Agent——从 [[Claude Code]] 到 [[OpenAI Codex]],从 [[Cursor]] 到 [[Windsurf]]。在这个过程中,我越来越强烈地感受到一件事:决定一个 AI 编程工具好不好用的,早已不是背后的大模型有多聪明,而是包裹在模型外面那一层「运行时系统」做得有多好。这层系统,业界现在有了一个越来越明确的名字——Harness。 Mitchell Hashimoto([[Terraform]] 的创始人)在他那篇广为流传的博客里,把自己使用 AI 编程的演进过程总结 Read more ...


Cloudflare 免费服务盘点

我一直觉得 [[Cloudflare]] 是互联网基础设施领域里最慷慨的公司之一。不是因为它便宜,而是因为它的免费套餐好用到让人心虚——总觉得哪天会收到账单,但用了好几年,账单真的没来过。 事情的起因很简单:我手里有几个域名,最早只是把 DNS 托管到 Cloudflare 上,图个解析快、面板好用。后来慢慢发现,光是一个域名接入 Cloudflare,能顺手用上的免费服务多到离谱。图床、邮箱、短链接、静态网站托管、内网穿透、数据库、甚至零信任安全网关,全部免费,而且不是”试用 14 天”那种免费,是长期可用的 Free Tier。 这篇文章就来 Read more ...


Accio Work 阿里国际推出的跨境电商 AI Agent

最近刷到一条消息,阿里巴巴国际在海外发布了一个叫 Accio Work 的产品,号称三十分钟就能帮你从零搭建一家可以上线的跨境网店。第一反应当然是”又一个 AI 包装的噱头”,但仔细看了一圈之后发现,这东西和我们平时聊的那些通用 AI 助手还真不太一样。它不是一个聊天机器人,而是一个能自己干活的 Agent——你给它一个想法,它自己去做市场调研、选品、开店、写文案、发社交媒体、甚至帮你跟供应商砍价。 这篇文章就来聊聊 Accio 到底是什么,它能做什么,以及这类垂直领域的 AI Agent 和我们熟悉的通用大模型到底有什么不同。 Accio 的前 Read more ...


Exa MCP Server:让 AI 助手拥有实时搜索能力

最近在用 [[Claude Code]] 写文章和做技术调研的时候,经常需要获取最新的网页信息。Claude 自带的 WebSearch 工具能用,但返回的结果有时候不够精准,特别是搜代码示例和技术文档的时候。后来发现了 [[Exa]] 的 MCP Server(https://github.com/exa-labs/exa-mcp-server),接入之后搜索体验有了质的提升——不管是查最新的 API 文档、找代码示例还是做竞品调研,都比之前顺畅很多。 Exa 是什么 Exa是一家专门为 AI 构建的搜索引擎公司。和 Google 这类面向人类 Read more ...


Clientexec 从六升级到七的完整指南

最近 [[Clientexec]] 发布了 7.0.1 稳定版,我使用了 Clientexec 来管理主机,我一直在等这个大版本更新。之前一直停留在 6.6.1,看到 7.0 正式稳定后终于决定动手升级。整个过程踩了一些坑,这里把完整的升级流程和注意事项分享出来,希望能帮到同样需要升级的朋友。 为什么要升级到七 Clientexec 团队在 6.x 系列上持续投入了很长时间,从 6.5 到 6.6、6.7、6.8,每个版本都带来了不少改进。正因为这种「先把 6.x 做好」的策略,7.0 的发布时间比预期晚了不少,但换来的是一个更成熟的大版本。7. Read more ...


Jina AI:为大语言模型而生的搜索基础设施

最近在搭建一个基于 RAG 的知识库系统时,遇到了一个很常见的问题:怎么把网页内容干净地喂给大语言模型?原始的 HTML 里充斥着导航栏、广告、脚本等各种噪音,直接丢给 LLM 不仅浪费 token,还严重影响输出质量。在尝试了几种方案之后,我发现 [[Jina AI]] 提供了一套非常完整的工具链,从网页内容提取、文本向量化、到深度搜索,几乎覆盖了 LLM 数据处理链路上的每一个环节。 Jina AI 是什么 Jina AI 是一家专注于搜索基础设施的 AI 公司,总部在柏林,在硅谷也有办公室。他们的定位很明确——为企业级搜索和检索提供基础模型 Read more ...


SyncTrain:让 iPhone 终于能用上 Syncthing 的开源客户端

用了这么多年 [[Syncthing]],一直有一个痛点——iOS 上始终没有一个真正好用的客户端。之前用过 [[Möbius Sync]],说实话体验相当一般,本质上就是把 Syncthing 的 Web UI 包了一层壳,收费不说,功能也受限。直到最近发现了 SyncTrain 这个项目,试用之后只想说:iOS 上的 Syncthing 体验终于像样了。 SyncTrain 是什么 SyncTrain(在 GitHub 上叫 Sushitrain)是一款原生的 iOS 和 macOS [[Syncthing]] 客户端,由荷兰开发者 Tomm Read more ...


最近文章

  • Claude Code 第三方 API 代理配置 Headroom 最近在给自己的 AI 编程工作流加入 [[Headroom]] 上下文压缩工具时,遇到了一个需要特别注意的配置问题。相信有不少人和我一样,为了降低成本或者改善访问体验,已经在 [[Claude Code]] 或 [[Codex]] 里配置了第三方 API 代理,比如一些第三方聚合平台或者自建的转发服务。这时候想再套上一层 Headroom 做 Token 压缩,就需要特别注意配置细节,不然两层代理会打架。
  • Headroom:让 AI Agent 少花冤枉钱的上下文压缩工具 最近一段时间我在深度使用 [[Claude Code]] 做开发工作,用得越多,账单就越触目惊心。一次稍微复杂一点的任务,比如让它读取几个文件、搜索一下代码、跑一下测试,轻轻松松就能烧掉超过 100K 的 Token。更让人无奈的是,这 100K 里面有相当大一部分是重复冗余的内容——工具调用的输出、日志、搜索结果,它们被原封不动地塞进上下文,再一次次地发给模型,而模型其实只需要其中很小一部分关键信息。
  • 用 Harbor 搭建私有 Docker Registry:从安装到日常使用的完整实践 我维护过几个跑在自己服务器上的小项目,构建出来的 [[Docker]] 镜像最早都是直接推到 [[Docker Hub]] 上的。用了一段时间之后开始觉得别扭:一些只在内网跑的服务镜像,没必要也不应该传到公开的仓库;Docker Hub 对匿名拉取做了限流之后,CI 流水线偶尔会因为触发了速率限制而失败;再加上想给不同的项目、不同的同事分配不同的访问权限时,公共仓库这套体系根本满足不了。折腾到后来我意识到,是时候在自己的机器上搭一个真正能用的私有镜像仓库了。
  • 用 New API 打造个人 AI 网关:统一管理所有大语言模型接口 这段时间我同时用着好几个大语言模型服务:日常写作和代码靠 [[Claude]],轻量任务交给 [[Codex]],搜索增强用 [[Antigravity]],还有几个本地跑着 [[Ollama]] 的小模型供离线场景使用。每个平台各自的 API Key 散落在项目环境变量里,月底要去好几个后台分别对账,想横向对比两个模型的输出还得打开不同的网页或客户端来回切换,很费事。
  • Surfingkeys:比 Vimium 更强大的浏览器键盘控制扩展 最早接触 [[Vimium]] 是在学习 Vim 编辑器之后,那种能用键盘完全控制浏览器的感觉确实让人着迷。不用频繁移手到鼠标,链接跳转、页面滚动、标签切换全用键盘搞定,效率提升的体验是实实在在的。用了几年 Vimium 之后,我开始接触到 [[Surfingkeys]],起初以为不过是另一个同类扩展,但深入用下来才发现这两者的差距远比我想象的大。