Canonical 推出本地语音转文字项目 Myna,为 Ubuntu 26.10 引入 AI 听写功能

Canonical 推出名为 Project Myna 的本地化语音转文字项目,首个版本计划随 Ubuntu 26.10 发布并成为桌面体验核心。Myna 定位为原生桌面听写工具(非语音助手或控制系统),用户通过快捷键激活听写,转录文字会直接插入正在使用的应用中并提供视觉反馈。技术上所有识别在本地运行,下载安装模型后无需联网,麦克风仅在用户主动启用时访问,音频在内存处理后丢弃以保护隐私;架构模块化,初期以 Wayland 上的 GNOME 为主要验证环境。项目源码和架构文档以 GPLv3 托管于 GitHub,Canonical 希望通过社区反馈逐步改进并扩展与桌面的集成。

6 月 18 日消息,当地时间 6 月 17 日,Canonical 公布了一项名为 Project Myna 的新项目,旨在为 Ubuntu 桌面操作系统引入本地化的语音转文字功能。

该项目得名于擅长模仿人类说话的鹩哥 / 八哥鸟,首个版本计划随 Ubuntu 26.10(Stonking Stingray)一同发布,并成为 Ubuntu 桌面体验的核心组成部分。

Myna 被定位为一款原生桌面听写工具,而非语音助手或语音控制系统。IT之家注意到,用户按下键盘快捷键后即可开始说话,转录后的文字会直接插入当前正在使用的应用程序中,听写过程中屏幕会显示明确的视觉反馈。

Canonical 表示,首版功能范围将刻意收窄,不会涉及语音助手、语音命令、桌面控制、翻译工具或自动语言检测等功能,目标是把基础听写体验做扎实。

在技术架构上,Myna 使用 AI 语音识别模型,所有识别任务均在用户本地机器上运行,下载安装必要的模型后无需任何互联网连接。首版以 Wayland 上的 Ubuntu 桌面为目标,GNOME 是主要验证环境,架构保持开放以便未来支持更多桌面环境。

另外,麦克风仅在用户主动激活听写时才会被访问,音频数据在内存中处理后即被丢弃,不会上传至任何外部服务。整体架构采用模块化设计,语音识别、用户交互、听写管理和文本注入分别由独立组件处理,以便后续对各部分单独改进而不影响整体使用体验。

Canonical 桌面团队成员 Jean Baptiste Lallement 表示,该团队希望“在过多的设计决策被固定下来之前”获得社区反馈,尤其欢迎依赖听写或辅助技术的用户、已在 Linux 上使用语音识别的用户、开发者、测试人员及文档编写者参与进来。项目源码和架构文档已在 GPLv3 协议下托管于 GitHub。

在 Ubuntu 26.10 之后,Canonical 计划持续改善 Myna 与桌面的集成度,并探索让听写更自然、更准确的方法。后续功能的优先级将取决于早期用户的反馈和更多社区意见。

版权声明:本站文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

评论加载中...