千问输入法APP没等到,阿里云的全新AI输入法先上线了。
《读佳》获知,阿里云推出全新的AI语音输入法“CosyVoice”,这是一款以语音输入为主的智能语音输入法,支持多语种实时转写、方言识别、指令意图理解等功能,产品搭载的是千问大模型。该产品包含macOS版本和APP版本,其中APP版本通过冷启动的方式上线各大应用商店,当前为限免体验,后续可能会有付费服务。
下面带来完整实测体验。
登录进入“CosyVoice”电脑端后,需要设置文本粘贴、麦克风、录屏等权限,这里建议用户全部打开,避免后续使用功能时反复授权打断操作。
最后设置语音输入快捷键“Fn”。单击Fn快捷键,即可进行语音输出。比如在聊天框内想输入“你好,这里是读佳”,可以按一下“Fn”,然后说出这段话,再次按一下“Fn”结束语音输出,语音识别后,会自动转写到聊天框中。
实测过程中也发现一处原生短板:原生词库对小众专属名词、自媒体IP、自创品牌识别准确度不足,同音高频词容易覆盖自定义词汇。像科技媒体“读佳”被误识别为常用词“独家”,出现识别偏差后,需要手动修改或者口述修改,频繁处理专有名词会降低输入效率。
针对该痛点,产品配套上线热词Skill功能,用户能够手动录入各类专属特殊词汇,词条添加保存后,模型转写时会优先匹配自定义热词,从根源减少同音误识别问题,自媒体、行业从业者可以批量导入专属术语、项目名称优化识别效果。
整体看这款语音输入法上手门槛很低,整套操作逻辑简洁直观,不管是日常线上聊天,还是文字创作者批量撰稿,都能适配使用。
除去基础语音文字转写能力,CosyVoice还搭载多项差异化实用功能。
1.智能净化口语冗余内容。CosyVoice在转写过程中自动识别并去除口语化的填充词与重复词。
2.自动结构化整理口述内容。如果语音内容包含分点需求、项目规划、数据对比类口述内容,CosyVoice还会自动识别其中的项目结构,整理成编号列表、表格或层级大纲,输出格式条理清晰,无需手动排版,识别完成后可直接复制发送。
3.支持口语修正自动改写。CosyVoice还能识别口语中的自我修正,比如“不对不对”“改成”“我意思是”,并自动应用到最终稿件,不留改口痕迹。
4.一键生成完整制式文稿。针对写邮件、写会议邀请、写vlog脚本,可以告诉CosyVoice你想要什么格式,它直接给你完成稿,称谓、问候、签名均能实现。
5.数字、公式智能标准化转换。口播中的“三点五八亿”“百分之十二点六”自动还原为“3.58亿”“12.6%”,还能识别公式表达并补齐符号,金融、科研、媒体场景都能直接用。
6.多方言实时转普通话。在测试过程中,还发现“CosyVoice”可以识别上海话、粤语、四川话等多种方言,并能将其转写为标准普通话。比如说出一段上海话后,会自动转成普通话。
同时客户端具备完整数据统计功能,所有历史口述记录自动保存在首页,面板直观展示累计口述时长、总输入字数、平均口述速度,以及语音输入节省的手动打字时间,方便用户直观查看使用效率。
移动端APP核心能力与电脑端完全对齐,仅操作形式存在区分。手机端无需配置快捷键,在系统输入法设置中勾选启用CosyVoice即可全局调用。点击任意输入框唤起键盘,界面中间设有独立语音录制按钮,点击开启口述,再次点击结束转写,文字实时填入输入框;键盘自带撤销、换行功能,左下角切换键可一键切回系统自带或第三方输入法,兼顾语音快速输入与传统打字需求。
最后总结一下:
依托千问大模型加持的CosyVoice,跳出传统输入法文字输入的竞争赛道,主打全场景AI语音录入,兼顾电脑与手机双端适配,覆盖日常闲聊、自媒体创作、办公写稿、专业数据记录、方言采访等多元场景。
虽然原生通用词库对小众专有名词识别存在缺陷,但热词Skill功能补足了这一短板;而自动净化口语、结构化排版、制式文稿生成、方言转写、数字标准化等特色功能,大幅降低了语音转文字后的文稿整理成本,对于高频文字输出人群效率提升显著。






