目录
研究背景
本报告通过对同一段约47分钟的中文多人科技会议录音进行转写,我们从准确性、可读性、标点符号、时间戳、说话人分离、噪声与口语化处理、格式结构以及关键信息还原度等多个维度,对各方案的输出结果进行了细致的对比分析。
参赛选手
- AI模型: gemini-2.5-pro-exp-03-25/gemini-2.0-flash-thinking-exp-01-21/gemini-2.0-flash-exp
- 开源模型:faster-whisper-large-v3/faster-whisper-large-v3-turbo
- 第三方平台:阿里通义音视频速读/飞书妙记/百度网盘简单听记精转/VIVO录音机转文本
评测方法
使用 gemini-2.5-pro-exp-03-25 作为评委评价
本次评测主要采用定性与定量相结合的方法,基于以下维度对各方案的转写结果进行评估:
-
准确性 (Accuracy): 评估转写文字与原始语音内容的匹配程度,重点关注关键词、术语、人名、机构名等的识别准确率,以及是否存在错词、漏词现象。
-
可读性/流畅度 (Readability/Fluency): 评估转写文本是否自然流畅,易于阅读和理解。这涉及句子切分是否合理,以及对口语化表达(如停顿、重复、修正)的处理方式。
-
标点符号 (Punctuation): 考察是否自动添加标点,以及标点添加的准确性、规范性和自然度。
-
时间戳 (Timestamp): 评估是否提供时间戳信息,及其精度(段落级、句子级或词级别)和格式。
-
说话人分离 (Speaker Diarization): 评估是否能够区分不同说话人,并进行标注。
-
噪声/口头语/重复处理 (Handling Noise/Disfluencies/Repetitions): 考察方案如何处理语音中的非语义信息,如背景噪音、犹豫词、无意义重复等。
-
格式与结构 (Formatting & Structure): 评估输出文本的整体排版、段落划分是否清晰、合理。
-
关键信息还原度: 抽查会议中出现的关键人名、机构/技术术语等,评估其识别准确情况。
评测结果与推荐梯队
基于对九份转写稿的综合评估,我们将各方案大致归入以下梯队:
-
第一梯队 (综合表现优异):
-
飞书妙记: 在保持高准确度的同时,对文本进行了显著的流畅化处理,移除了大量口头语和无意义重复,标点和分段智能,可读性极佳,最接近可直接使用的会议纪要初稿。
-
百度网盘(精转) / 阿里巴巴通义: 准确率高,关键信息还原度好,提供了优秀的结构化支持(清晰的说话人分离和细粒度时间戳),是平衡准确性与可用性的可靠选择。
-
Gemini 2.5 Pro: 准确率高,标点使用优于Whisper系列,作为Google的先进模型,表现稳健。你可以使用 https://github.com/BlueSkyXN/SKY-STT/blob/205e4d9e439c149dddf5b840356c460819c2955d/gemini-stt.py
-
-
第二梯队 (高保真度,各有特点):
-
Faster Whisper Large v3 / v3 Turbo: 准确率非常高,最大限度地保留了原始语音信息,包括所有口头语、重复甚至可能的口误。是需要高保真原始文本进行后续处理或作为原始记录存档的理想选择。Turbo版本在速度上有显著优势(详见文末备注)。两者效果和格式高度相似。
-
Gemini 2.0 Flash (Thinking): 准确率尚可,文本基本连贯,没有出现严重错误插入。相比Pro版本精度稍低,但在轻量级模型中表现可用,具有一定潜力(需验证稳定性)。
-
-
第三梯队 (基础便捷型):
-
VIVO手机录音机: 作为移动设备内置功能,使用便捷。但准确率相对较低,丢失信息较多,且缺乏时间戳和说话人分离等高级功能,仅适用于非正式、要求不高的场景。
-
-
问题严重/暂不推荐 (基于本次测试结果):
-
Gemini 2.0 Flash : 在本次特定测试中,该版本输出的文本中被错误地插入了大量无意义的“嗯”音,导致文本几乎完全不可读,无法用于实际工作。此问题可能源于特定模型状态或API处理异常
-
维度 | Faster Whisper v3 Turbo | Faster Whisper v3 | Gemini 2.0 Flash (Thinking) | Gemini 2.0 Flash | Gemini 2.5 Pro | VIVO Recorder | Baidu Netdisk | Alibaba Tongyi | Feishu |
准确性 (综合) | 高 | 高 | 中等偏上 | 无法评估 (严重干扰) | 高 | 中低 | 高 | 高 | 高 (偏流畅化处理) |
可读性/流畅度 | 较好 | 较好 | 尚可 | 极差 (严重干扰) | 好 | 中等 | 好 | 好 | 优 |
标点符号 | 基础 (逗号/句号) | 基础 (逗号/句号) | 基础 | 无法评估 | 较好 | 较少/不一致 | 好 | 好 | 优 |
时间戳 | 段落级 | 段落级 | 段落级 | 段落级 | 段落级 | 无 | 句子/短语级 | 句子/短语级 | 句子/短语级 |
说话人分离 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 是 |
口头语/重复词处理 | 保留 | 保留 | 保留 | 大量错误插入"嗯" + 保留 | 保留 | 部分保留/丢失 | 保留 | 保留 | 优化/移除 |
关键信息还原 | 较好 | 较好 | 中等 | 无法评估 | 较好 | 差 | 好 | 好 | 好 |
主要优点 | 高保真, 开源友好, 速度快 | 高保真, 开源友好 | 可用性尚可 | - | 高准确, 标点好 | 便捷 | 准确高, 结构化好 | 准确高, 结构化好 | 流畅度极佳, 优化好 |
主要缺点 | 保留冗余, 无说话人分离 | 保留冗余, 无说话人分离, 相对较慢 | 准确率非顶尖, 无说话人分离 | 完全不可用 (本次测试) | 保留冗余, 无说话人分离 | 精度低, 功能少 | 可能付费/平台限制 | 可能付费/平台限制 | 可能丢失口语细节 |
推荐使用场景 | 高保真+速度要求, 技术分析 | 高保真原始文本, 技术分析 | 通用转写 (若稳定) | 暂不推荐 | 高精度转写, 通用 | 随手记录 | 会议纪要整理, 存档 | 会议纪要整理, 存档 | 快速阅读理解, 纪要初稿 |
综合评价 | 优 | 优良 | 中等 | 差 (本次测试结果不可用) | 优良 | 较差 | 优 | 优 | 优 |
-
高保真 vs 智能优化: Whisper系列和Gemini 2.5 Pro代表了“忠实记录”派,它们力求还原每一个发音,包括口头语、重复甚至口误。这保证了信息的最大完整性,适合需要精确原始文本的场景,如法律取证、语言学研究或需要进行精细后期编辑的工作。然而,这也意味着直接阅读文本时流畅度会受影响。飞书妙记则代表了“智能优化”派,它在转写过程中主动过滤了大部分无意义的口头语和重复(如开头的“博博博博”),并可能基于上下文对某些模糊发音进行了修正(如将“共产生革命”处理为“共建这个共赢”),显著提升了文本的可读性,使其非常接近人工整理的初稿。这种优化在快速获取信息和生成纪要方面优势明显,但也可能丢失部分原始的口语细节或语境信息。
-
结构化信息的价值: 对于多人会议记录,说话人分离功能至关重要。百度网盘、阿里巴巴通义和飞书妙记均提供了此功能,能够清晰地区分不同发言者的内容,极大方便了后续的整理和责任归属。同时,这三者提供的是句子或短语级的细粒度时间戳,比Whisper和Gemini系列的段落级时间戳更便于精确查找和回溯音频片段。
-
Gemini 系列内部差异: 本次测试暴露了Gemini 2.0 Flash可能存在的不稳定性或版本差异。其“Thinking”版本表现尚可,而“普通”版本则出现了严重的错误插入问题。Gemini 2.5 Pro则展现了与其定位相符的高准确性。【不过实际上2.0Flash和2.0FT模型都容易出现异常识别的情况,2.5Pro虽然效果不错,但是速度真的捉急。】
-
平台集成与便捷性: 百度、阿里、飞书的工具往往集成在其庞大的生态系统内,可能与其他办公、协作功能联动。VIVO录音机则胜在设备原生,无需额外安装,使用极为便捷。Whisper作为开源模型,提供了最高的灵活性,方便开发者进行定制和集成。
-
特定错误分析:
-
专有名词: “QCon”被Whisper识别为“QPON”,被Gemini 2.5 Pro/Flash(Thinking)识别为“Q上”,被VIVO识别为“QC”,而百度、阿里、飞书识别正确,显示出平台型工具在常见术语上可能积累了更多优化。
-
口误/模糊发音: “共产生革命”这个可能是口误或发音不清的短语,Whisper如实记录,飞书和Gemini Flash(Thinking)则基于上下文推断并优化为“共建这个共赢”,其他方案则出现了不同的错误识别。
-
综合来看,没有一款ASR方案能在所有维度上完美胜出,最佳选择取决于用户的具体需求和使用场景:
-
若需要快速生成高度可读、接近整理稿的会议纪要,且能接受一定的口语细节丢失: 飞书妙记 是首选。
-
若需要高准确度、清晰的说话人区分和精确的时间戳,用于正式记录、详细分析或存档: 百度网盘(精转) 或 阿里巴巴通义 是非常可靠的选择,两者表现旗鼓相当。
-
若需要最大限度保留原始语音信息(包括口头语和重复),用于深度分析、模型训练或作为原始证据,且不介意自行处理后期编辑: Faster Whisper Large v3/v3 Turbo 或 Gemini 2.5 Pro 是理想选择。其中,Whisper系列拥有开源优势,而Gemini Pro标点处理稍好。
-
若需要在本地快速处理大量或长时音频,并追求高保真度: Faster Whisper Large v3 Turbo 在速度上的优势使其成为该场景下的有力竞争者(需配备相应GPU)。
Comments NOTHING