# 研究背景
本报告通过对同一段约47分钟的中文多人科技会议录音进行转写，我们从准确性、可读性、标点符号、时间戳、说话人分离、噪声与口语化处理、格式结构以及关键信息还原度等多个维度，对各方案的输出结果进行了细致的对比分析。
## 参赛选手

AI模型: gemini-2.5-pro-exp-03-25/gemini-2.0-flash-thinking-exp-01-21/gemini-2.0-flash-exp
开源模型:faster-whisper-large-v3/faster-whisper-large-v3-turbo
第三方平台:阿里通义音视频速读/飞书妙记/百度网盘简单听记精转/VIVO录音机转文本

评测方法

使用 gemini-2.5-pro-exp-03-25 作为评委评价

本次评测主要采用定性与定量相结合的方法，基于以下维度对各方案的转写结果进行评估：

准确性 (Accuracy): 评估转写文字与原始语音内容的匹配程度，重点关注关键词、术语、人名、机构名等的识别准确率，以及是否存在错词、漏词现象。
可读性/流畅度 (Readability/Fluency): 评估转写文本是否自然流畅，易于阅读和理解。这涉及句子切分是否合理，以及对口语化表达（如停顿、重复、修正）的处理方式。
标点符号 (Punctuation): 考察是否自动添加标点，以及标点添加的准确性、规范性和自然度。
时间戳 (Timestamp): 评估是否提供时间戳信息，及其精度（段落级、句子级或词级别）和格式。
说话人分离 (Speaker Diarization): 评估是否能够区分不同说话人，并进行标注。
噪声/口头语/重复处理 (Handling Noise/Disfluencies/Repetitions): 考察方案如何处理语音中的非语义信息，如背景噪音、犹豫词、无意义重复等。
格式与结构 (Formatting & Structure): 评估输出文本的整体排版、段落划分是否清晰、合理。
关键信息还原度: 抽查会议中出现的关键人名、机构/技术术语等，评估其识别准确情况。

评测结果与推荐梯队

基于对九份转写稿的综合评估，我们将各方案大致归入以下梯队：

第一梯队 (综合表现优异):
- 飞书妙记: 在保持高准确度的同时，对文本进行了显著的流畅化处理，移除了大量口头语和无意义重复，标点和分段智能，可读性极佳，最接近可直接使用的会议纪要初稿。
- 百度网盘(精转) / 阿里巴巴通义: 准确率高，关键信息还原度好，提供了优秀的结构化支持（清晰的说话人分离和细粒度时间戳），是平衡准确性与可用性的可靠选择。
- Gemini 2.5 Pro: 准确率高，标点使用优于Whisper系列，作为Google的先进模型，表现稳健。你可以使用 https://github.com/BlueSkyXN/SKY-STT/blob/205e4d9e439c149dddf5b840356c460819c2955d/gemini-stt.py
第二梯队 (高保真度或表现尚可):
- Faster Whisper Large v3 / v3 Turbo: 准确率非常高，最大限度地保留了原始语音信息，包括所有口头语、重复甚至可能的口误。是需要高保真原始文本进行后续处理或作为原始记录存档的理想选择。Turbo版本在速度上有显著优势（详见文末备注）。两者效果和格式高度相似。
- Gemini 2.0 Flash (Thinking & Regular): 在本次测试中，这两个版本表现非常接近，准确率达到中等偏上水平，文本基本连贯可用，保留了部分口头语。作为 Gemini 系列的轻量级、快速响应选项，适用于通用转写场景。（但正如后文分析，实际应用中可能需关注其稳定性）。
第三梯队 (基础便捷型):
- VIVO手机录音机: 作为移动设备内置功能，使用便捷。但准确率相对较低，丢失信息较多，且缺乏时间戳和说话人分离等高级功能，仅适用于非正式、要求不高的场景。

维度	Faster Whisper v3 Turbo	Faster Whisper v3	Gemini 2.0 Flash (Thinking)	Gemini 2.0 Flash	Gemini 2.5 Pro	VIVO Recorder	Baidu Netdisk (精转)	Alibaba Tongyi	Feishu Magic Note
准确性 (综合)	高	高	中等偏上	中等偏上	高	中低	高	高	高 (偏流畅化处理)
可读性/流畅度	较好	较好	尚可	尚可	好	中等	好	好	优
标点符号	基础 (逗号/句号)	基础 (逗号/句号)	基础	基础	较好	较少/不一致	好	好	优
时间戳	段落级	段落级	段落级	段落级	段落级	无	句子/短语级	句子/短语级	句子/短语级
说话人分离	否	否	否	否	否	否	是	是	是
口头语/重复词处理	保留	保留	保留	保留	保留	部分保留/丢失	保留	保留	优化/移除
关键信息还原 (QCon)	较好 (QPON)	较好 (QPON)	中等 (Q上)	中等 (Q上)	较好 (Q上)	差 (QC)	好 (正确)	好 (正确)	好 (正确)
主要优点	高保真, 开源友好, 速度快	高保真, 开源友好	可用性尚可, 速度快	可用性尚可, 速度快	高准确, 标点好	便捷	准确高, 结构化好	准确高, 结构化好	流畅度极佳, 优化好
主要缺点	保留冗余, 无说话人分离	保留冗余, 无说话人分离, 相对较慢	准确率非顶尖, 无说话人分离	准确率非顶尖, 无说话人分离	保留冗余, 无说话人分离	精度低, 功能少	可能付费/平台限制	可能付费/平台限制	可能丢失口语细节
推荐使用场景	高保真+速度要求, 技术分析	高保真原始文本, 技术分析	通用转写, 快速场景 (需注意稳定性)	通用转写, 快速场景 (需注意稳定性)	高精度转写, 通用	随手记录	会议纪要整理, 存档	会议纪要整理, 存档	快速阅读理解, 纪要初稿
综合评价	优	优良	中等	中等	优良	较差	优	优	优

高保真 vs 智能优化: Whisper系列和Gemini 2.5 Pro代表了“忠实记录”派，它们力求还原每一个发音，包括口头语、重复甚至口误。这保证了信息的最大完整性，适合需要精确原始文本的场景，如法律取证、语言学研究或需要进行精细后期编辑的工作。然而，这也意味着直接阅读文本时流畅度会受影响。飞书妙记则代表了“智能优化”派，它在转写过程中主动过滤了大部分无意义的口头语和重复（如开头的“博博博博”），并可能基于上下文对某些模糊发音进行了修正（如将“共产生革命”处理为“共建这个共赢”），显著提升了文本的可读性，使其非常接近人工整理的初稿。这种优化在快速获取信息和生成纪要方面优势明显，但也可能丢失部分原始的口语细节或语境信息。
结构化信息的价值: 对于多人会议记录，说话人分离功能至关重要。百度网盘、阿里巴巴通义和飞书妙记均提供了此功能，能够清晰地区分不同发言者的内容，极大方便了后续的整理和责任归属。同时，这三者提供的是句子或短语级的细粒度时间戳，比Whisper和Gemini系列的段落级时间戳更便于精确查找和回溯音频片段。
Gemini 系列表现： 本次测试中包含了 Gemini 2.5 Pro、Gemini 2.0 Flash (Thinking) 和 Gemini 2.0 Flash (Regular) 三个版本。Gemini 2.5 Pro 展现了强大的实力，准确率高，标点处理优于 Whisper 系列，稳居第一梯队。值得注意的是，在本次特定的测试文件 (`字节VOC交流-20250331-gemini-2.0-flash.txt` 和 `字节VOC交流-20250331-gemini-2.0-flash-thinking.txt`) 中，**Gemini 2.0 Flash 的两个版本（Thinking 和 Regular）表现出了高度的相似性**。两者均提供了中等偏上的准确率，文本基本连贯，保留了自然的口头语，并使用了基础的标点符号。它们在关键信息识别上表现一致（如将 QCon 识别为 Q上），且都没有出现之前误判的大量错误插入。这表明至少在这组测试条件下，这两个 Flash 版本提供了基本可用且性能相近的转写结果，符合其作为轻量级、快速响应模型的定位。【不过，根据实际使用反馈，2.0 Flash 和 thinking 版本有时可能出现异常识别的情况，稳定性有待进一步观察；而 2.5 Pro 虽然效果更好，但在处理速度上可能相对较慢。】
平台集成与便捷性: 百度、阿里、飞书的工具往往集成在其庞大的生态系统内，可能与其他办公、协作功能联动。VIVO录音机则胜在设备原生，无需额外安装，使用极为便捷。Whisper作为开源模型，提供了最高的灵活性，方便开发者进行定制和集成。
特定错误分析:
- 专有名词: “QCon”被Whisper识别为“QPON”，被Gemini 2.5 Pro/Flash(Thinking/Regular)识别为“Q上”，被VIVO识别为“QC”，而百度、阿里、飞书识别正确，显示出平台型工具在常见术语上可能积累了更多优化。
- 口误/模糊发音: “共产生革命”这个可能是口误或发音不清的短语，Whisper如实记录，飞书和Gemini Flash(Thinking/Regular)则基于上下文推断并优化为“共建这个共赢”或“共享的”，其他方案则出现了不同的错误识别。

综合来看，没有一款ASR方案能在所有维度上完美胜出，最佳选择取决于用户的具体需求和使用场景：

若需要快速生成高度可读、接近整理稿的会议纪要，且能接受一定的口语细节丢失： 飞书妙记 是首选。
若需要高准确度、清晰的说话人区分和精确的时间戳，用于正式记录、详细分析或存档： 百度网盘(精转) 或 阿里巴巴通义 是非常可靠的选择，两者表现旗鼓相当。
若需要最大限度保留原始语音信息（包括口头语和重复），用于深度分析、模型训练或作为原始证据，且不介意自行处理后期编辑： Faster Whisper Large v3/v3 Turbo 或 Gemini 2.5 Pro 是理想选择。其中，Whisper系列拥有开源优势，而Gemini Pro标点处理稍好。
若需要在本地快速处理大量或长时音频，并追求高保真度： Faster Whisper Large v3 Turbo 在速度上的优势使其成为该场景下的有力竞争者（需配备相应GPU）。
在速度、成本和准确性之间寻求平衡，可接受中上准确率的通用转写或快速响应场景： Gemini 2.0 Flash (Thinking 或 Regular) 可作为备选（两者在此次测试中表现相似），但建议在使用前对其在不同场景下的稳定性进行进一步验证。

苍穹の下

九个语音转文字方案效果深度对比报告

评测方法

评测结果与推荐梯队

iPhone 17 Air采用纯eSIM入华？解析中国特色ESIM的现实和未来

lennysnewsletter 会员包特价灵车说明书

Comments NOTHING

取消回复