网站介绍
FireRedASR 是由小红书 FireRed 团队于2025年2月9日发布并开源的基于大模型的语音识别模型,它在中文普通话语音识别领域取得了新的SOTA(字错误率CER 3.05%),并支持方言、英语及歌词识别。
FireRedASR的主要功能:
高精度语音识别:FireRedASR-LLM(8.3B参数量)在公开测试集上取得了3.05%的字错误率(CER),成为新的SOTA,相比此前的SOTA模型Seed-ASR(12B+参数)降低了8.4%的错误率。
高效推理:FireRedASR-AED(1.1B参数量)在保持高准确率的同时,显著提升了推理效率,其CER为3.18%。
多场景适配:FireRedASR在短视频、直播、语音输入和智能助手等多种日常场景下表现出色,与业内领先的ASR服务提供商和Paraformer-Large相比,CER相对降低23.7%~40.0%。
歌词识别能力:在需要歌词识别能力的场景中,FireRedASR-LLM的CER实现了50.2%~66.7%的相对降低,展现了极强的适配能力。
多语言支持:FireRedASR支持普通话,在中文方言和英语语音识别方面表现出色,进一步拓宽了其应用范围。
FireRedASR模型两个核心版本:
FireRedASR-LLM
架构:采用Encoder-Adapter-LLM框架,结合大型语言模型Qwen2-7B-Instruct,通过LoRA微调实现端到端语音交互。
性能:在普通话基准测试中CER为3.05%,相比前SOTA模型错误率降低8.4%;歌词识别场景CER相对降低50.2%~66.7%。
特点:参数8.3B,专注极致精度,适合高要求场景如专业字幕生成。
FireRedASR-AED
架构:基于注意力编码器-解码器(Conformer编码器+Transformer解码器),参数1.1B。
性能:CER 3.18%,优于12B参数的Seed-ASR,推理效率更高。
特点:平衡准确率与计算效率,适合实时应用如直播字幕、语音助手。
FireRedASR技术亮点:
多场景适配:在短视频、直播等日常场景中,CER相对降低23.7%~40.0%;支持中文方言和英语。
开源生态:模型与代码已开源(GitHub),采用工业级设计,支持社区二次开发。
训练策略:LLM版本固定大部分参数,仅训练编码器和适配器,保留预训练能力。
FireRedASR的应用场景
智能语音交互:FireRedASR可以应用于智能语音助手、语音输入法等场景,提供高精度的语音识别服务。
多媒体内容理解:FireRedASR在视频字幕生成、歌词识别等多媒体内容理解场景中表现出色。
日常场景应用:FireRedASR在短视频、直播、语音输入和智能助手等多种日常场景下表现出色,与业内领先的ASR服务提供商和Paraformer-Large相比,CER相对降低23.7%~40.0%。
FireRedASR相关链接:
项目地址:https://github.com/FireRedTeam/FireRedASR
论文地址:https://arxiv.org/abs/2501.14350
本站Ai工具导航提供的“FireRedASR”来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由“Ai工具导航”实际控制,在“2025-10-03 01:37:42”收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,“Ai工具导航”不承担任何责任。
流量统计
- 7天
- 30天
- 90天
- 365天
猜你喜欢
CREAO
CREAO是什么CREAO 是创新的零代码AI应用开发平台,用户通过简单的描述构建完整应用程序。用户只需描述需求,CRE...PPIO派欧云
PPIO派欧云是什么PPIO派欧云是领先的分布式云计算服务商,基于共享经济模式,结合大数据、云原生和分布式计算技术,汇聚...WaveSpeedAI
WaveSpeedAI是什么WaveSpeedAI 是全球领先的MaaS(Model-as-a-Service)平台,提...模力方舟
模力方舟是什么模力方舟(Gitee AI)是面向开发者、终端用户与产业场景的 AI 应用共创平台。依托 Gitee 全球...Refly
Refly是什么Refly是全球首个开源 Vibe Workflow 平台,为用户提供强大的多线程对话和内容创作能力。支...魔乐社区
魔乐社区是什么魔乐社区(Modelers)是中国电信天翼云推出的人工智能社区。魔乐社区提供人工智能工具、模型、数据托管、...SiliconFlow
SiliconFlow是什么SiliconFlow(硅基流动)是生成式AI计算基础设施平台。SiliconFlow提供包...SkyAgents
SkyAgents是什么SkyAgents 是昆仑万维推出的 AI Agent 开发平台,基于昆仑万维的「天工大模型」,...Gumloop
Gumloop是什么Gumloop是AI零代码工作流平台,通过简单的拖放界面使用户能够创建和部署 AI 驱动的工作流自动...蚂蚁百宝箱Tbox
百宝箱是什么百宝箱Tbox是蚂蚁集团面向AI开发者推出的一站式智能体应用开发平台,提供智能体从开发到发布的全流程支持。已...BigModel
BigModel是什么BigModel是智谱AI专为开发者设计的大模型开发平台,BigModel通过提供模型能力、开发资...言犀智能体平台
言犀智能体平台是什么言犀智能体平台是京东推出的一站式AI智能体开发平台,用户无论有无编程基础,都能快速构建基于AI模型的...
- 关注我们
-
扫一扫二维码关注我们的微信公众号
- 网址推荐
- 热门标签
-
- 游戏(4428)
- 街机游戏合集(4329)
- 街机游戏(4329)
- 在线游戏集合(4329)
- 街机在线(4329)
- nes合集游戏(4328)
- 在线小游戏网站(4328)
- 游戏榜(4328)
- 红白机游戏盒(4328)
- 小霸王游戏(4328)
- GBA(1796)
- 街机(555)
- 动作冒险(400)
- 青檬花园(374)
- 角色扮演(354)
- 动作(341)
- 汉化(332)
- SFC(328)
- 运动比赛(321)
- 深度导航(309)
- 小游戏(302)
- 射击(292)
- AIGC导航(277)
- 国内精选服务商(255)
- 中文(245)
- 冒险(239)
- 工具达人(239)
- AI写作工具(232)
- 平台(219)
- 格斗(212)
- 视频(198)
- 翻译(186)
- 人工智能(172)
- 动漫(159)
- 的(153)
- Video(152)
- 数字人(151)
- ppt(137)
- 数据分析(137)
- 文生图(134)
- logo(133)
- 飞行射击(128)
- AI智能体(126)
- 赛车(124)
- 一起用AI(123)
- 电商(119)
- 其他(119)
- 思维导图(113)
- OpenI(113)
- Code(105)