首页 > 名字大全 > 微信名字 正文
【微信怎么取特殊字体名字】*** 次数:9999999 已用完,请联系开发者*** 一文道清语音转文字市场(Audio-To-Text)

时间:2023-04-25 19:18:07 阅读: 评论: 作者:佚名

*** 次数:9999999 已用完,请联系开发者***

关于语音转文字,大部分想起接触过的会是在聊天软件中出现。除此之外,语音转文字还有许多应用场景。对此,本文将以国内市场为支点,以全球市场视为目标,探寻语音转写产品的诸多可能性。推荐对语音转文字市场感兴趣的小伙伴阅读。

与以往从国内市场角度的分析不同,本文将以国内市场为支点,以全球市场视为目标,探寻语音转写产品的诸多可能性。

本文说的语音转写,聚焦于面向C端用户的带语音转文字功能的产品,不包括企业服务中的智能客服、Fintech、车载语音、智慧医疗场景下的泛语音转写。

一、名词解释

语音转写:使用将音视频信息转化成文本信息的一种服务。

  • 实时转写,即流式上传-同步获取,可将不限时长的音频流实时识别为文字,并返回带有时间戳的文字流;一般用于直播实时播放字幕、实时会议记录;也可以配合机器翻译,实现同传功能
  • 非实时转写,即已录制音频文件上传-异步获取,非实时语音转写将长段音频数据转换成文本数据,可用于影视字幕制作、会议访谈记录转写、智能客服录音质检等场景。

ASR:指自动语音识别技术(Automatic Speech Recognition),是一种将人的语音转换为文本的技术。

NLP:自然语言处理(Natural Language Processing,NLP)是利用计算机对自然语言文本进行理解、处理,并提取文本语义的过程。

二、如何介绍清楚语音转写

笔者的安排是这样的:

  • 语音转写的基本定义和概念科普,帮助读者和笔者同频;
  • 语音转写所在的前置背景,这是它发展的前提;
  • 语音转写的市场规模,这决定了它是否值得被研究;
  • 语音转写的产业链,这可以帮我们从合作视角看我们关注点所在的位置;
  • 语音转写的竞争格局,这里是重点,用竞争视角从行业玩家身上直观感受语音转写的用户-场景-需求和商业模式,并且笔者不仅会纵向对比国内不同语音转写产品,也会横向对比国内外语音转写产品的区别,最后通过详细拆解Notta这款明星PLG产品作为行业经典案例,希望带来启发;
  • 语音转写的发展趋势,这里主要是通过展示相关创业公司来阐述其可能的发展路径;
  • 语音转写的综合评价,总结笔者对于语音转写行业的认知。

三、语音转写发展的前置条件

这事能成,主要有赖于三点,因为语音转写是有三个步骤组成的:

  1. 输入得更多,说明场景更多,市场需求更多;
  2. 转码得更快,说明成本更低,使用没有障碍;
  3. 输出得更准,说明结果需要更少的修改加工,结果更满意。

这三点如何发生了改变:

1. 输入方面:无纸化程度极大提高,大部分的数据都是以数字化形式存储

理论上,只要是人与人之间发生的信息的传递,都是有数字化的需要的,主要是以非结构化数据的形式:

  • 比如开会讲话的内容,是多人之间相互的信息传递,需要沉淀成会议纪要;
  • 比如老师讲课的内容,是一个人单方面向多个人的信息传递,需要沉淀成学习笔记;
  • 比如采访对话的内容,是一个人和另一个人的信息传递,需要沉淀成实录文档;
  • ……

这些沉淀的信息肯定不能以手写稿作为载体,而是要以文本形式存储:

  • 手写稿存储成本太高,纸多了你总会弄丢吧,时间长了纸总会坏吧,要记的内容多了,我得随时准备各种各样尺寸的纸,以备不时之需;
  • 传输更麻烦,手写稿只有作者自己能看懂,况且一次只能给一人看,这还不如印刷术发明前的人类社会呢,信息的传输效率限制了世界的发展。

在未来,协作越来越多,人与人发生信息传递的场景就越来越多,越来越多的信息需要被数字化记录沉淀。

这是电子信息技术带来的结构性变化。

2. 转码方面:ASR性能提升,带来了转录的实时响应

单纯的无纸化,只能催生速记员、打字员,比谁能快速输出文本信息,这个活又脏又累还贵,可重复性可替代性极强,简直就是人工智能的最佳瞄准对象。

输入输出本身就很麻烦

  • 评论列表

发表评论: