返回第1906章 平衡的艺术2  重生87:开局截胡港岛女神首页

关灯 护眼     字体:

上一章 目录 下一页

最新网址:m.92yanqing.com

贾瀞雯看著那份测试报告,眉头皱起来。

百分之六十二,意味著每三句话里就有一句识別错误。

这样的產品,根本没法用。

“瓶颈在哪儿?”她问。

“数据。”张涛说,“语音识別需要大量標註好的语音数据。

我们没有这方面的积累,要从零开始收集。

还有算法,现有模型对噪声、口音的適应性很差。”

贾瀞雯记下这些,当晚就匯报给了陈浩。

陈浩听完,沉默了一会儿。

“百分之六十二,比我预期的好一点。”他说,“我本来以为会更差。”

“那怎么办?”贾瀞雯问。

“別急。”陈浩说,“语音识別是长期工程。

先收集数据,优化模型。

我把手头一些资料发给你,可能有用。”

几天后,贾瀞雯收到一个压缩包。

里面是几十篇论文和技术文档,都是关於语音识別的最新研究。

有些是英文的,有些是中文的,还有一些是手写的笔记——陈浩的字跡。

她把这些资料转给张涛。

张涛看了之后,兴奋地打电话来:“贾总,这些资料太及时了!有几篇论文正好解决了我们遇到的问题。”

接下来的几个月,语音搜索团队边学边做。

数据从几万条积累到几十万条,模型从简单到复杂。

准確率从百分之六十二慢慢爬到百分之六十七、六十九。

但到了百分之七十,又卡住了。

“七十是个坎。”张涛在评审会上说,“再往上,需要的计算量和数据量成倍增加。

我们现有的算力不够,数据也不够。”

“需要什么?”贾瀞雯问。

“至少再翻一倍的伺服器,还要更多的標註数据。”张涛说,“投入可能要翻番。”

贾瀞雯算了一下。

翻番意味著把移动gg联盟的全部盈余都投进去,甚至还要从其他项目抽资源。

她犹豫了。

当晚的视频,她把这个难题拋给陈浩。

陈浩听完,没马上回答。

他拿起笔,在纸上画著什么。

“瀞雯,我想到一个思路。”他说,“传统的语音识別,是把声音转成文字,再用搜索去匹配。

但有没有可能,跳过一个环节?”

“什么意思?”

“直接建立声音特徵和搜索结果之间的关联。”陈浩说,“比如用户说『天气预报』,系统不是先识別成『天气预报』这几个字,再搜天气。

而是直接从声音特徵匹配到天气这个意图。”

贾瀞雯想了想:“听起来很抽象。

技术上能实现吗?”

“需要算法创新。”陈浩说,“我写个框架发给你,让团队看看。”

两天后,一份长达二十页的手写文档发到贾瀞雯邮箱。

陈浩用铅笔画的流程图,密密麻麻的注释,还有一些数学公式。

本章未完,点击下一页继续阅读。(1 / 2)

『加入书签,方便阅读』

上一章 目录 下一页