史蒂芬在房间和家娃一起调试写出来的雷电浏览器。
亨利和女儿在客厅吵嘴。
“你告诉怀特,那晚我们在蓝猫小舍了?”
夏洛特觉得老爹又想借题发挥:
“是的,但这又没什么。”
亨利痛苦咆哮:“天呐!
“夏洛特,你不能再见他了,明白吗!”
“为什么?”
亨利大叫:“因为你的话,他现在觉得我杀了他爸!
“你没觉得有什么问题吗?我觉得问题大了!”
夏洛特冷不丁:“除非真是你干的。”
亨利捂住胸口:“夏洛特,你觉得,我能做出那样的事来吗?”
夏洛特:“你不能阻止我见别人!”
“我可以!如果有必要,我可以把你送去非洲的寄宿学校,不要逼我!”
夏洛特根本不怕亨利,嗤笑一声:
“你很喜欢打受害者的苦情牌,是吧?!”
亨利很懵:“抱歉,‘受害者的苦情牌’?”
夏洛特:“作为一家之主,你总是不断重复‘我好惨啊’,这样的老调重弹!”
亨利痛苦:“就因为我不喜欢你吸嗨后的口不择言吗?
“我所谓的女儿,要像敌人一样对待我吗?”
夏洛特正想无情戳穿他中年人的装模作样,突然看到史蒂芬的卧室门,啪哒一声打开,连忙闭嘴。
秀才遇到兵,耍嘴皮子的最怕动手揍人的。
史蒂芬戴着耳塞,从冰箱里拿出牛奶,自顾自返回卧室,才不管叛逆期的小妹和中年危机的老爹。
谷歌大厦。
语音识别部。
虽早已过下班时间,但办公室里依然灯火通明。
“…使用了非常先进的语音识别技术,几乎将人机对话这一设想变成现实!
“瞧,在断网状态下,它都能借助机器的识别和理解,将人类的语音信号转换成对应文本。
“…前端的信号处理、中间的语音、语义识别和对话管理,以及后期的语音合成…简直是艺术品!”
谷歌的两位工程师测试着维斯顿语音输入法,脸上露出朝圣般的崇拜,还有幻想中的技术被人实现的惊讶。
“我已经喊老大过来了,咱们继续测试!
“从小词汇量到大词汇量,再到超大词汇量;
“从限定语境到弹性语境,再到任意语境;
“从安静环境到近场环境,再到远场嘈杂环境;
“从朗读环境到口语环境,再到任意对话环境;
“从单语种到多语种,再到多…
“哇喔!断网时,表现优秀;联网时,堪称完美!”
谷歌语音识别部门的老大,首席工程师威尔,带着一群技术人员围过来。
众人对两人所说的测试结果难以置信。
“我们的语音输入法,还处于对每个建模单元的统计概率模型进行描述阶段,哪里冒出来的小公司,meta?已经推出如此成熟的产品了!”
威尔手心全是汗,花了公司几千万,没开发出最先进的产品,终会有人担责。
“是和我们一样,采用高斯混合模型(gmm),用海量数据训练出来的吗?”
威尔抿着嘴唇,盯着手下操作,“应该不是gmm,那本质上是一种浅层网络建模,对特征的状态空间分布不能充分描述…特征维度一般也就几十维,对特征之间的相关性也不能进行充分描述…”
在周杰前世,直到2011年,微软公司基于深度神经网络,才在语音识别系统研究方面取得阶段性的成果。
由家娃变异进化后优化出来的维斯顿,已远超微软那时的技术。
此世此时,巨头们在语音识别方面,还处于实验阶段。
而维斯顿语音输入法,在语音的前端处理涵盖的几个模块,已极度优秀。
说话人声检测模块,可以有效地检测说话人声开始和结束的时刻,并区分说话人声与背景声。
回声消除模块,让音箱播放音乐时,消除来自扬声器的音乐干扰,不暂停音乐而进行有效的语音识别。
唤醒词识别模块,是人类与机器交流的触发方式,就像日常生活中需要与其他人说话时,你会先喊一下那个人的名字。
麦克风阵列处理模块,对声源进行定位,增强说话人方向的信号,同时抑制其他方向的噪声信号。