當語音輸入不再受時間的限制,用戶是否可以真正實現“動口不動手”?近日,百度AI開放平臺向開發(fā)者免費開放長語音識別功能,通過SDK調用服務,可將長語音轉換為文字。據了解,新版本SDK解除了對時間的限制,開發(fā)者無需再將長語音切割成60秒以內的分段,進行調用,提升了轉寫的效率和語音識別的體驗。對于用戶來說,新版本告別之前60秒的“束縛”,可根據需要自行把控時間,極大地提高了靈活性。
隨著用戶對移動端語音功能需求的增長,開發(fā)者也開始紛紛將產品接入語音功能。目前,開發(fā)者多通過第三方接入語音識別技術,以減少研發(fā)時間、降低研發(fā)成本。但是,大部分公司提供的語音識別功能有時間限制,類似會議錄音、長語句等長語音識別成了難題,雖然市面上存在一些長語音識別技術支持方,但開發(fā)者需要為此支付大筆的技術接入費用,徒增業(yè)務成本。
對于用戶,受“60秒”限制的語音識別功能往往無法滿足他們在生活、工作中的需求,這不僅影響他們使用語音識別功能的“興致”,同時會導致用戶對一些搭載了語音識別功能的產品“敬而遠之”。
為解決這些痛點,百度基于原有語音識別技術,新增長語音識別功能,讓語音識別不再局限于60秒,并且為開發(fā)者免費開放。比如開發(fā)者可將長語音識別用于會議記錄、實時字幕和語音筆記等場景,讓產品實現不同時長的音頻轉換為文字信息,或將直播、視頻、現場演講等音頻進行實時字幕轉換等功能,方便后期文字處理和內容存檔,省去記錄的人力和時間成本,大幅提升了轉換效率,給予開發(fā)者和用戶更好的使用體驗。
百度長語音識別適用于安卓SDK、iOS SDK,均在原有的離在線融合SDK上升級,開發(fā)者可根據不同情況接入百度長語音識別功能。目前,開發(fā)者可登陸百度AI開放平臺(ai.baidu.com),在“SDK下載”界面中,下載體驗百度長語音識別功能。
據了解,作為全球早進軍人工智能領域的公司之一,百度早在2010年就已經開始智能語音及相關技術研發(fā),分別于2014年和2015年年底發(fā)布了深度語音識別系統(tǒng)Deep Speech和Deep Speech 2。該系統(tǒng)使用“端對端”的深度學習技術,在噪音環(huán)境下的表現比谷歌、微軟以及蘋果的語音系統(tǒng)更好。同時,百度憑借深度語音識別技術于 2016年入選MIT十大突破技術。2017年初,百度推出網頁應用SwiftScribe,它能將音頻文件轉為文本,30秒內就可轉換完成時長1分鐘的音頻文件,轉化效率較人工速記快1.67倍,極大提升速記行業(yè)轉錄效率,加速語音行業(yè)的發(fā)展。
官方微博
官方微信公眾號
官方百家號