新聞資訊

百度語音識別上線新版本長語音轉寫告別時間限制

當語音輸入不再受時間的限制，用戶是否可以真正實現“動口不動手”？近日，百度AI開放平臺向開發(fā)者免費開放長語音識別功能，通過SDK調用服務，可將長語音轉換為文字。據了解，新版本SDK解除了對時間的限制，開發(fā)者無需再將長語音切割成60秒以內的分段，進行調用，提升了轉寫的效率和語音識別的體驗。對于用戶來說，新版本告別之前60秒的“束縛”，可根據需要自行把控時間，極大地提高了靈活性。

隨著用戶對移動端語音功能需求的增長，開發(fā)者也開始紛紛將產品接入語音功能。目前，開發(fā)者多通過第三方接入語音識別技術，以減少研發(fā)時間、降低研發(fā)成本。但是，大部分公司提供的語音識別功能有時間限制，類似會議錄音、長語句等長語音識別成了難題，雖然市面上存在一些長語音識別技術支持方，但開發(fā)者需要為此支付大筆的技術接入費用，徒增業(yè)務成本。

對于用戶，受“60秒”限制的語音識別功能往往無法滿足他們在生活、工作中的需求，這不僅影響他們使用語音識別功能的“興致”，同時會導致用戶對一些搭載了語音識別功能的產品“敬而遠之”。

為解決這些痛點，百度基于原有語音識別技術，新增長語音識別功能，讓語音識別不再局限于60秒，并且為開發(fā)者免費開放。比如開發(fā)者可將長語音識別用于會議記錄、實時字幕和語音筆記等場景，讓產品實現不同時長的音頻轉換為文字信息，或將直播、視頻、現場演講等音頻進行實時字幕轉換等功能，方便后期文字處理和內容存檔，省去記錄的人力和時間成本，大幅提升了轉換效率，給予開發(fā)者和用戶更好的使用體驗。

百度長語音識別適用于安卓SDK、iOS SDK，均在原有的離在線融合SDK上升級，開發(fā)者可根據不同情況接入百度長語音識別功能。目前，開發(fā)者可登陸百度AI開放平臺（ai.baidu.com），在“SDK下載”界面中，下載體驗百度長語音識別功能。

據了解，作為全球早進軍人工智能領域的公司之一，百度早在2010年就已經開始智能語音及相關技術研發(fā)，分別于2014年和2015年年底發(fā)布了深度語音識別系統(tǒng)Deep Speech和Deep Speech 2。該系統(tǒng)使用“端對端”的深度學習技術，在噪音環(huán)境下的表現比谷歌、微軟以及蘋果的語音系統(tǒng)更好。同時，百度憑借深度語音識別技術于 2016年入選MIT十大突破技術。2017年初，百度推出網頁應用SwiftScribe，它能將音頻文件轉為文本，30秒內就可轉換完成時長1分鐘的音頻文件，轉化效率較人工速記快1.67倍，極大提升速記行業(yè)轉錄效率，加速語音行業(yè)的發(fā)展。

视频一区二区三区SM重味,久久精品国产亚洲AV苍井空,国产suv精品一区,丰满人妻熟女AⅤ一区

百度語音識別上線新版本 長語音轉寫告別時間限制

百度語音識別上線新版本長語音轉寫告別時間限制