【記者牛暢北京報道】近日,訊飛星火大模型V3.5(以下簡稱“訊飛星火”)進一步升級。面向用戶高效準確獲取知識的痛點,科大訊飛首次推出長文本、長圖文、長語音大模型,不僅能夠把各種信息來源的海量文本、圖文資料、會議錄音等進行快速學習,還能在各種行業(yè)場景給出專業(yè)、準確回答。
科大訊飛分析發(fā)現,在知識獲取和學習的過程中,廣大用戶能拿到的資料往往不僅是現成的長文本,還有隨手可見的報刊、書籍內容,各種研討會的展示內容,老師黑板上的板書、同學的筆記,以及各種會議錄音、訪談等。把這些文本、圖片、語音等都上傳到訊飛星火中,讓用戶快速地獲取知識,需進一步破題。為此,科大訊飛推出首個支持長文本、長圖文、長語音的大模型,來解決多元化場景中多源信息的獲取需求。
本次訊飛星火長文本功能升級后,具備長文檔信息抽取、長文檔知識問答、長文檔歸納總結、長文檔文本生成等能力,總體已經達到GPT-4 Turbo 4月最新長文本版本的97%水平,而在銀行、保險、汽車、電力等多個垂直領域的知識問答任務上,訊飛星火長文本總體水平已經超過GPT-4 Turbo。
面對上百萬甚至上千萬文字,長文本大模型消耗的運算資源非常大。長文本功能的落地,需要解決信息高效處理的問題。
為了保證大模型應用效率和準確率,劉慶峰表示,基于訊飛星火V3.5對長文本的理解、學習、回答能力,科大訊飛進行了重要的模型“剪枝”和“蒸餾”,從而推出130億參數的大模型,在效果損失僅3%以內的情況下,使得星火在文檔上傳解析處理、知識問答的首響時間以及文字生成方面都獲得較好的效率提升。
此外,面向復雜的圖文場景,科大訊飛基于多年技術積累,首次推出星火圖文識別大模型;面對廣泛的音視頻信息高效獲取需求,科大訊飛也推出長語音功能,將國際領先的語音識別和翻譯技術結合起來,實現會議錄音、學習視頻等的一鍵研讀。
值得一提的是,自今年1月30日發(fā)布以來,訊飛星火V3.5作為首個全國產算力訓練的大模型,受到了各行業(yè)伙伴和開發(fā)者的歡迎。據劉慶峰介紹,大模型云邊端的整體解決方案正在賦能汽車、家電、運營商等越來越多的行業(yè)。在過去不到3個月的時間里,訊飛新增了55萬實名認證的開發(fā)者,其中一半以上來自企業(yè)。
對企業(yè)來說,如何高效地獲取和學習知識同樣是痛點,科大訊飛給出的答案是智能體,并面向企業(yè)場景推出全新的智能體平臺。
劉慶峰談到,在訊飛星火智能體平臺上,針對用戶的輸入,首先,會自動實現用戶輸入的精準理解和任務規(guī)劃。其次,解析完相關的任務和對應的工具之后,訊飛星火也構建形成了包括天氣、航班、企查查等成體系的外部信息來源的對接。同時,星火智能體平臺還通過互認證的機制,實現了往往是獨立的、隔離的OA系統(tǒng)、CRM系統(tǒng)以及ERP系統(tǒng)的打通,完成相應操作。最后,通過私域知識融入機制,智能體平臺很容易實現企業(yè)所屬行業(yè)以及企業(yè)私域知識的融入,能完成更精準的專業(yè)理解和知識問答。
此外,星火智能體平臺還可以通過拖拽方式實現新智能體的創(chuàng)建和多智能體的協作,觸達大模型應用企業(yè)落地的“最后一公里”。
據劉慶峰透露,科大訊飛將在6月27日發(fā)布訊飛星火大模型V4.0,進一步解放生產力、釋放想象力。
?。ň庉?牛暢)