蘋果公司的研究團隊最近發(fā)表了一篇論文,宣布他們成功開發(fā)出了一款創(chuàng)新的人工智能系統(tǒng)。這個系統(tǒng)能夠準確地理解屏幕上模糊的內容及其相關對話和背景環(huán)境,進而實現(xiàn)與語音助手更加自然的互動。這個系統(tǒng)被命名為ReALM(Reference Resolution As Language Modeling,即以語言建模為基礎的參考解析),它通過大語言模型的運用,將理解屏幕視覺元素指向的復雜任務轉化為一個純粹的語言問題。這一轉換使得ReALM在性能上相較于現(xiàn)有技術有了顯著的提升。蘋果研究團隊強調:“讓對話助手能夠理解上下文,包括相關的內容指向,非常關鍵。能讓用戶根據(jù)他們所看到的屏幕內容進行提問,是確保真正實現(xiàn)語音操作體驗的重要一步?!痹鰪妼υ捴值哪芰eALM的一大創(chuàng)新在于它能夠重新構建屏幕內容,即通過分析屏幕上的信息及其位置信