本站真誠介紹香港這個「東方之珠」和「亞洲國際都會」

亞洲國際都會 asiasworldcity

手機芯片,大變局

(本文内容不代表本站观点。)
香港飛龍 Hong Kong HK Dragon
「香港飛龍」標誌

本文内容:

公衆號記得加星標??,第一時間看推送不會錯過。來源:內容來自semiengineering 。領先智能手機廠商正在努力應對本地生成式AI、標準手機功能以及日益增長的手機與雲之間數據交互所帶來的計算和功耗壓力。除了邊緣側的功能(例如人臉識別等本地應用),手機還必須持續兼容新的通信協議,以及系統與應用的不斷更新。而且,它們必須在單次充電下完成這一切,同時保持機身不會過熱,確保用戶手持或貼臉時的舒適性。圖1:手機主板,上方右側爲系統芯片(SoC),包含Arm CPU及其他組件。來源:Arm“如果你觀察任何一款高端智能手機的配置,你會發現所有SoC都採用了異構架構,即多箇不同的模塊執行不同任務,同時協同工作。” Imagination Technologies的產品管理部門細分策略高級總監Vitali Liouti表示,“從系統層面來看,每一家移動SoC廠商都在以平臺視角來設計——既包括硬件,也包括軟件。”Cadence公司Silicon Solutions Group下Tensilica DSPs產品管理與市場營銷總監Amol Borkar指出,由於AI網絡快速演化以及AI模型需求日趨多樣,移動SoC的設計變得愈發複雜。“與傳統工作負載不同,AI模型——尤其是大型語言模型(LLM)和Transformer變體——在架構、規模和計算需求上不斷演變。這對芯片設計師提出了更高要求,他們必須將對未來AI能力的支持硬編碼到無法修改的硅中。挑戰在於要同時支持AI的兩個極端——一方面是大規模雲模型,另一方面是像TinyLlama這樣的小巧高效的本地模型。這類輕量模型對移動和嵌入式設備中的智能功能至關重要,而這些設備對功耗和內存極爲敏感。”除了系統層面的異構設計,AI也在重塑單個處理器的結構及其任務分配。Synaptics公司物聯網與邊緣AI處理器部門副總裁兼總經理John Weil表示:“當前正在發生的最大變化有兩個方向:一是Arm生態系統和RISC-V架構中的CPU架構增強,人們正在添加矢量數學單元模塊,用於加速Transformer模型中所需的數學運算;二是神經處理器(NPU)的增強,可以將其類比爲專注於邊緣AI模型加速的GPU。它們大多是用於加速模型內不同算子的矢量運算單元。例如,Arm的Tensor Operator Set Architecture(TOSA)規範中列出了一系列AI操作符,人們正在爲其編寫加速程序,就像用OpenGL爲GPU編程一樣。”圖2:移動SoC設計中,AI加速器可能是GPU、NPU或高端ASIC。來源:Synopsys近年來,爲適應不斷擴展的新場景,GPU與NPU設計不斷更新換代。Imagination的Liouti指出:“在高端手機中,GPU通常佔據硅面積的25%左右,而NPU也已擴展到足以承擔大量工作負載的程度。不同任務下可能由NPU主導,也可能需要將任務拆分,一部分由NPU完成,一部分由GPU完成。NPU已成爲低功耗場景的核心,比如‘始終在線’類任務。而高性能CPU依然不可或缺,因爲它負責大量的初始化工作和任務管理。如果CPU性能不強,再大的GPU和NPU也無濟於事。”當前的設計重點是實現圖形、通用計算與AI運算中的並行處理功耗最優化。Imagination技術洞察副總裁Kristof Beets指出:“我們正在重新設計並優化我們的算術邏輯單元(ALU)引擎,以實現極致的低功耗數據運算。下一步是將NPU中的更多技術引入GPU,包括更適合專用處理的數據類型和處理管線。同時,我們必須具備可擴展性,滿足不同客戶需求。此外,開發者社區也不能被忽視,我們要確保讓他們能‘開箱即用’,還能進行高效的優化和調試。”總體來看,將AI功能集成到芯片中已不再那麼困難。Infineon物聯網、消費和工業MCU部門高級副總裁Steve Tateosian表示:“五年前人們還在驚呼AI即將到來卻無從下手,甚至還沒有數據科學家團隊。也許在十年前確實如此,但現在完全不同了。如果從開發者角度來看,我們已經有了一整支DSP博士團隊在優化音頻前端,而其他團隊也已經掌握AI工具,用來構建模型。過去5到10年裏,工具鏈進步巨大,包括數據處理、標籤、建模、測試到終端優化等流程,這些工具已經把大部分專業知識封裝在內,極大降低了AI應用的門檻。”一切都更加視覺化、無線化和可觸控化隨着 AI 的不斷深入,人機交互正朝着更加可視化的方向發展,而這比傳統的文本格式需要更多的計算能力。“過去主要是電腦或基於文字的界面。現在一切都是視頻或完整的圖形界面,對計算資源的需求要高得多,” Ansys 產品營銷總監 Marc Swinnen 說。“大量計算用於管理視頻的輸入輸出——從屏幕輸入、到 1080p 等分辨率的視頻輸出,都需要強大的算力。”此外,一切都在走向無線化,模擬信號在手機中的比重也隨之增加。“如今的手機大約有六根天線——這太瘋狂了,” Swinnen 說。“所有這些高頻通信功能——從 Wi-Fi、5G、藍牙到 AirDrop——各自有自己的頻段、芯片和天線。”通信標準的不斷演進,對 SoC 設計者而言又是一箇新挑戰。“關鍵在於支持 AI 應用場景,並推動 UFS(通用閃存存儲)規範的落地和加速,” Synopsys 移動、汽車及消費級 IP 產品管理執行總監、MIPI 聯盟主席 Hezi Saar 表示。“通過 MIPI 聯盟,我們將規範的推進速度加快了一年,大大降低了風險。目前,規範還在定義中。SoC 和 IP 廠商需要在規範制定的同時開發自己的 IP,進行流片,先實現部分規範功能,並規劃後續完善、規劃互操作性、搭建生態。過去,規範每兩年才迭代一次,但由於 AI 以軟件爲主導,硬件受到的影響越來越大,一切都被壓縮到了更短的週期。硬件可不像軟件那樣靈活。”圖 3:智能手機中正在實現的場景——LLM 或 AI 引擎需要駐留在存儲中。來源:Synopsys“設備開啓時,大部分模型需要加載到 DRAM 中,因此 UFS 存儲到 SoC 之間的讀取連接必須非常高效,” Saar 說。“這就是對延遲的考驗。用戶按下按鈕提問,不能等兩秒纔有響應。當然,也有優化方式,例如只讀取部分數據。但在這類系統中,我們需要將數據快速推到 DRAM,再由片上加速單元運算,最後將結果傳回給用戶,比如播放音頻。在移動設備上,這一切都必須極致高效。功耗至關重要,因此會盡量減少數據傳輸,讓 UFS 存儲多休眠。一方面我預期存儲連接和 DRAM 連接都會比以往更快地演進。”多模態模型和 Stable Diffusion 等生成式 AI 工具的興起,又給設計帶來了更多複雜性,它們將文本、圖像,有時還包括音頻處理,統一到一箇架構中。“這些模型需要靈活高效的計算結構,以處理多種數據類型和執行模式,” Cadence 的 Borkar 說。“爲了在快速演進的 AI 面前保持韌性,AI 子系統的設計必須考慮未來可擴展性。通常會在 NPU 旁加入可編程 IP 模塊,使 SoC 在流片後仍能適配新模型架構與工作負載。要支持如此多樣的 AI 應用場景,SoC 不僅要強大高效,還要在架構上具有靈活性,這讓以 AI 爲核心的芯片設計成爲移動計算領域最富挑戰性的一環。”另一項手機算法應用是在觸摸屏上區分有效與無效觸控,無論是“直板”手機,還是因屏幕更薄而面臨額外挑戰的摺疊屏手機。“當顯示屏變得更薄時,頂層觸摸層必須更靠近噪聲更大的顯示層,” Synaptics 產品營銷總監 Sam Toba 說。“我們要處理來自像素的顯示噪聲,對於超薄顯示屏而言尤其棘手。背景層板距越來越近,導致電容增大。而觸摸感應是在檢測極其微小的電容變化,面對如此高的背景電容,要從噪聲中區分出有效的指尖信號,難度非常大。”這款超低功耗芯片需要先判斷哪些信號有意義,然後再喚醒主 SoC。“如果由主控來檢測觸摸,就得一直保持喚醒狀態,高耗電。而絕大多數觸摸都要被拒絕。”本地 AI 處理與模型手機中承載的 AI 應用日益增多。Ansys 的 Swinnen 提到,應儘可能在手機本地完成處理,只將提煉後的信息發送到雲端。例如,面部識別或照片編輯等機器學習功能,應靠近攝像頭進行本地處理。Synopsys 的 Saar 也指出,針對 ChatGPT 或自主 AI 助手等生成式 AI 的推理請求,也可在設備本地完成。隨着 AI 模型不斷變得高效且緊湊,幾 MB、幾 KB 或幾 GB 的模型都能存儲在設備上,具體取決於模型和設備。本地處理有諸多優勢。Siemens Digital Industries Software 解決方案網絡專家 Ron Squiers 說:“將大型語言模型推理放在設備端,而不是將事務發回雲端進行運算,不僅能降低延遲、提高實時響應和閉環控制效果,還能更好地保護本地數據隱私。”Infineon 的 Tateosian 也表示:“無需將數據上傳雲端,能降低功耗和成本。有些邊緣 AI 應用可以在不增加聯網成本或減少聯網需求的情況下,降低終端功耗。”在超優化時代,設計師必須從技術負債的最低層面着手,以榨取更多性能。Imagination 的 Liouti 說:“數據移動佔 78% 的功耗,我們的重點就在於如何減少數據遷移。這既可以在 GPU 級別,也可以在平臺或 SoC 級別進行。我們必須研發極其先進的技術來降低數據移動,而神經網絡,尤其是大型網絡,對數據的需求更爲龐大,使事情更爲複雜。”儘管本地 AI 處理正不斷增加,由於電池與功耗限制,仍有部分任務需在雲端運行。Liouti 說:“如何在本地與雲端之間做取捨,將是一箇長期課題。我們纔剛剛起步,未來幾年形勢會大不相同。目前本地運行的圖像生成模型性能遠不及 PC 上的 Midjourney,但未來絕非如此。”更強大的 GPU 將是解決方案的一部分。Imagination 的 Beets 說:“在移動設備中,多餘的功耗節省可以轉化爲更高的時鐘頻率和性能,同時滿足相同的功耗和散熱預算。”然而,Infineon 的 Tateosian 也觀察到,即便每代設備性能和存儲都在提升,“用戶體驗並未發生質的改變,因爲軟件恰好利用了這些新增資源。”結論驅動移動 SoC 設計變革的關鍵趨勢有三點:“模擬需求上升,可視化和 AI 應用的普及,以及當今應用的高性能計算需求,對芯片算力提出了更高要求,” Ansys 的 Swinnen 說。“但手機廠商還得兼顧低功耗、小體積,以及經濟性——不像 NVIDIA 那樣,只追求性能,成本浮動無所謂。手機芯片要向數億級產量製造商證明其製造成本的可控性。”設計者必須從軟硬件雙視角入手。“任何忽視二者協同的人都會失利,” Imagination 的 Liouti 說。“語言模型、高維層次及運算方法聽上去簡單,實則無比複雜。要用硬件以最優方式完成數學運算,才能在與巨頭的競爭中拔得頭籌。硬件—軟件協同設計必不可少,一箇人絕難完成,需多學科團隊共同努力。”https://semiengineering.com/mobile-chip-challenges-in-the-ai-era/*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4058期內容,歡迎關注。加星標??第一時間看推送,小號防走丟求推薦


(本文内容不代表本站观点。)
---------------------------------
本网站以及域名有仲裁协议(arbitration agreement)。

依据《伯尔尼公约》、香港、中国内地的法律规定,本站对部分文章享有对应的版权。

本站真诚介绍香港这个「东方之珠」和「亚洲国际都会」,香港和「东方之珠」和「亚洲国际都会」是本站的业务地点名称。

本网站是"非商业"(non-commercial),没有涉及商业利益或竞争。


2025-Jun-08 09:08am (UTC +8)
栏目列表