備案名 網(wǎng)站名互聯(lián)網(wǎng)營銷師教材
一份為你精心梳理的行業(yè)報告!從AI核心技術到芯片前沿,再到智能硬件產(chǎn)品全流程,帶你洞察未來趨勢,把握產(chǎn)業(yè)脈搏!
無論你是科技愛好者、從業(yè)者還是投資者,這篇都不能錯過!?
?? 人工智能技術發(fā)展與應用
1. 大型語言模型(LLM)的數(shù)學推理與強化學習(RL)應用
強化學習在LLM的數(shù)學推理能力提升中扮演了重要角色,但其效果高度依賴基礎模型(Base Model)。研究表明,RL訓練后的模型推理能力主要仍沿用基礎模型認為的最佳路徑,優(yōu)化了模型對更長思考過程的傾向性,并可能增強了局部推理能力。
?? 警惕風險:RL訓練中存在模型“遺忘”和“降智”的風險,如果模型在訓練中偏離基礎模型過遠,可能會“忘掉前面學過的知識,降智交智商稅”。
解決妙招:為解決這一問題,研究者提出了多種“trick”,例如PPO/GRPO中的ratio clip來維持穩(wěn)定性,以及ref_gain_clip策略來限制熵的無限制增加,避免模型失去某些模式。
- ?? DeepSeek R1模型展示了“僅使用Zero RL(讓模型自己發(fā)現(xiàn)長思考能力),一次SFT distill(去除zero模型中的雜音),然后繼續(xù)RL(繼續(xù)增強長思考能力),就能得到一個很強的推理模型的路徑。這其中不需要任何外界給的長思考數(shù)據(jù),就達到了基本是SOTA的效果,顯得格外優(yōu)雅。”
- ? Zero RL適用范圍有限:“如果你的模型小,做zero RL是沒有任何意義的。甚至是完全比不過distill的?!?/li>
- ?? 關鍵洞察:模型的“長度增長”是推理能力提升的現(xiàn)象而非直接優(yōu)化目標。直接優(yōu)化長度的獎勵項實驗效果不佳,因為模型會找到更簡單的方式“hack”長度獎勵,而不是通過“反思、驗算、細致計算”等高級方式來提升推理能力。
- ?? 最新進展:DAPO和VAPO等最新工作表明,RL算法的改進對效果提升有明顯幫助。例如,Overlong Filtering可以防止長度過度抑制,而Token level loss則解決了訓練中每個token對loss貢獻與樣本長度相關的不合理問題。但Data transform(將數(shù)據(jù)轉化為整數(shù)輸出)可能導致模型“hack訓練集中只有整數(shù)輸出的情況”,在非整數(shù)輸出的測試集上性能下降。
- ?? 未來方向:目前LLM的RL方法仍有較大提升空間,因為現(xiàn)有方法“還是比較粗糙的”,且模型探索“非常需要借助base模型”,限制了其突破上限。未來發(fā)展方向可能包括更準確的Value Estimation和引入更多生成式(generative)的方法,使RL的進化方向更可靠,模型能更穩(wěn)定地偏離基礎模型進行提升。
2. AI玩具與多模態(tài)交互
?? AI玩具正通過多模態(tài)交互(融合視覺、語音等多種感知和交互方式)來突破同質化競爭。這預示著未來智能硬件將更加注重用戶體驗的豐富性和互動性!
3. 邊緣AI與Synaptics SR系列MCU
? Synaptics SR系列MCU被譽為“邊緣AI新標桿”,其創(chuàng)新之處在于軟硬件協(xié)同設計和開放的軟件生態(tài)。
- ??? 硬件創(chuàng)新:“解決了傳統(tǒng)MCU在AI負載下的能效瓶頸,也為多模式處理(如視覺+語音融合)提供了標準化平臺,推動邊緣AI的規(guī)模化部署。”
- ?? 軟件生態(tài):Astra Machina Micro套件與開源SDK(支持FreeRTOS、Zephyr)提供“開箱即用”體驗,兼容現(xiàn)有物聯(lián)網(wǎng)生態(tài),大大降低開發(fā)門檻。相較于競爭對手的專有工具鏈,SR系列的開放性“