tubesex18 video,国产亚洲婷婷香蕉久久精品 ,九九99久久精品综合,国产精品99久久不卡,久久精品免视看国产成人

推理模型:“慢思考”讓決策更周全

5個月前 來源:科技日報 觀看:46

2025年,“推理模型”成為人工智能行業(yè)的熱詞。從科大訊飛發(fā)布首個使用全國產(chǎn)算力訓練的深度推理大模型——訊飛星火X1,到深度求索公司上線DeepSeek-R1推理模型,都將“推理模型”推到聚光燈下。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

多數(shù)大語言模型具備一定推理能力,但推理模型具有更強大的推理、邏輯分析和決策能力。推理模型會運用各種推理技巧,如演繹推理、歸納推理、類比推理等,來模擬人類的思考方式。多位業(yè)內(nèi)人士接受科技日報記者采訪時說,在人工智能大模型不斷迭代升級的浪潮中,推理模型以創(chuàng)新的技術(shù)為行業(yè)發(fā)展注入新活力,也讓人們對人工智能未來發(fā)展有了更大想象空間。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

推理模仿人類“慢思考”2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

在復旦大學計算機科學技術(shù)學院教授、上海市數(shù)據(jù)科學重點實驗室主任肖仰華看來,過去,大模型的生成能力主要由語料決定。但專家級的推理能力并非“題海戰(zhàn)術(shù)”可以實現(xiàn),而是需要大模型具備強大的思維能力。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

心理學家認為,人類存在兩種思維模式。一種是主要用來對日常生活中的簡單問題進行判斷、決策的“快思考”;另一種則是用于對一些特定問題進行深入分析、研判的“慢思考”。“快思考”是人類基于大量日常經(jīng)驗、常識等,對簡單問題作出的快速反應,往往在人們無意識之間完成,是一種更加接近“本能”的思考方式。與之相對,“慢思考”則需要調(diào)動大腦更多資源,遵循特定思維邏輯,對問題進行抽絲剝繭式分析研究,進而作出更加理性周全的決策。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

作為人工智能的典型應用,大模型如今也有了“快”“慢”之別。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

傳統(tǒng)大語言通用模型的思維方式更像是“快思考”,其主要依靠算力對海量數(shù)據(jù)進行學習,實現(xiàn)對后續(xù)空白內(nèi)容的快速預測,回答人類提出的各類問題,本質(zhì)上是基于概率模型對可能的答案進行“猜測”。相比之下,推理大模型更有意識和邏輯,會在回答之前進行一段時間“慢思考”,依據(jù)特定思維鏈條,提供更全面解答。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

科大訊飛研究院副院長殷兵舉例說,訊飛星火X1在解答高考數(shù)學題等復雜題目時,會先將題目化繁為簡,給出解題思路和步驟,呈現(xiàn)出全面的思考、分析和推理過程,進而給出準確的題目答案。殷兵說,推理模型更接近人類的“慢思考”方式。相較于通用大模型,推理模型在數(shù)學、醫(yī)學、代碼等領(lǐng)域,會產(chǎn)生更好的效果和意想不到的應用場景。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

強化學習實現(xiàn)反思糾錯2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

人類可以對復雜問題進行深入思考、理性分析的一大原因在于,大腦能夠反思。通過對過去錯誤結(jié)果和正確經(jīng)驗的反饋學習,人類得以不斷提升對復雜問題判斷的正確率。推理模型中普遍應用的強化學習技術(shù),在一定程度上模仿了人類的反思、糾錯能力。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

強化學習是一種機器學習方法,它允許智能體在與環(huán)境的交互中通過試錯來學習最優(yōu)策略。智能體在環(huán)境中執(zhí)行相應行動,并根據(jù)行動的結(jié)果接收反饋,這些反饋信號則指導智能體調(diào)整下一步策略,循環(huán)往復,不斷接近最優(yōu)策略。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

例如,DeepSeek-R1在訓練推理模型時采用了一條此前鮮有人使用的完全依賴強化學習的訓練路徑,即僅根據(jù)模型輸出答案的優(yōu)劣等簡單信息,對模型進行獎懲。這相當于在不施加任何指引的情況下,讓一個剛出生不久的幼兒完全自主探索世界,并根據(jù)探索結(jié)果給予反饋,從而讓幼兒在反復試錯和成功中快速成長。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

殷兵介紹,訊飛星火X1可以進行自我探索和反思驗證,并基于答案正確與否的反饋信息進行強化訓練。其中,自我評價迭代的評語模型能指出大模型存在的幻覺問題,大模型在得到評語模型的評價后可實現(xiàn)自我完善提升。同時,評語模型也通過強化訓練進一步提升自身發(fā)現(xiàn)幻覺問題的能力。整個過程無需人員參與標注,而是依靠兩個模型相互博弈、共同進化。多路徑和反思迭代的強化學習技術(shù)使訊飛星火X1中能化繁為簡,把復雜問題拆解成多個步驟進行思考推理,并進行自我反思探索。例如,它在解答高考數(shù)學題目時,不僅會實時呈現(xiàn)分步驟解題過程,還能對解題過程進行實時驗算,反思糾正過程中的遺漏和問題,直至給出正確答案。而整個推理過程中形成的數(shù)據(jù)也可以被用于后續(xù)的強化學習。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

可靠算力仍是關(guān)鍵因素2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

無論是模型訓練還是推理,都需要算力平臺作為硬件基礎(chǔ)。雖然在特定領(lǐng)域,推理模型能夠在實現(xiàn)同等效果的情況下消耗更少算力,但算力平臺的可靠性、穩(wěn)定性仍然是決定推理模型發(fā)展的重要因素。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

此前,科大訊飛已聯(lián)合華為打造出首個國產(chǎn)算力萬卡平臺“飛星一號”,并基于此完成了訊飛星火大模型多個版本的迭代訓練。但推理模型的訓練是一條全新的技術(shù)路線。目前,國產(chǎn)算力在單卡、集群、生態(tài)等方面距國際領(lǐng)先水平有一定差距,全面基于國產(chǎn)算力平臺開展模型訓練,面臨著不少挑戰(zhàn)。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

“訊飛星火X1的訓練推理涉及多個模型的強交互,需要跨任務(wù)傳輸數(shù)據(jù)及權(quán)重,訓練任務(wù)類型也由在線實時響應變?yōu)殡x線高吞吐。這需要克服國產(chǎn)顯卡帶寬不足的短板。”殷兵說,在這種復雜的訓練模式下,影響效率的因素非常多,后訓練所需的算力甚至提升了一個數(shù)量級。最終,通過與華為進行聯(lián)合攻關(guān),團隊自研出訓練框架并進行效率優(yōu)化,實現(xiàn)了模型算法在國產(chǎn)算力上的成功適配,端到端效率大幅提升。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

2025年,“推理模型”成為人工智能行業(yè)的熱詞。從科大訊飛發(fā)布首個使用全國產(chǎn)算力訓練的深度推理大模型——訊飛星火X1,到深度求索公司上線DeepSeek-R1推理模型,都將“推理模型”推到聚光燈下。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

多數(shù)大語言模型具備一定推理能力,但推理模型具有更強大的推理、邏輯分析和決策能力。推理模型會運用各種推理技巧,如演繹推理、歸納推理、類比推理等,來模擬人類的思考方式。多位業(yè)內(nèi)人士接受科技日報記者采訪時說,在人工智能大模型不斷迭代升級的浪潮中,推理模型以創(chuàng)新的技術(shù)為行業(yè)發(fā)展注入新活力,也讓人們對人工智能未來發(fā)展有了更大想象空間。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

推理模仿人類“慢思考”2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

在復旦大學計算機科學技術(shù)學院教授、上海市數(shù)據(jù)科學重點實驗室主任肖仰華看來,過去,大模型的生成能力主要由語料決定。但專家級的推理能力并非“題海戰(zhàn)術(shù)”可以實現(xiàn),而是需要大模型具備強大的思維能力。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

心理學家認為,人類存在兩種思維模式。一種是主要用來對日常生活中的簡單問題進行判斷、決策的“快思考”;另一種則是用于對一些特定問題進行深入分析、研判的“慢思考”。“快思考”是人類基于大量日常經(jīng)驗、常識等,對簡單問題作出的快速反應,往往在人們無意識之間完成,是一種更加接近“本能”的思考方式。與之相對,“慢思考”則需要調(diào)動大腦更多資源,遵循特定思維邏輯,對問題進行抽絲剝繭式分析研究,進而作出更加理性周全的決策。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

作為人工智能的典型應用,大模型如今也有了“快”“慢”之別。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

傳統(tǒng)大語言通用模型的思維方式更像是“快思考”,其主要依靠算力對海量數(shù)據(jù)進行學習,實現(xiàn)對后續(xù)空白內(nèi)容的快速預測,回答人類提出的各類問題,本質(zhì)上是基于概率模型對可能的答案進行“猜測”。相比之下,推理大模型更有意識和邏輯,會在回答之前進行一段時間“慢思考”,依據(jù)特定思維鏈條,提供更全面解答。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

科大訊飛研究院副院長殷兵舉例說,訊飛星火X1在解答高考數(shù)學題等復雜題目時,會先將題目化繁為簡,給出解題思路和步驟,呈現(xiàn)出全面的思考、分析和推理過程,進而給出準確的題目答案。殷兵說,推理模型更接近人類的“慢思考”方式。相較于通用大模型,推理模型在數(shù)學、醫(yī)學、代碼等領(lǐng)域,會產(chǎn)生更好的效果和意想不到的應用場景。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

強化學習實現(xiàn)反思糾錯2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

人類可以對復雜問題進行深入思考、理性分析的一大原因在于,大腦能夠反思。通過對過去錯誤結(jié)果和正確經(jīng)驗的反饋學習,人類得以不斷提升對復雜問題判斷的正確率。推理模型中普遍應用的強化學習技術(shù),在一定程度上模仿了人類的反思、糾錯能力。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

強化學習是一種機器學習方法,它允許智能體在與環(huán)境的交互中通過試錯來學習最優(yōu)策略。智能體在環(huán)境中執(zhí)行相應行動,并根據(jù)行動的結(jié)果接收反饋,這些反饋信號則指導智能體調(diào)整下一步策略,循環(huán)往復,不斷接近最優(yōu)策略。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

例如,DeepSeek-R1在訓練推理模型時采用了一條此前鮮有人使用的完全依賴強化學習的訓練路徑,即僅根據(jù)模型輸出答案的優(yōu)劣等簡單信息,對模型進行獎懲。這相當于在不施加任何指引的情況下,讓一個剛出生不久的幼兒完全自主探索世界,并根據(jù)探索結(jié)果給予反饋,從而讓幼兒在反復試錯和成功中快速成長。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

殷兵介紹,訊飛星火X1可以進行自我探索和反思驗證,并基于答案正確與否的反饋信息進行強化訓練。其中,自我評價迭代的評語模型能指出大模型存在的幻覺問題,大模型在得到評語模型的評價后可實現(xiàn)自我完善提升。同時,評語模型也通過強化訓練進一步提升自身發(fā)現(xiàn)幻覺問題的能力。整個過程無需人員參與標注,而是依靠兩個模型相互博弈、共同進化。多路徑和反思迭代的強化學習技術(shù)使訊飛星火X1中能化繁為簡,把復雜問題拆解成多個步驟進行思考推理,并進行自我反思探索。例如,它在解答高考數(shù)學題目時,不僅會實時呈現(xiàn)分步驟解題過程,還能對解題過程進行實時驗算,反思糾正過程中的遺漏和問題,直至給出正確答案。而整個推理過程中形成的數(shù)據(jù)也可以被用于后續(xù)的強化學習。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

可靠算力仍是關(guān)鍵因素2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

無論是模型訓練還是推理,都需要算力平臺作為硬件基礎(chǔ)。雖然在特定領(lǐng)域,推理模型能夠在實現(xiàn)同等效果的情況下消耗更少算力,但算力平臺的可靠性、穩(wěn)定性仍然是決定推理模型發(fā)展的重要因素。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

此前,科大訊飛已聯(lián)合華為打造出首個國產(chǎn)算力萬卡平臺“飛星一號”,并基于此完成了訊飛星火大模型多個版本的迭代訓練。但推理模型的訓練是一條全新的技術(shù)路線。目前,國產(chǎn)算力在單卡、集群、生態(tài)等方面距國際領(lǐng)先水平有一定差距,全面基于國產(chǎn)算力平臺開展模型訓練,面臨著不少挑戰(zhàn)。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

“訊飛星火X1的訓練推理涉及多個模型的強交互,需要跨任務(wù)傳輸數(shù)據(jù)及權(quán)重,訓練任務(wù)類型也由在線實時響應變?yōu)殡x線高吞吐。這需要克服國產(chǎn)顯卡帶寬不足的短板。”殷兵說,在這種復雜的訓練模式下,影響效率的因素非常多,后訓練所需的算力甚至提升了一個數(shù)量級。最終,通過與華為進行聯(lián)合攻關(guān),團隊自研出訓練框架并進行效率優(yōu)化,實現(xiàn)了模型算法在國產(chǎn)算力上的成功適配,端到端效率大幅提升。2vO即熱新聞——關(guān)注每天科技社會生活新變化gihot.com

本文鏈接:http://jphkf.cn/news-2-562-0.html推理模型:“慢思考”讓決策更周全

聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。

上一篇:新疆哈密上線 “滿血版”DeepSeek-R1云服務(wù)

下一篇:新裝置解決石油產(chǎn)業(yè)抽油桿防銹難題 油田小站捧回國際大獎

為你推薦
“成功!”1月9日,伴隨著最后一個控制開關(guān)被合上,寬敞明亮的集控室內(nèi)爆發(fā)出熱烈的掌聲與歡呼聲,中國能建主體投資建設(shè)的全球首座300兆瓦(MW)壓氣儲能示范...
01-21
1月14日春運大幕拉開。春運期間,全國鐵路預計發(fā)送旅客5.1億人次。隨著鐵路客運量不斷增加,列車急速奔馳,機車制動系統(tǒng)成為確保旅客平安出行的重中之重...
01-21
  這幾天,我國大部地區(qū)迎來寒潮天氣。從26日上午開始,遼寧迎來今冬以來范圍最廣、強度最大的一場降雪。...
01-29
2月11日,遼寧省盤錦市2024年第二批流通領(lǐng)域產(chǎn)品質(zhì)量監(jiān)督抽查情況公布。2024年,盤錦市市場監(jiān)督管理局對電...
02-13
  今天(20日)各地正式實施手機、平板、智能手表(手環(huán))等數(shù)碼產(chǎn)品購新補貼政策,“國補”范圍從家電、汽車向日常消費電子領(lǐng)域擴展。個人消費者購買單件銷售價格不超過6000元...
01-21
  如何避免“每逢佳節(jié)胖三斤”  ◎本報記者 張佳星  不少人都有“每逢佳節(jié)胖三斤”的經(jīng)歷。傳統(tǒng)佳節(jié)將至,親友聚會增多,外出餐飲頻繁,如何在過好節(jié)日的同時保持健康體...
01-21
1 月 21 日消息,長期以來,特斯拉一直是電動汽車領(lǐng)域的無可爭議的霸主,其產(chǎn)量和銷量遠超競爭對手。然而,來自中國競爭對手的威脅正在逐漸顯現(xiàn),尤其是比亞迪正迅速追趕特斯...
01-22
1 月 29 日消息,大眾汽車旗下的 ID.7 車型在美國市場的命運似乎已經(jīng)畫上了句號。2023 年春季這款電動轎車在紐約亮相,當時計劃于次年在美國市場推出。然而,這一計劃最...
01-29
《難哄》穆承允人設(shè)是怎樣的?穆承允是男幾?《難哄》中穆承允的人設(shè)長相俊秀,五官偏柔,有點男生女相,但身材高挑且強壯,整體給人一種清雋明朗的感覺,像個還未長開來...
02-19
隨著電視劇的熱播,“難哄桑延和溫以凡為什么分手”也逐漸引起了廣大粉絲的關(guān)注。該劇播出后,憑借精彩的劇情、精良的制作和精心的演繹,受到了觀眾的一致好評,拿...
02-20
  “在基本醫(yī)?,F(xiàn)有的甲乙分類基礎(chǔ)上,我們正在研究制定丙類藥品目錄,這是完善我國醫(yī)療保障藥品...
01-21
21世紀經(jīng)濟報道記者 韓利明 上海報道 丙類藥品目錄的落地,已是箭在弦上。1月17日上午,在國家醫(yī)保局“保障人民健康,賦能經(jīng)濟發(fā)展”的主題...
01-21
  今天我們來到了公安局浐灞分局。警察叔叔先帶我們參觀了他們審訊的地方。警察阿姨還教給我們很多在野外保護自己的知識。最后我們還進行了射擊體驗?! ∩鋼趔w驗讓我...
01-21
  大眾網(wǎng)記者 隋宜笑 報道  12月26日,山東政法學院黨委委員、副校長胡曉清,山東政法學院傳媒學院黨總支書記徐永青,山東政法學院傳媒學院副院長常洪衛(wèi)等一行5人到訪山東...
01-21
每個人都有自己的星座,而星座之間的相互作用常常引起人們的好奇。其中,巨蟹男是一個溫柔...
01-22
雙魚男和白羊女是十二星座中的兩個相鄰星座,他們之間的配對關(guān)系備受關(guān)注。下面我們來分...
01-22
冬季男穿搭? 1、英倫紳士風  英倫風打扮的關(guān)鍵特性就是說精美、修身養(yǎng)性。在嚴寒的冬天,一套打扮得當?shù)挠愶L服裝,將你的紳士精美反映得酣暢淋漓?! 〈钆浼记桑河惣澥匡L...
02-07
泳裝模特T臺走秀事故:背后的故事與影響在時尚界,總有一些事件能讓整個行業(yè)為之側(cè)目,泳裝模特的T臺走秀事故便是如此。最近,我在一個時尚秀上親眼目睹了這樣一次令人震驚的事件,這...
02-12
1月26日消息,國聯(lián)股份CNAUTO近日攜手山港海外發(fā)展集團、日照銀行,共同推出了“海外倉”產(chǎn)融新模式,此次合作是國聯(lián)股份在跨境電商領(lǐng)域的又一次重大突破。CNAUTO是國聯(lián)股份打造...
02-07
2月18日消息,京東與晨光達成戰(zhàn)略合作,未來,雙方將圍繞供應鏈、渠道拓展、市場營銷等維度展開深度合作,攜手為用戶提供更有質(zhì)價比、更具創(chuàng)意的文具產(chǎn)品,共同推動文具行業(yè)的高質(zhì)量...
02-19
2月22日消息,快手近日攜手湖南省循環(huán)農(nóng)業(yè)產(chǎn)業(yè)發(fā)展協(xié)會及眾多涉農(nóng)行業(yè)協(xié)會,共同見證“快手湖南農(nóng)資平臺啟動暨行業(yè)聯(lián)誼座談”的圓滿落幕。此次盛會以“攜手共筑三農(nóng)服務(wù)新生態(tài),...
02-23
3月6日消息,攜程集團與山東文旅集團近日宣布達成全方位戰(zhàn)略合作,兩大旅游集團20強將圍繞“平臺賦能+產(chǎn)業(yè)創(chuàng)新”主線,通過資源整合與模式創(chuàng)新,共同構(gòu)建覆蓋“產(chǎn)品開發(fā)、營銷推廣...
03-09
近日,先進固態(tài)電池解決方案提供商恩力動力完成數(shù)億人民幣B輪融資,由清大海峽與金石投資共同領(lǐng)投,老股東大興投資旗下基金跟投。本輪資金將用于固態(tài)電...
02-07
【#中石油7.3億在吉林成立新能源公司# 含新能源汽車相關(guān)業(yè)務(wù)】天眼查App顯示,近日,中石油吉油(乾安)新能源有限公司成立,法定代表人為彭軍,注冊資本約7.3億人民幣,經(jīng)營范圍含發(fā)電業(yè)...
02-09
改編自韓國條漫《我獨自升級》的同名動畫,目前正在熱播第二季內(nèi)容,以“爽文”風格為核心的本作在播出后受到了許多觀眾的喜愛,其第二季目前已獲得了眾多好評。 ...
01-24
近期微軟在Windows 11的更新策略上一直備受爭議,尤其是在全新安裝或首次設(shè)置時,系統(tǒng)會強制聯(lián)網(wǎng)下載并安裝更新,這一過程通常需要花費較長時間。 最新的消息顯示...
02-12
昨天(1日),我國南方地區(qū)陰雨雪天氣持續(xù),河南、湖北、安徽等地局地出現(xiàn)大雪。今天(2日),南方大部地區(qū)仍被陰雨雪“控場”,濕冷感較為突出。此外,新疆、青海、甘肅以及東北地區(qū)有小雪或...
02-02
返回

點擊右上角微信好友

朋友圈

點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕

點擊右上角QQ

點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“”按鈕