tubesex18 video,国产亚洲婷婷香蕉久久精品 ,九九99久久精品综合,国产精品99久久不卡,久久精品免视看国产成人

DeepSeek:邁向全社會分享的普遍智能

5個月前 來源:文匯報 觀看:55

 UTZ即熱新聞——關注每天科技社會生活新變化gihot.com

  ?UTZ即熱新聞——關注每天科技社會生活新變化gihot.com

去年春節(jié),美國OpenAI開發(fā)的視頻生成AI工具Sora橫空出世,成為世界關注的焦點。今年春節(jié)前夕,一家低調(diào)的中國AI企業(yè)DeepSeek推出的開源大模型在全球引發(fā)了不啻Sora的震撼——它在模型算法和工程優(yōu)化方面所進行的系統(tǒng)級創(chuàng)新,為在受限資源下探索通用人工智能開辟了新的道路,并為打破以“大模型、大數(shù)據(jù)和大算力”為核心的生成式AI“擴展定律”天花板帶來了無限遐想。

過去幾周,DeepSeek超越ChatGPT,登頂蘋果美國地區(qū)應用商店免費App下載排行榜。1月28日,美國“外交學者”網(wǎng)站(The Diplomat)發(fā)表題為《中國的DeepSeek是美國人工智能的“斯普特尼克時刻”》的文章指出,DeepSeek此次的開源之舉延續(xù)了OpenAI的初心使命——為了人類利益推動人工智能發(fā)展。

DeepSeek的出圈,再次印證了一個科技創(chuàng)新硬道理:贏得比賽的關鍵是精益求精、富有創(chuàng)造力的創(chuàng)新,而非單純的金融實力和一味的出口管制。

“大力出奇跡”并非AI唯一出路

2019年,人工智能領域強化學習鼻祖、DeepMind研究科學家、加拿大阿爾伯塔大學計算機學教授理查德·薩頓發(fā)表了一篇題為《苦澀的教訓》的文章,認為“縱觀過去70年的AI發(fā)展歷史,想辦法利用更大規(guī)模的算力總是最高效的手段”。

在“數(shù)據(jù)是燃料、模型是引擎、算力是加速器”這一深度學習理念支持下,以Transformer為基本模型的生成式AI(如ChatGPT等)不再從互聯(lián)網(wǎng)中搜索和羅列已有的匹配信息,而是從海量數(shù)據(jù)中洞悉單詞與單詞之間的共現(xiàn)概率,以組合意義下“昨日重現(xiàn)”方式合成眾所周知的語言內(nèi)容。

Transformer是2017年谷歌公司提出的一種新型深度神經(jīng)網(wǎng)絡,其核心在于通過自注意力機制讓每個單詞記住在不同語境下的“左鄰右舍”,然后以似曾相識之感來概率合成新的內(nèi)容?!癟ransformer”這一名字或許受到了電影《變形金剛》的英文名“Transformers”的啟發(fā),因此可以將合成內(nèi)容的生成式AI看成一個“魔鏡”,它能夠根據(jù)輸入內(nèi)容如變魔術般輸出與之對應的內(nèi)容。

由于每個單詞要記住越來越多不同語境下的“左鄰右舍”,因此模型參數(shù)不斷增多而導致模型規(guī)模不斷增大,隨之出現(xiàn)了大模型的“擴展定律”(Scaling Law),即隨著模型規(guī)模、訓練數(shù)據(jù)和計算資源的增加,模型性能會得到顯著提升,并且這些關系遵循可預測的模式。

面對越來越大的模型,訓練模型所需的AI算力不斷飆升,“大力出奇跡”這一算力霸權開始左右人工智能的發(fā)展。英偉達創(chuàng)始人兼首席執(zhí)行官黃仁勛據(jù)此提出過“黃氏定律”:在計算架構改進的推動下,人工智能芯片的性能每年可提升1倍,速度遠超集成電路領域的摩爾定律。

人工智能“擴展定律”雖然也需要算法和系統(tǒng)創(chuàng)新,但是這一“無他、但手熟爾”的模式不應是AI發(fā)展的唯一出路,因為“化繁為簡、大巧不工”才是推動“機器學習”邁向“學習機器”的初衷。

“萬物之始,大道至簡,衍化至繁”,以簡單直接思路解決復雜問題才是科學研究之道。1953年,諾貝爾物理學獎得主恩利克·費米提 到,馮·諾依曼曾對他說 過,用4個參數(shù)就能畫出一頭大象,用5個參數(shù)就可以讓象鼻子動起來。英國數(shù)學家雅各布·布魯諾斯基也曾提到,馮·諾依曼認為圍棋不是博弈,雖然因為計算復雜而難以找到答案,但在理論上,下圍棋一定有個最佳落子方案。

這些故事告訴我們,用簡單方法解決復雜問題是科學研究基本思路之一。正如愛因斯坦所言,“所有科學中最重大的目標就是從最少數(shù)量的假設和公理出發(fā),用邏輯演繹推理的方法解釋最大量的經(jīng)驗事實”。由此可見,DeepSeek的研發(fā)初心切合了大模型發(fā)展的內(nèi)在邏輯,為遏制其規(guī)?!隘傞L”勢頭提供了一劑良藥。

從“學而不思則罔”到“思而不學則殆”

能用眾力,則無敵于天下矣;能用眾智,則無畏于圣人矣。DeepSeek的精彩表現(xiàn)在于其對算法、模型和系統(tǒng)等進行的系統(tǒng)級協(xié)同創(chuàng)新,是眾智和眾力相互疊加的成果。

應該說,DeepSeek模型仍是基于此前的Transformer架構,沒有實現(xiàn)改變游戲規(guī)則的顛覆性基礎理論創(chuàng)新。但是,它在模型算法和工程優(yōu)化方面進行了系統(tǒng)級創(chuàng)新,在2048塊英偉達H800 GPU(針對中國市場的低配版GPU)集群上完成訓練,打破了大語言模型以大算力為核心的預期天花板,為在受限資源下探索通用人工智能開辟了新的道路。其算法和工程創(chuàng)新主要包括混合專家模型、低秩注意力機制、強化學習推理、小模型蒸餾,以及諸如FP8混合精度和GPU部署優(yōu)化等工程創(chuàng)新。

其中,混合專家稀疏模型與傳統(tǒng)大語言模型“眾人拾柴、咸與維新”的路徑不同,它另辟蹊徑利用了“術業(yè)有專攻”的理念,每次讓若干個合適專家協(xié)作發(fā)揮各自能力,完成特定任務。

實際上,人腦也是一個稀疏模型。雖然人腦由800多億個神經(jīng)元和100萬億個突觸連接而成,但它在完成識人辨物和舉手投足等任務時,每次只有一小部分神經(jīng)元被激活。實現(xiàn)“弱水三千,只取一瓢飲”,且讓被選擇的若干專家能夠以“十個指頭彈鋼琴”的形式,負載均衡地合作完成任務,而不是“三個和尚無水喝”——這正是DeepSeek所做出的難得的算法創(chuàng)新。

低秩注意力機制的引入使DeepSeek在保持模型性能的同時顯著降低了計算和存儲成本。人類在理解外界信息時,往往看到的是內(nèi)嵌在信息中的本質(zhì)結(jié)構。例如,我們理解一篇文章,更關切若干單詞組合所刻畫的主題概念,而非單詞從頭到尾的羅列。傳統(tǒng)大模型中的注意力機制由于需要記錄每個單詞在不同上下文中的左鄰右舍,因此變得龐大無比。DeepSeek對這一巨大的注意力機制矩陣進行了壓縮,從而極大提升了模型運行效率。

在強化學習推理方面,傳統(tǒng)大模型訓練時采用了“授之以魚,不如授之以漁”的方法,即人類給出大量思維鏈數(shù)據(jù),通過監(jiān)督式微調(diào)來讓大語言模型仿照思維鏈完成相應任務。但DeepSeek的做法則如同讓一個天才兒童在沒有任何范例的指導下,完全通過“嘗試與試錯”來不斷探索未知空間,并利用已有經(jīng)驗不斷取得進步,最終完成從“摸著石頭過河”到“先知后行”的蝶變。

而且,DeepSeek進一步提出了讓模型從若干答案中進行比較的選擇方法,以實現(xiàn)自我提升。

這種直接訓練方法不僅耗時更短、計算資源需求大幅減少,更讓模型學會了思考,而且是以見證“啊哈時刻(Aha Moment)”(指讓用戶眼前一亮時刻)的頓悟方式思考。

但值得注意的是,該方法難免導致推理過程難以被溯源和理解等局限。為此,DeepSeek收集了一部分思維鏈數(shù)據(jù),引入冷啟動和有監(jiān)督微調(diào)等方法,對模型進行再次訓練,從而讓模型在保持強大推理能力的同時,還學會了用人類易懂的方式表達思維過程。

廣受關注的“模型蒸餾”就是讓小模型模仿大模型回答問題的結(jié)果,來提升自身能力。比如,在對一篇文章分類時,大模型認為該文章以85%、10%和5%的概率分別屬于正面、負面和中性等不同情感類別。小模型就從大模型輸出的結(jié)果中認真思考,不斷調(diào)整參數(shù),以期望繼承大模型能力,從而輸出類似結(jié)果。

由于神經(jīng)網(wǎng)絡有強大的非線性映射能力,蒸餾學習不僅沒有導致“東施效顰”的笑話,反而使得大模型的能力之道以“他山之石、可以攻玉”的蒸餾之術遷移到了小模型。這不禁讓人感嘆,對于大模型而言,“學而不思則罔”;對于小模型而言,“思而不學則殆”。

智能時代,教育何為?

人工智能是一種類似于內(nèi)燃機或電力的“通用目的技術”,天然具備“至小有內(nèi),至大無外”推動學科交叉的潛力。無論是從人工智能角度解決科學問題(AI for Science,如利用人工智能預測蛋白質(zhì)序列的三維空間結(jié)構),還是從科學的角度優(yōu)化人工智能(Science for AI,如從統(tǒng)計物理規(guī)律角度優(yōu)化神經(jīng)網(wǎng)絡模型),未來的重大突破都將源自于這種交叉領域的工作。

如果說過往的技術發(fā)明是從機械化增強角度提升人類與環(huán)境的互動能力,那么人工智能的出現(xiàn)將對人類的這一根本能力和角色發(fā)起挑戰(zhàn)——生成式人工智能的出現(xiàn)使得智能機器成為知識生產(chǎn)的輔助者,這將深刻改變個體學習者的自主思考、判斷、學習能力,乃至倫理道德觀。

如何看待一項新技術的發(fā)展,這是進行技術預測的一項必需認知準備。遺憾的是,人類總是習慣于線性思維(這符合人類自然的認知模式:節(jié)省能量與快速計算),但這種認知配置很容易出現(xiàn)認知偏差,其中最常見的就是對于技術近期與遠期影響的判斷出現(xiàn)不對稱性——短期內(nèi)傾向于高估技術的影響,長期內(nèi)低估技術的影響,即美國科學家羅伊·阿瑪拉提出的“阿瑪拉法則”。

那么,隨著智能時代的來臨,如何通過教育體系的變革來應對這一時代之變?在浙江大學2024年6月發(fā)布的《大學生人工智能素養(yǎng)紅皮書》中,我們提出,大學生人工智能素養(yǎng)是由體系化知識、構建式能力、創(chuàng)造性價值和人本型倫理構成的有機整體,其中知識為基、能力為重、價值為先、倫理為本。

目前,浙江大學和復旦大學等高校已將人工智能作為全校大學生通識必修課程。而且,浙江大學、復旦大學、上海交大、南京大學、中科大和同濟大學已在四年前共同推出“課程共建、學分互認、證書共簽”的AI+X微專業(yè),今年還將推出升級版,以進一步加強人工智能通識教育和交叉學科教育。

2024年春節(jié),我為文匯報撰寫《Sora“超級涌現(xiàn)力”將把AI引向何方》的文章,今年春節(jié)又為DeepSeek撰稿。雖然希望人工智能年年有精彩,但我更期盼全社會分享的普遍智能到來。

DeepSeek模型特點速讀

混合專家稀疏模型

DeepSeek的基座模型V3采用了混合專家機制,每一個Transformer層包含256個專家和1個共享專家,V3基座模型總共有6710億參數(shù),但每次token僅激活8個專家、370億參數(shù)。這一創(chuàng)新算法與稠密模型相比,預訓練速度更快;與具有相同參數(shù)數(shù)量的模型相比,具有更快的推理速度。

低秩注意力機制

低秩注意力機制又被稱為多頭潛在注意力機制。DeepSeek引入“低秩”這一概念,對巨大的注意力機制矩陣進行壓縮,減少參與運算的參數(shù)數(shù)量,從而在保持模型性能的同時顯著降低計算和存儲成本,把顯存占用降到了其他大模型的5%—13%,極大提升了模型運行效率。

強化學習推理

DeepSeek這次在訓練推理模型中直接采用了一條前所未有的“純”強化學習路徑,僅根據(jù)模型輸出答案優(yōu)劣以及輸出答案格式完整等簡單信息,對模型行為進行獎懲。

該方法不僅對計算資源的需求大幅減少,還可讓模型以“頓悟”的方式學會思考,并用人類易懂的方式表達思維過程。

模型蒸餾

為了讓簡潔緊湊的小模型具備DeepSeek-R1那樣的推理能力,DeepSeek開發(fā)團隊采用蒸餾方法來增強小模型的推理能力,即讓小模型模仿大模型回答問題的結(jié)果,來提升自身能力。

工程創(chuàng)新

DeepSeek使用FP8混合精度加速訓練并減少GPU內(nèi)存使用,使用DualPipe算法(即將前向和后向計算與通信階段重疊,以最大限度減少計算資源閑置)提升訓練效率,并進行了極致的內(nèi)存優(yōu)化。他們開發(fā)了一套完善的數(shù)據(jù)處理流程,著重于最小化數(shù)據(jù)冗余,同時保留數(shù)據(jù)的多樣性。UTZ即熱新聞——關注每天科技社會生活新變化gihot.com

本文鏈接:http://jphkf.cn/news-8-1199-0.htmlDeepSeek:邁向全社會分享的普遍智能

聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。

上一篇:山東化工技師學院舉辦第47屆世賽化學實驗室技術項目技能競賽技術交流及工作總結(jié)會議

下一篇:港中大成立致真交叉數(shù)學科學院,丘成桐任創(chuàng)院院長

為你推薦
在山東省高密市一籃球訓練營,孩子們在進行籃球基本功訓練。通訊員 李海濤 攝在山東省高密市一籃球訓練營,孩子們在進行籃球基本功訓練。通訊員 李海濤 攝  寒假來臨,山東省...
01-21
作者:南開大學 相羽 王寅 王嬡 周文鈺 崔麗月 鄭錫然2019年,習近平總書記在南開大學考察時指出“愛國...
01-22
  A股上市銀行2024年業(yè)績快報陸續(xù)出爐。截至2月9日,已有13家上市銀行披露2024年度業(yè)績快報,其中...
02-11
  保險公司拿到了黃金市場的“入場券”。  2月7日,金融監(jiān)管總局發(fā)布《關于開展保險資金投資...
02-13
水瓶座的男生是一個非常獨立和自由的人,他們對于愛情有著獨特的看法和追求。他們喜歡與...
01-22
金牛座的男生一向以穩(wěn)重、務實而著稱。他們對待感情也是如此,不喜歡花言巧語,更愿意用行...
01-22
個子瘦小男生穿搭褲子推薦?一、個子瘦小男生穿搭褲子推薦?身高低的男生可以選擇以下類型的褲子,可以讓身材看起來更加高挑:1. 窄腳休閑褲:這種褲子腰部設計更高,拉長腿部線條,同時...
02-12
健身男胖子穿搭? 160斤男胖子穿搭夏季?一、健身男胖子穿搭?最帥的搭配是上身一件工字背心,下身一件緊身褲,一雙白色運動鞋,完美二、160斤男胖子穿搭夏季?160斤胖子夏季應穿寬松的衣...
02-12
2月5日消息,盒馬發(fā)布《2025盒區(qū)房春節(jié)消費報告》(以下簡稱“報告”)?!秷蟾妗凤@示,盒馬年菜銷售同比增長了42%,下單購買年菜的18-35歲的年輕消費者占比達56%,不同于老一輩,這屆年...
02-07
1月22日消息,全國農(nóng)產(chǎn)品流通企業(yè)助農(nóng)聯(lián)合體第三次工作會議近日召開,一畝田榮獲“2024優(yōu)秀助農(nóng)獎”。中國蔬菜流通協(xié)會會長戴中九介紹,助農(nóng)聯(lián)合體的企業(yè)都是國內(nèi)農(nóng)產(chǎn)品流通各個...
02-07
春節(jié),是闔家團圓的時刻,也是餐飲消費的旺季。今年春節(jié)期間,不少飯店悄然推出了“加收服務費”的舉措,這一變化短時間內(nèi)引發(fā)了消費者的...
02-07
進入2025年,大部分打工人的精神狀態(tài)都是:人坐在工位上,鼻子卻聞到了家中年夜飯的香。在年味不斷被稀釋,大部分春節(jié)習俗已絕跡的今天,對...
02-07
【#交銀投資等在陜西成立航空航天股權基金# 出資額10億】天眼查App顯示,近日,陜西財金交匯航空航天新動能股權投資產(chǎn)業(yè)基金合伙企業(yè)(有限合伙)成立,執(zhí)行事務合伙人為陜西空天宏遠...
01-21
揚州無界矩陣科技有限公司(簡稱“無界矩陣”)近期以億級估值完成超千萬元天使輪融資,本輪融資由力合金融領投。無界矩陣是一家成立于2024年的人工智...
02-07
隨著《龍騰世紀:影幛守護者》的變性制作人Corinne Busche從BioWare“跑路”,EA將關閉BioWare埃德蒙頓工作室的傳聞就甚囂塵上。 雖然EA方面暫未對關閉工作室的...
01-22
雙點工作室最新作《雙點博物館》發(fā)布了將在游戲內(nèi)到訪博物館的各式有趣訪客的介紹,其中包括教授、兒童、野人和小丑等等。 雙點博物館每天都會迎來大量訪客,他...
02-12
今明兩天(2月7日至8日),寒潮繼續(xù)影響我國,中東部氣溫將陸續(xù)迎來這輪過程的最低點,并將大面積創(chuàng)今冬以來氣溫新低。同時,全國降水范圍有所縮減,主要出現(xiàn)在東北地區(qū)、西南地區(qū)東部、...
02-07
2月9日,哈爾濱亞冬會速度滑冰男子5000米決賽,中國隊包攬金銀銅牌。吳宇奪得金牌,劉瀚彬獲得銀牌,哈那哈提·木哈買提獲得銅牌。...
02-09
2025年1月16日,華為車BU業(yè)務“繼承者”引望迎來了成立的第一周年。引望全名為深圳引望智能技術有限公司,成立于2024年1月16日,彼時為...
01-21
據(jù)發(fā)表于1月13日《自然·通訊》雜志的一項研究,西班牙國家癌癥研究中心領銜的團隊發(fā)現(xiàn)一種由線粒體蛋白控制的脂肪消耗機制。該機制有助于科...
01-24
  年味濃濃,市場紅火,步入臘月,春節(jié)為開年經(jīng)濟鋪就深厚底蘊。蛇年國風臺歷、蛇年國潮紅襪、蛇年...
01-21
在全面振興新突破三年行動“首戰(zhàn)告捷”的基礎上,2024年,遼寧實現(xiàn)了“攻堅連勝”,地區(qū)生產(chǎn)總值(GDP)增速高于...
02-11
  隨著中美網(wǎng)友在小紅書熱絡交流  交完“貓稅”的外國朋友  開始喚起很多人學生時代的記憶了  英語試卷里  當年那些學生以“李華”口吻寫的信  如今真的收...
01-21
  (新春走基層)山東企業(yè)生產(chǎn)忙 年貨經(jīng)濟帶動消費熱潮  中新網(wǎng)濟南1月17日電 (呂妍)進入臘月,年味漸濃,家家戶戶開始置辦年貨。山東各地企業(yè)訂單不斷,紛紛開足馬力忙生產(chǎn),保...
01-21
1 月 27 日消息,今日,極氪海外第 15000 臺汽車在澳洲正式交付。極氪表示將在 2025 年持續(xù)深化國際化戰(zhàn)略,重點關注銷售和服務網(wǎng)絡的拓展與升級,計劃 2025 年在海外建設 ...
01-28
2月4日,賽力斯發(fā)布2025年1月產(chǎn)銷快報。數(shù)據(jù)顯示,賽力斯新能源汽車1月銷量達17906輛。問界M9系列1月交付12483輛,連續(xù)10個月蟬聯(lián)中國豪華市場50萬元以上豪華車銷量第一,持續(xù)引領...
02-05
近期,《樹下有片紅房子》備受關注,播出后引起了巨大的熱度。在社交平臺上,這部劇的相關資訊和劇情分析也十分豐富。為了讓大家更全面深入地了解這部劇,以下整理...
02-21
近期,電視劇《難哄》在各大短視頻平臺爆火,劇中角色桑稚的首次登場引起了廣泛關注。她在第1集跨年夜短暫出現(xiàn),給觀眾留下了深刻印象。當時,她正在經(jīng)歷高三階段,...
02-22
  新華社北京12月18日電 12月18日,《新華每日電訊》發(fā)表題為《人均預期78.6歲,如何迎接長壽“新常態(tài)”?》的報道。 &emsp...
01-21
  山東博興縣湖濱鎮(zhèn)姜韓社區(qū)衛(wèi)生室服務3000多人,改造后每月就診人數(shù)增加200多人――  “小村衛(wèi)生室”6個月快速漲粉,靠什么?  數(shù)據(jù)來源:國家衛(wèi)生健康委  “今天...
01-21
返回

點擊右上角微信好友

朋友圈

點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕

點擊右上角QQ

點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“”按鈕