日本一区二区视频免费_中文无码日韩欧_国产成年片_久久国产综合视频_www.久久亚洲_亚洲AV无码专区色爱天堂老鸭

昆侖萬維「天工大模型4.0」o1版(Skywork o1)正式啟動邀請測試

今天,昆侖萬維正式推出具有復雜思考推理能力的系列模型——「天工大模型4.0」 o1版(Skywork o1)。

圖片

Skywork o1是由昆侖萬維集團發布的具有慢思考推理能力的系列模型。這是國內第一款中文邏輯推理能力的o1模型。不同于現有的復現OpenAI o1模型的工作,Skywork o1不僅在模型輸出上內生了思考、計劃、反思等能力,同時,該開源模型在標準評測集上,對比普通模型推理能力大幅上升,真正讓模型擁有了思考和反思帶來的推理能力的提升。團隊復現o1的技術路線,使得初始推理能力較差的基座模型在基準測試集上成為生態位SOTA。

此次發布的Skywork o1包括三款模型,既有回饋開源社區的開放版本,也有能力更強的專用版本:

  • Skywork o1 Open:一款基于Llama 3.1 8B的開源模型,該模型在同生態位開源模型中評測指標大幅提升達到SOTA水平,并解鎖了許多輕量級模型無法解決的復雜數學任務。該模型的發布也將幫助加速國內開源社區復現o1的進程。

  • Skywork o1 Lite:該模型具備完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在數學、中文邏輯和推理類問題上表現突出。

  • Skywork o1 Preview:這款模型是本次完整版的推理模型,搭配自研的線上推理算法,對比Skywork o1 Lite有著更多樣和“深度”的思考過程,更完善和更高質量的推理。

2.png

其中,我們開源的Skywork o1 Open,在各項數學和代碼指標上均有大幅提高,將Llama-3.1-8B的性能拉到同生態位SOTA(超越Qwen-2.5-7B instruct)。同時,8B的Skywork o1 Open也解鎖了很多較大量級模型,如GPT 4o,無法完成的數學推理任務(如24點計算)。這也為推理模型在輕量級設備上部署提供了可能性。

圖片

圖片

同時,我們也將開源兩個推理任務的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前開源的Skywork-Reward-Model僅對整個模型回答進行打分,Skywork o1 Open-PRM能給模型回答中的每個步驟進行打分。

對比開源社區現有的PRM,Skywork o1 Open-PRM-1.5B能達到開源社區8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同時在大部分benchamrk上接近/超過10倍量級的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款適配代碼類任務的開源PRM。下面表格為以Skywork-o1-Open-8B作為基礎模型,使用不同PRM在數學和代碼評測集上的評估結果。

圖片

圖片

除Skywork-o1-Open-PRM外,其他開源PRM均未針對代碼類任務進行專門優化,故不進行代碼任務的相關對比。

詳細技術報告也將在不久后發布。目前模型和相關介紹在Huggingface開源。

開源地址:https://tinyurl.com/skywork-o1

01.強推理以及自我反思的能力是如何練成的?

Skywork o1在邏輯推理任務上性能的大幅提升得益于天工三階段自研的訓練方案:

  • 推理反思能力訓練:通過自研的多智能體體系構造高質量的分步思考,反思和驗證數據。通過高質量的、多樣性的長思考數據對基座模型進行繼續預訓練和監督微調。

  • 推理能力強化學習:團隊研發了最新的適配分步推理強化的Skywork o1 Process Reward Model(PRM)。實驗證明Skywork-PRM可有效的捕捉到復雜推理任務中間步驟和思考步驟對最終答案的影響。結合自研分步推理強化算法進一步加強模型推理和思考能力。

  • 推理planning:基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實現和公開。Q*算法落地也大大提升了模型線上推理能力。

關于天工 Q*算法,更多詳情可見:https://arxiv.org/abs/2406.14283

02.亮點功能與實測

Skywork o1模型具有以下能力和亮點功能:

  • 模型思考和規劃能力

  • 模型自我反思能力

  • 模型自我驗證能力

相較于此前(長文本任務)大模型,無論是常識推理問題、邏輯推理問題、數學推理問題、倫理決策問題、還是“弱智”(類似腦筋急轉彎)邏輯陷阱問題等,Skywork o1都處理的游刃有余。整體來說,Skywork o1 Lite和Skywork o1 Preview線上版本在復雜問題分析、思考反思過程、輸出答案質量上均有大幅提升。

首先,我們拿一道「2024年全國碩士研究生入學統一考試數學(一)試題」考考它(如下圖所示),測試一下它的“智力水平”。

圖片

面對難度不小的最新考研數學題,Skywork o1 Preview盡管花費了一些時間,但還是一步步推理出了正確結果。

圖片

那么,之前大模型經常翻車的比大小問題,Skywork o1現在的回答水平如何了?

圖片

從它的思考過程可以看出,Skywork o1的模型思考和規劃能力大幅提升。這個解題邏輯非常像人類的思考方法了,“如果整數部分相同,那么就要開始比較小數部分了”。通過嚴謹的推理過程,準確得出8.8大于8.11,且多給出了一步差值計算。

此外,模型自我反思能力和自我驗證能力也都有長足進步。Skywork o1可以準確識別出“nǐ hǎo hěn gāo xìng rèn shí nǐ”,還可以給出后續對話建議。

圖片

圖片

盡管我們讓它回答存在中文讀音“陷阱”的問題——“請將qíng rén yǎn lǐ chū xī shī轉換為中文”,它也沒有被我們繞進去。充分展示了中文邏輯問題思考中的反思能力,它主動發現了“西詩”是不對的說法,而是“西施”。

同樣的,對于之前的大模型來說,“算24點”的游戲很容易把模型搞崩潰了,但是對于Skywork o1來說,可謂是小菜一碟。它不僅給出了正確答案,重點是它在過程中進行了「自我驗證」。它在計算過后,又檢查了一遍,確認過程和答案全部符合命題要求,才給出最終答案。

圖片

除了上述給出的數學推理、比大小、中文邏輯以及24點計算的任務外,Skywork o1在其他復雜的場景也有較好表現:

競賽數學:Skywork o1拿到2024 AIME第一題(如下圖所示),也從容應對。計算邏輯清晰、公式展示流暢,計算時長也明顯具有優勢。

圖片

圖片

密碼解密:在復雜密碼解密任務中,Skywork o1擁有強大的自我探索和推理能力。

圖片

在已知「原文→密文」的前提下,經過一系列復雜推理后成功給出答案(如下圖所示)。

圖片

如果反過來呢?已知一段「密文→原文」,能否找出新密文所對應的原文。Skywork o1表示小菜一碟。

圖片

智力問答:在復雜的中文推理問題上,Skywork o1表現優異,并給出了完整的思考鏈路。

圖片

圖片

最后,再讓我們再給他出一些有趣的“弱智”問題,來看看它的回答是不是合理。

  • 為什么我爸媽結婚的時候沒邀請我參加婚禮?

  • 被門夾過的核桃,還能補腦嗎?

  • 午餐肉,我可以晚上吃嗎?

圖片

圖片

圖片

令人驚喜的是,Skywork o1不但沒有被問題繞進去,還分析的頭頭是道,甚至透露出“大智慧”,引申出了一些更底層的思考。

進階版的復雜人類思考能力的解鎖也將進一步在垂類領域增強大模型的應用,例如:

  • 中英文常見邏輯推理和復雜任務,如數學/代碼類任務,科學研究

  • 高質量內容生成,如創意寫作,行業報告寫作

  • 深度搜索,解鎖復雜搜索任務的拆解

2024年以來,昆侖萬維天工AI持續進化,陸續發布了「天工2.0」、「天工3.0」、「天工大模型4.0」4o版——Skywork 4o,以及今天正式發布的「天工大模型4.0」 o1版(Skywork o1),不僅是我們貫徹“All in AGI 與 AIGC” 戰略的重要舉措,更是我們構建AI技術棧的重要一步。我們將秉持“實現通用人工智能,讓每個人更好地塑造和表達自我”的使命,從模型層、應用層等全方位、多維度來構建公司技術競爭力和生態矩陣。

測試地址

「天工大模型4.0」 o1版(Skywork o1)開啟測試

嘗鮮地址:www.tiangong.cn

點擊下方閱讀原文,可直接進入網址


主站蜘蛛池模板: 密室大逃脱第三季免费观看高清_久久国产亚洲中文字幕_欧美成人gv在线观看_国产一级淫片91aaa激情_一区国产传媒国产精品_日本一区二区三区在线免费_亚洲欧美国产日韩中文字幕_亚洲成av片人久久久 | 一区二区三区精品久久久_国产欧美日韩成人_亚洲免费一级_欧美视频一区二区三区_91桃色在线免费观看_在线看一级片_午夜av亚洲国产素人资源网_免费午夜无码视频在线观看 | 国产成人无码精品久久久性色_国产精品呻吟久久av图片_男人激烈吮乳吃奶视频免费_www.伊人.com_亚洲日韩中文无码久久_欧美人与动性行为视频_黄色在线视屏_国产色综合一区 | tube性老少配bbwcom_无码被窝影院午夜看片爽爽_31xx视频在线影院_亚洲色图清纯制服_老师穿旗袍白丝让我爽翻天AV_久久精品久久久久久噜噜_国产极品视觉盛宴_粉嫩小泬无遮挡久久久久久 | 欧亚精品一区三区免费_欧美一区二区三区久久精品_99精品在线免费观看_小龙女玉足娇喘蕾丝湿润_福利视频你懂的_国产精品国产三级国产不产一地_日本高清视频不卡_色狠狠久久AV五月丁香 | 国产精品久久久久久久福利院_超碰成人在线观看_亚洲最大一级无码av网站_超碰96在线_欧美成人影院在线观看网站_国产怡红院_日本黄网站色大片免费观看_成全视频在线观看免费看 | 一级肉体全黄裸体先_狼人香蕉香蕉在线中文_黄色录像一级视频_xxxxx网_免费黄篇_色网在线看_欧美在线国产_国产高潮抽搐喷出白浆精品视频 | 久久国产热播_天天艹天天干天天_caoporn视频在线_亚洲一级特黄_一二三级毛片_日韩在线亚洲_欧美日韩国产精品一区_免费观看性欧美大片无片 | 亚洲中文无码成人片在线观看_在线第一页_啊片网站在线观看_香蕉久久影院精品欧美日韩_国产精品中文字幕在线播放_日韩免费在线视频_国产资源久久_成人a片产无码免费视频在线观看 | 国产精品久久久久久麻豆一区_四虎激情网_又大又粗欧美黑人A片_国产精品乱码高清在线看_中文精品在线_久久久裸体_美女视频黄的免费视频网页_国产国产人免费视频成 | 99re6热在线精品视频播放_免费看片日本_日本精品αv中文字幕_黄色欧美视频_中文字字幕在线一本通_美国一级黄色录像_中国老妇xxxx性开放_狠狠操很很干 | 欧洲精品在线一区_久久久久99精品成人片_久久久噜噜噜久噜久久_天天看天天操_男女作爱全部免费观爱_国产一区二区三区免费看_女的被弄到高潮娇喘喷水视频_国产中文字幕三区 | 精品一区二区在线视频_91香蕉国产在线观看免费永久_国产成人Av乱码免费观看_国产66页_男人女人做爽爽18禁网站_日干夜操_中国hd高清xxxxvideo_japan15—16hd | 国产a∨国片精品jk制服_亚洲大片免费_欧美视频在线观看不卡_大陆av在线_91一区二区国产_136fldh福利免费视频观看_伊人91在线_又黄又爽又色又刺激的视频 | 国产av福利第一精品导航_国产综合亚洲区在线观看_一区二区三区内射美女毛片_成人av片在线观看免费_美女桃色网站_一级毛片a女人刺激视频免费_日本一级淫片日本高清小说_国产男女视频网站 | 明星angelababy造梦视频_欧美影音_91婷婷综合一区二区三区久久_亚洲AV日韩AV高潮潮喷无码_俄罗斯VIDEODESXO极品_影视一区_国产免费又色又爽又黄软件_狠狠躁天天躁无码中文字幕图 | 国产免费永久黄色国产_国产女人18毛片水真多_91.成人天堂一区_日本在线看片_欧美男同志网站_国产69精品久久久久9999_成人啪精品视频网站午夜_北条麻妃黄网 | 强行扒开双腿疯狂猛躁3p视频_久久成年网站_一区二区三区中文字幕_免费A片国产毛无码A片牛牛_巨胸喷奶水视频WWW免费网站_99热碰_麻豆视频网_一级黄色毛片免费观看 | 超碰97人人人人人蜜桃_日韩不卡在线观看_国产又粗又猛又黄又爽的视频_男人亚洲天堂网_日本少妇xlxxx_午夜AV免费播放不卡三区_少妇做受xxxxⅹ高潮片_无码人妻精品一区二区三区欧美 | 亚洲91视频_国产一区二区三区视频网站_2018天天弄国产大片_韩国一级片在线_porno日本xxxxx_日韩欧美一区二区三区久久婷婷_精品国产乱码久久久久久天美_一级黄色影片在线观看 | 国产欧美亚洲一级激情在线观看_亚洲情视频_国产性猛交_国产又色又刺激高潮免费视频_在线亚洲天堂_久久精品人人做人人爽97_国产精品爽爽爽爽爽爽免费观看_中文字幕在线视频免费 | 国产精品成人影院_久久精品国产99久久香蕉_久久久黄色_欧美福利精品_日韩中文字幕在线免费观看_久久夜夜躁躁精品_一级毛片不卡顿_国产欧美久久久久爽精品 | 狠狠色噜噜狠狠狠狠奇米777_嫩草影院啪啪_综合激情亚洲_首页国产精品_国产成人在线播放_欧美激情无码成人A片_成人免费av在线_欧美一区第一页 | 97视频在线精品国自产拍_91精品国产一区二区三区动漫_国产高清色高清在线观看_国产精品久久久久久久久污网站_久久狠狠干_日本高清H色视频在线观看_一级片视频在线播放_国产SUV精品一区二区四 | 日本精品一区二区三区高清_欧美成人中文字幕_日日摸夜夜骑_少妇一级淫片免费_国产男女无遮挡猛进猛出_国产综合av_国产成人精品自拍_成人性色生活片免费看爆迷你毛片 | 国产村民一二三区_国产香蕉尹人综合在线观看_久久久久久久久久一区_久久婷婷人人澡人人喊人人爽_天天干天天透_日韩免费特黄一二三区_欧美国产日韩在线视频_国产欧美日韩另类在线专区 | 欧美另类性视频_青苹果乐园在线观看免费完整_成人免费网站观看_欧美天堂一区_亚洲品牌自拍一品区9_新av在线天堂网_国内91在线_wwwwxxxx欧美 | 色妹子一区二区_成人在线观看网站_国产自偷在线拍精品热乐播AV_爆操极品尤物_欧美精品久久久久a片一二三区_九色视频91_jizzjizz日本护士_国产综合久久久久久鬼色 | 日本永久视频_德国肥妇性猛交视频_97久久精品人人爽人人爽蜜臀_久草网站在线_粉嫩98久久综合国产精品一区_樱桃视频大全版在线观看_久久久免费人体_国产精品综合在线 | 日本xxxx小便xxxx偷拍_软萌小仙自慰喷白浆_免费在线观看黄片毛片a_青草一区_久久久久久久久久久一区二区_欧美日本午夜一区二区_国产黄a三级三级三级av在线看_www夜夜操com | 婬荡少妇21P_亚洲av永久无码精品蜜芽_亚洲欧洲精品在线_亚洲福利在线观看_国产肛交视频_欧美国产免费_免费视频久久久久久久_久久久福利视频 | 亚洲丰满熟女一区二区蜜桃_国产馆一区二区_免费观看992tv_亚洲国产视频一区二区三区_日本中文字幕在线一区_又爽又黄又无遮挡的激情视频_jk制服国产在线视频_岛国成人免费 | 国产黑丝一区二区_精品久久看_日韩欧美在线观看一区二区_亚洲精品在线免费_北条麻纪在线观看aⅴ_日韩成人免费av_999国产精品视频免费_国产网址在线观看 | av黄色免费看_aⅴ中文字幕不卡在线无码_我不卡一区二区_欧美日韩一区二区三区高清_最近免费中文字幕中文高清6_日本色老头_99久久国语露脸精品对白_最美女人体内射精一区二区 | 亚洲最大激情网_超碰97.com_国产在线视频综合_久久综合久久综合久久综合_被黑人猛躁10次高潮视频☆_永久免费AV在线影院_国产精品久久久久AV福利动漫_天天躁日日躁狠狠躁AV麻豆 | 日产精品久久_免费看成人_海贼王hentaikey_爱爱综合_日韩精品视频在线看_亚洲成精品_一级黄av_麻豆传媒视频观看 | 男女aa视频_97人人草人人_成人日韩在线_亚洲AV秘无码一区二区三区一_爱啪啪av网_亚洲一区美女_久久精品国产99国产毛片_久久久精品人妻无码专区不卡 | 在线看片无码永久免费视频_第一区第二区在线_韩国理伦三级做爰在线播放_日本三级香港三级人妇久久_蝌蚪久久窝_国厂毛片_亚洲一级黄色片子_久久精品丝袜高跟鞋 | 4455四色成人网_97影院在线午夜_中国性猛交xxxx乱大交3_99精品久久久久久中文字幕_亚洲精品久久国产高清情趣图文_天天做天天添AV国产亚洲_国产91精品不卡视频_欧美精品一区二区三区免费视频 | 国内精品九九久久久精品_九九热视频这里有精品_97色资源_浮生影院大全免费观看中文版_a片疯狂做爰全过的视频_国产大胸A在线观看_免费一区视频_中文字幕av久久激情亚洲精品 | 麻豆激情视频在线_久久人人爽人人爽人人片亞洲_亚洲一级国产_一区二区高清在线观看_国产精品永久免费自在线观看_亚洲国产精品一区二区www_日韩免费无码人妻波多野_欧美性猛交xxxx乱大交3喷潮 |