日本一区二区视频免费_中文无码日韩欧_国产成年片_久久国产综合视频_www.久久亚洲_亚洲AV无码专区色爱天堂老鸭

昆侖萬維「天工大模型4.0」o1版(Skywork o1)正式啟動邀請測試

今天,昆侖萬維正式推出具有復雜思考推理能力的系列模型——「天工大模型4.0」 o1版(Skywork o1)。

圖片

Skywork o1是由昆侖萬維集團發布的具有慢思考推理能力的系列模型。這是國內第一款中文邏輯推理能力的o1模型。不同于現有的復現OpenAI o1模型的工作,Skywork o1不僅在模型輸出上內生了思考、計劃、反思等能力,同時,該開源模型在標準評測集上,對比普通模型推理能力大幅上升,真正讓模型擁有了思考和反思帶來的推理能力的提升。團隊復現o1的技術路線,使得初始推理能力較差的基座模型在基準測試集上成為生態位SOTA。

此次發布的Skywork o1包括三款模型,既有回饋開源社區的開放版本,也有能力更強的專用版本:

  • Skywork o1 Open:一款基于Llama 3.1 8B的開源模型,該模型在同生態位開源模型中評測指標大幅提升達到SOTA水平,并解鎖了許多輕量級模型無法解決的復雜數學任務。該模型的發布也將幫助加速國內開源社區復現o1的進程。

  • Skywork o1 Lite:該模型具備完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在數學、中文邏輯和推理類問題上表現突出。

  • Skywork o1 Preview:這款模型是本次完整版的推理模型,搭配自研的線上推理算法,對比Skywork o1 Lite有著更多樣和“深度”的思考過程,更完善和更高質量的推理。

2.png

其中,我們開源的Skywork o1 Open,在各項數學和代碼指標上均有大幅提高,將Llama-3.1-8B的性能拉到同生態位SOTA(超越Qwen-2.5-7B instruct)。同時,8B的Skywork o1 Open也解鎖了很多較大量級模型,如GPT 4o,無法完成的數學推理任務(如24點計算)。這也為推理模型在輕量級設備上部署提供了可能性。

圖片

圖片

同時,我們也將開源兩個推理任務的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前開源的Skywork-Reward-Model僅對整個模型回答進行打分,Skywork o1 Open-PRM能給模型回答中的每個步驟進行打分。

對比開源社區現有的PRM,Skywork o1 Open-PRM-1.5B能達到開源社區8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同時在大部分benchamrk上接近/超過10倍量級的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款適配代碼類任務的開源PRM。下面表格為以Skywork-o1-Open-8B作為基礎模型,使用不同PRM在數學和代碼評測集上的評估結果。

圖片

圖片

除Skywork-o1-Open-PRM外,其他開源PRM均未針對代碼類任務進行專門優化,故不進行代碼任務的相關對比。

詳細技術報告也將在不久后發布。目前模型和相關介紹在Huggingface開源。

開源地址:https://tinyurl.com/skywork-o1

01.強推理以及自我反思的能力是如何練成的?

Skywork o1在邏輯推理任務上性能的大幅提升得益于天工三階段自研的訓練方案:

  • 推理反思能力訓練:通過自研的多智能體體系構造高質量的分步思考,反思和驗證數據。通過高質量的、多樣性的長思考數據對基座模型進行繼續預訓練和監督微調。

  • 推理能力強化學習:團隊研發了最新的適配分步推理強化的Skywork o1 Process Reward Model(PRM)。實驗證明Skywork-PRM可有效的捕捉到復雜推理任務中間步驟和思考步驟對最終答案的影響。結合自研分步推理強化算法進一步加強模型推理和思考能力。

  • 推理planning:基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實現和公開。Q*算法落地也大大提升了模型線上推理能力。

關于天工 Q*算法,更多詳情可見:https://arxiv.org/abs/2406.14283

02.亮點功能與實測

Skywork o1模型具有以下能力和亮點功能:

  • 模型思考和規劃能力

  • 模型自我反思能力

  • 模型自我驗證能力

相較于此前(長文本任務)大模型,無論是常識推理問題、邏輯推理問題、數學推理問題、倫理決策問題、還是“弱智”(類似腦筋急轉彎)邏輯陷阱問題等,Skywork o1都處理的游刃有余。整體來說,Skywork o1 Lite和Skywork o1 Preview線上版本在復雜問題分析、思考反思過程、輸出答案質量上均有大幅提升。

首先,我們拿一道「2024年全國碩士研究生入學統一考試數學(一)試題」考考它(如下圖所示),測試一下它的“智力水平”。

圖片

面對難度不小的最新考研數學題,Skywork o1 Preview盡管花費了一些時間,但還是一步步推理出了正確結果。

圖片

那么,之前大模型經常翻車的比大小問題,Skywork o1現在的回答水平如何了?

圖片

從它的思考過程可以看出,Skywork o1的模型思考和規劃能力大幅提升。這個解題邏輯非常像人類的思考方法了,“如果整數部分相同,那么就要開始比較小數部分了”。通過嚴謹的推理過程,準確得出8.8大于8.11,且多給出了一步差值計算。

此外,模型自我反思能力和自我驗證能力也都有長足進步。Skywork o1可以準確識別出“nǐ hǎo hěn gāo xìng rèn shí nǐ”,還可以給出后續對話建議。

圖片

圖片

盡管我們讓它回答存在中文讀音“陷阱”的問題——“請將qíng rén yǎn lǐ chū xī shī轉換為中文”,它也沒有被我們繞進去。充分展示了中文邏輯問題思考中的反思能力,它主動發現了“西詩”是不對的說法,而是“西施”。

同樣的,對于之前的大模型來說,“算24點”的游戲很容易把模型搞崩潰了,但是對于Skywork o1來說,可謂是小菜一碟。它不僅給出了正確答案,重點是它在過程中進行了「自我驗證」。它在計算過后,又檢查了一遍,確認過程和答案全部符合命題要求,才給出最終答案。

圖片

除了上述給出的數學推理、比大小、中文邏輯以及24點計算的任務外,Skywork o1在其他復雜的場景也有較好表現:

競賽數學:Skywork o1拿到2024 AIME第一題(如下圖所示),也從容應對。計算邏輯清晰、公式展示流暢,計算時長也明顯具有優勢。

圖片

圖片

密碼解密:在復雜密碼解密任務中,Skywork o1擁有強大的自我探索和推理能力。

圖片

在已知「原文→密文」的前提下,經過一系列復雜推理后成功給出答案(如下圖所示)。

圖片

如果反過來呢?已知一段「密文→原文」,能否找出新密文所對應的原文。Skywork o1表示小菜一碟。

圖片

智力問答:在復雜的中文推理問題上,Skywork o1表現優異,并給出了完整的思考鏈路。

圖片

圖片

最后,再讓我們再給他出一些有趣的“弱智”問題,來看看它的回答是不是合理。

  • 為什么我爸媽結婚的時候沒邀請我參加婚禮?

  • 被門夾過的核桃,還能補腦嗎?

  • 午餐肉,我可以晚上吃嗎?

圖片

圖片

圖片

令人驚喜的是,Skywork o1不但沒有被問題繞進去,還分析的頭頭是道,甚至透露出“大智慧”,引申出了一些更底層的思考。

進階版的復雜人類思考能力的解鎖也將進一步在垂類領域增強大模型的應用,例如:

  • 中英文常見邏輯推理和復雜任務,如數學/代碼類任務,科學研究

  • 高質量內容生成,如創意寫作,行業報告寫作

  • 深度搜索,解鎖復雜搜索任務的拆解

2024年以來,昆侖萬維天工AI持續進化,陸續發布了「天工2.0」、「天工3.0」、「天工大模型4.0」4o版——Skywork 4o,以及今天正式發布的「天工大模型4.0」 o1版(Skywork o1),不僅是我們貫徹“All in AGI 與 AIGC” 戰略的重要舉措,更是我們構建AI技術棧的重要一步。我們將秉持“實現通用人工智能,讓每個人更好地塑造和表達自我”的使命,從模型層、應用層等全方位、多維度來構建公司技術競爭力和生態矩陣。

測試地址

「天工大模型4.0」 o1版(Skywork o1)開啟測試

嘗鮮地址:www.tiangong.cn

點擊下方閱讀原文,可直接進入網址


主站蜘蛛池模板: 亚洲国产一区二区视频_国产草草影院CCYYCOM_av黄色_精品av综合导航_久久国产91免费观看_性少妇video_a级黄色片在线观看_亚洲免费看片 | 最好看的中文在线观看_午夜入口_精品久久久久久久久中文字幕_免费看黄色片视频_道日本一本草久_老司机在线观看福利_国产毛片精品久久_久操视频在线免费观看 | 婷婷欧美一区二区三区_成人无码精品一区二区三区亚洲区_tube8欧美大屁股xxxx_精品一区二区三区欧美_久草在线新体验_一级毛片在线a_交换一乱一性一爱_日韩亚洲国产中文永久 | 日本aaaaaa_久久看人人爽人人_日日碰狠狠躁久久躁9_免费无码中文字幕a级毛片hd_成人羞羞国产免费动态_欧美另类videos极品hd_日本人配人免费视频人_99久久日韩精品视频免费在线观看 | 四色永久网址在线观看_首页国产欧美日韩丝袜_国产丝袜视频一区二区三区_青青国产在线_欧美一a一片一级一片_国产午夜精品视频免费不卡69堂_亚洲伊人一本大道中文字幕_中字一区 | 又大又粗进去爽A片免费_青青青手机在线_强被迫伦轩高潮无BD_韩国V欧美V亚洲V日本V_精品国一区二区三区_人妻少妇久久中文字幕_蜜臀AV在线无码国产_天天摸天天干 | 又色又爽又高潮免费视频国产_成人黄色一级视频_无套内谢少妇毛片a片免费_精品视频免费看_在线观看国产区_xxxxx日韩_欧美性XXXXX极品老少_天天逼网 | se94se欧美_九一在线看_亚洲男女自偷自拍_日韩精品一区二区三区乱码_日韩人妻无码精品系列_天天热天天干_蜜桃免费视频_性视频1819p久久 | 久久婷婷国产_亚洲伦理片在线_色五月色开心色婷婷色丁香_青青在线视频观看_波多野结衣视频一区_日韩在线理论_国产成人免费在线_久久中文免费视频 | A天堂最新版在线中文_亚洲永久免费视频_精品一区二区三人妻视频_丁香五月网久久综合_网站一级片_男人用嘴添女人私密视频软件_久久不射国产精品_国产精品久久久久99 | 免费国产一区二区三区_91影视看片_人妻中出无码一区二区三区_欧美色人_精品一区中文字幕_色香蕉成人二区免费_浮生影院观看免费_青青在线视频免费 | 2020国产成人精品影视_日韩经典一区二区三区_数码宝贝第一部日语版_四虎网站网址_国产成人无码视频一区二区三区_91精品国产99久久_2828无码高潮毛片_大陆成人av片 | 午夜簧片_日韩视频在线一区二区三区_a级免费_美女日p视频_日本孕妇高潮孕交视频_久久久免费视频网站_秋霞AV鲁丝片一区二区_国产精品一区av | 成人A级视频在线观看_亚洲AV无码京香无码AV_欧美第一黄网免费网站_米奇7777_蜜臀视频一区二区在线播放_老司机成人影院_亚洲熟妇丰满xxxxx国语_tube8xxxxx中国 | 日本乱码卡一卡2卡3卡三卡四_国产亚洲精品成人_嘿咻嘿咻男女免费专区_亚洲精品网站在线观看你懂的_57pao国产一区二区_黄片123_欧洲另类交_亚洲青涩在线 | 裸体在线国模精品偷拍_国产欧美日韩一区二区在线_国产高清无码专区_成人免费xxxxxx视频_免费同性男男自慰网站_日本网址在线观看_国产亚洲AV无码乱码在线观看_大卫科波菲尔1999 | 人间精品视频在线播放_av免费网站大全_国产精品久久久久久久久久久杏吧_男人和女人做爽爽视频_精品无人乱码一区二区三区_久久精品国产亚洲av香蕉_亚洲男人的天堂视频_国产欧美一区二区精品老汉影院 | 俄罗斯美女肛交内射WWWC〇M_国产成人亚洲综合网站_国产成人无码AV在线播放DVD_无码视频在线观看_天天操夜夜草_亚洲综合一区自偷自拍_国产在线观看成人_在线免费av网址 | 日本视频不卡_久久精品99国产精品亚洲_久久亚洲AV无码精品色午夜麻豆_免费a级作爱片免费观看欧洲_欧美第十页_成人影院在线观看视频_www.91在线播放_操女人免费视频 | 桃色成人网_最近日本中文字幕免费完整_x88av在线_青青草视频在线观看_台湾佬娱乐中文22vvvv_一夜新娘第三季免费播放_video喷出白浆_日本欧美在线播放 | 欧美综合77777色婷婷_超碰老师_精品久久久久久国产偷窥_亚洲精品免费在线播放_免费伦费影视在线观看_影音先锋新男人AV资源站_色香com._狂野欧美性猛交免费视频 | 国产成人91视频_在线观看第一区_国产精品交换_日本四虎_国精品午夜福利视频不卡麻豆_人妻无码高清一区_久草热线视频_色网免费 | 亚洲人成网站在线播放大全_久久婷婷国产综合国色天香_成人高潮免费视频_日本污ww视频网站_久久久久久久久久穴_中国裸男自慰GV网站_新白娘子传奇50集免费赵雅芝版_四虎在线播放 | 亚洲国产日韩制服在线观看_永久免费精品_国产传媒中文字幕_亚洲欧美日韩一区_亚洲伊人色综合网色欲WWW_婷婷久久综合九色综合绿巨人_毛片图片_琪琪女色窝窝777777 | 久久精品无码一区二区小草_国产精品一区二区三区在线观_色五月最新网址_h免费看_一a本v道久久_国产日日操_亚洲无线观看国产高清_日本三级黄色录像 | 中出欧美_中文字幕av无码不卡_怡红院成免费人视频_一区二区三区欧美大片_肉色欧美久久久久久久免费看_秋霞网一区二区_国产精品111_亚洲国产精品精品 | 国产精品久久国产精品久久_xxxwww免费视频_极品人妻的娇喘呻吟_a级无毛_亚洲你懂的_久久精品女人天堂av444_日本99热_小蜜被两老头吸奶头在线观看 | 驯服人妻hd中字日本_人妻夜夜爽天天爽三区麻豆AV网站_欧美精品日日操_日本三级大全_大香伊在人线免97_欧美视频网站www色_中国一级片网站_在线播放av更多 | 免费观看一次性A片_少妇无码AV无码一区_91国在线观看_一级黄色录相_久久久久久久久成人网A片_2020最新国产原创青草_久久久久久久久久久大尺度免费视频_成人av地址 | 日本一级囗交免费_福利第一页_欧美日韩在线视频一区二区_青青草免费公开视频_久久网站_999国产在线视频_欧美亚洲高清一区二区三区不卡_看国产一级黄色片 | 欧美午夜伦理_曰本人做爰大片免费观看一老师_一级黄免费看_日本一二区不卡_九色视频网站入口_日韩毛毛片_在线观看欧美一区二区三区_日韩亚洲不卡线 | 欧美另类性视频_青苹果乐园在线观看免费完整_成人免费网站观看_欧美天堂一区_亚洲品牌自拍一品区9_新av在线天堂网_国内91在线_wwwwxxxx欧美 | 法国《性迷宫》在线观看_亚洲色欲天天天堂色欲网_av永久免费在线观看_JIZZ国产精品_国产精品视频三区_免费无码毛片一区二三区_风间由美久久久_黄色片av网站 | 91超碰刺激偷拍_国内精彩免费自拍视频在线观看网址_欧美内射深插日本少妇_97zyz成人免费视频_麻豆成人在线_欧美日韩精品久久免费_免费看黄色一级视频_91视频麻豆视频 | 19禁国产精品福利视频_www黄在线观看_日韩av无码久久一区二区_97超碰国产在线_中文字幕.亚洲无码日_成人免费无码A毛片_青青草在久久免费久久免费_国产午夜性春猛交ⅹxxx | 日韩一级影视_全国最大成人免费视频_亚洲精品高清AV在线播放_久久精品国产亚洲av四虎_婷婷五月网丁香五月_亚洲在线成人_在线视频欧美一区_无码免费h成年动漫在线观看 | 国产精品美脚玉足脚交欧美_一级片久久久_午夜中文_亚洲黄片一级在线广播_男人天堂成人在线_性生交大片免费看_亚洲第一女人av_成人毛片18女人毛片免费 | 色婷婷av777_三级成网站_天无日天天操天天干_亚洲日本va一区二区三区_中文在线中文资源不卡无_亚洲av熟妇在线观看_欧美精品久久久久久久久_在线观看私人黄 | 久久人妻少妇嫩草AV_97国产精品视频人人做人人爱_色综合久久婷婷88_免费在线黄网站_超碰自拍网_韩国久久久久无码国产精品_外国一级毛片_黑人巨大40厘米免费播放 | 日本亚洲9999aⅴ_亚洲欧美99_欧美嫩交一区二区三区_亚洲成人免费网站_日本三级视频在线观看_免费黄色一级片_国产无人区卡一卡二卡三乱码_亚洲精品成人久久一区二区 | 又大又粗进去爽A片免费_青青青手机在线_强被迫伦轩高潮无BD_韩国V欧美V亚洲V日本V_精品国一区二区三区_人妻少妇久久中文字幕_蜜臀AV在线无码国产_天天摸天天干 |