欢迎来到区块链早报官方网站!
首页>>资讯 > 正文

百度被网暴,AI大模型“套皮”海外知名项目,百度首次回复:假的!

区块链早报 发布时间:2023-03-23 14:37:34 AI百度文心一言
热度:219℃
图片来源:无界AI画绘画工作生成
图片来源:无界AI画绘画工作生成

3月16日,百度创始人李彦宏做了大语言模型“文心一言”的发布会。

结果,观众只记住了白衬衫和白腰带,并且纷纷表示好奇,李彦宏保养的不错。然后感慨,Robin Li与其分享百度雄心勃勃的语言大模型,不如讲一讲如何保养,搞不好还能带个货,股价也许就上去了。

虽然,网络上键盘侠吐槽很多,但还是有很多媒体写到:《中国百度硬刚chatGPT,国产之光》。没办法,AI这个领域,好像只有百度能打,起码,大部分公众的认知是这样。

如果说16日发布会后公众的态度是希望百度扛起对线chatGPT的大旗。这两天,画风变了,吐槽排山倒海而来,可以说是怒其不争了。

首先是一批图片,显示文心一言理解能力很差。

另外,还有一批图片,更是把文心一言给狠狠锤了一把。大意是说,文心一言更懂英文,不懂中文。直言百度作假,文心一言是套壳了chatGPT,水货。

那么,真的是这样子吗?


百度文心一言被爆锤,国产都不行?


微博账号“刘大可先生”锤百度的文字被传播得很广,光点赞就有2.2万。

他是这么说的:百度这个所谓的人工智能,其实就把中文句子机翻成英语单词,拿去用国外刚刚开源的人工智能“Stable Diffusion”生成了图画,再返回给你,说是自己画的。

他给出的理由有很多,这里仅举一个例子。

上图,“刘大可先生”的要求是画“云中的平面”,结果文心一言画了个飞机,“刘大可先生”说,这是因为“云中的平面”机翻之后是“plane in cloud”,所以文心一言背后的英语的人工智能当然会画个飞机。

下面这张图在社交网络传播非常广,揭示的“真相”与上文是一样的。

自从chatGPT诞生后,以及包括一系列AI画图软件,像Stable-Diffusion、Midjourney、DALLE等诞生以来,我们其实看到了很多的应用,底层都是这些开源的模型。但是通过“汉化”,可以给中国的用户带来很好的体验。

百度的文心一言是不是也这样?这个“判断”可能是武断的。

2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,但是很快就被吐槽,它的中文水平不如英文。

3月30日,阿里达摩院低调地在魔搭社区(ModelScope)放出了“文本生成视频大模型”。结果,这个大模型也是更懂英文,有体验者写到,他输入提示词:A panda eating bamboo on a rock。77秒后,大模型给出了一个2秒的熊猫吃竹子视频。如果换成中文:一只大熊猫坐在岩石上吃竹子。出来的结果就是一只类似于猫咪的小动物。离题万里。


中文数据天生缺陷?


为什么会这样呢?

在微博账号“刘大可先生”爆锤百度的微博文字下面,第一个留言的名叫“欧阳少悭",他说,文心一言出现这种情况的因为在于,目前开源的图文数据大部分是英文的,可以参考LAION这个开源数据库,所以目前的diffusion model基本都是英文驱动,这也导致了“刘大可先生”说的怪异现象。

“当然,我们期待同等规模的中文开源数据库的出现。stable diffusion是一种网络结构,开发者完全可以使用LAION数据集和sd结构训练一个自己的网络,不需要套皮。”他说。

23日中午,百度官方公众号发了一则声明,写到:“文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。在大模型训练中,我们使用的是全球互联网公开数据,符合行业惯例。大家也会从接下来文生图能力的快速调优迭代,看到百度的自研实力。”

有从业者称,这基本等于承认使用了LAION。LAION,这是目前最为知名的大规模图文多模态数据集。作为一个非营利性组织,LAION提供数据集、工具和模型来解放机器学习研究。官网写到:我们通过这样做,鼓励开放的公共教育,并通过重用现有数据集和模型来更环保地使用资源。

从这个角度理解,说文心一言“套皮”或许还是比较武断的。到底是不是“套皮”,或者百度的语言大模型在技术上有没有参考海外项目?我们还要等待更多的来自行业的披露信息。

但是,这个事情从侧面肯定能说明一个问题,虽然,我们一直强调中国有海量的数据,但企业的实践却表明:不好用。

复旦MOSS大模型被质疑中文水平不如英文时,MOSS研究团队就坦承,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”

而澎湃新闻采访了粤港澳大湾区数字经济研究院(IDEA)认知计算与自然语言中心文本生成算法团队负责人王昊,他说:“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”

有一个数据很现实:虽然简体中文互联网用户和英文互联网用户规模相当,但在全球排名前1000万个网站中,英文内容占比60.4%,中文内容占比仅为1.4%。

这会是中国企业探索大语言模型的问题和瓶颈吗?可能也不是。或是观念,尤其是意识形态的阻碍更大。

中关村新场景MA Club发起人檀林在一次分享中质问:“做一个中国的大语言模型,自己给自己砌一道墙,和全球分开。就像做一个纯中文的操作系统一样,能有多大的意义?大家都知道,简体中文的数据质量很差,语料库的知识含量和价值已经比海外的几个大语言模型要低得多了,所以如果现在还非要给自己一个束缚的话,我觉得这种态度在开局就输了。”

中国企业要想在大语言模型的赛道分一杯羹,蹚出一条路,使用英文数据是不得已,没办法。当然,我们显然更期待中文数据领域能有更好的发展。


热门文章

  • 上车交易所平台币最后的机会!QKEx平台币将于UTC+8时间11月8日12:00开启平台币最后一轮IDO
    上车交易所平台币最后的机会!QKEx平台币将于UTC+8时间11月8日12:00开启平台币最后一轮IDO

    上车交易所平台币最后的机会!QKEx平台币将于UTC+8时间11月8日12:00开启平台币最后一轮IDO

    QKEx是QK集团于2020年开始自主研发的全球化加密资产综合服务平台,包含现货、合约、理财、算力挖矿等多板块业务;QKEX首创CommunalFI的行业全新概念,计划实现社区行为经济上链,打造去中心化社区经济及交易生态。 据官方消息,QKEx将于UTC+8时间11月8日12:00开启平台币最后一轮IDO,官方对外显示第三轮IDO价...

  • 链盈AI——引领金融智能化的未来
    链盈AI——引领金融智能化的未来

    链盈AI——引领金融智能化的未来

    在数字资产市场快速崛起的背景下,链盈A1 (Chain Profit DeepSeek)为全球投资者提供了全新的智能化量化交易与资产管理平台在数字资产市场快速崛起的背景下,链盈A1 (Chain Profit DeepSeek) 依托Numerai万亿级AI对冲基金算法框架与DeepSeek-R1超维推理引擎,为全球投资者打造了首个联邦式AI+区块链量化平台。通过300+全球AI...

  • 41000元大奖诞生!Envo 幸运广场首个一等奖开出,生态热度再飙新高
    41000元大奖诞生!Envo 幸运广场首个一等奖开出,生态热度再飙新高

    41000元大奖诞生!Envo 幸运广场首个一等奖开出,生态热度再飙新高

    据悉,Web3 社交平台 Envo内的“幸运广场”模块于今日首次开出 一等奖大奖,单笔奖金高达 624.72 DND(约合人民币 41,000 元),再次点燃市场关注。这是 Envo 幸运广场自两个月前上线以来的首个一等奖。此前最高记录为一位用户获得的 456.45 DND,而本次中奖金额直接刷新平台历史纪录,成为 Web3 圈热议焦点。...

  • BENQI推出全新UI,支持低门槛验证者部署
    BENQI推出全新UI,支持低门槛验证者部署

    BENQI推出全新UI,支持低门槛验证者部署

    Avalanche生态协议BENQI正式发布新UI,整合流动质押、借贷及验证者平台IGNITE,支持一键运行主网验证者。全新UI界面统一呈现BENQI的三大核心服务模块:Liquid Staking、Lending及验证者工具IGNITE,用户可通过一个入口快速访问质押、借贷和主网验证者部署功能。亮点包括:●PAYG模式:每周仅需4 AVAX即可租用2000AVAX 验证者...

  • 链盈AI 3.0全球首发盛典圆满落幕 开启智能金融新纪元
    链盈AI 3.0全球首发盛典圆满落幕 开启智能金融新纪元

    链盈AI 3.0全球首发盛典圆满落幕 开启智能金融新纪元

    2025年4月27日,香港——链盈科技(Chain Profit DeepSeek)主办的"链盈AI 3.0全球首发盛典·中国站"在香港圆满举行。本次盛会汇聚200余位行业精英,包括中国区核心社区成员、战略合作伙伴及美国AI量化平台Numerai代表,共同见证DApp 3.0的震撼发布与链盈全球化战略的全面升级,链盈AI 3.0将率先应用于供应链金融...

  • Envo CTO专访:代码之外,皆是星辰大海
    Envo CTO专访:代码之外,皆是星辰大海

    Envo CTO专访:代码之外,皆是星辰大海

    在Web3发展步入深水区的当下,从“概念过热”到“落地求真”,真正具备系统性构建能力的平台逐渐脱颖而出。作为其中的佼佼者,Envo不仅以持续的产品创新与生态扩张赢得市场关注,更在用户体验、代币经济、技术架构等多个层面不断刷新行业标准。近日,Benzinga、环球邮报、罗马日报等世界知名媒体就“Web3平台的未来形...

  • CyberCrowdChain(CCROWD)将于1月17日上线HTX
    CyberCrowdChain(CCROWD)将于1月17日上线HTX

    CyberCrowdChain(CCROWD)将于1月17日上线HTX

    据官方消息,CyberCrowdChain(CCROWD)将于1月17日上线HTX,存款将于1月13日13:00开放,在存款量满足市场需求时开放CCROWD/USDT现货交易对。据悉,CyberCrowdChain是一种基于以太坊的代币,它继承了传统加密货币的安全性和透明性,并融合了人工智能,为资产表示和交易过程带来更高的可信度和创新性。CCROWD目前已上线Polon...

  • DIYI交易所引领加密货币新潮流,打造全球顶级数字资产交易平台
    DIYI交易所引领加密货币新潮流,打造全球顶级数字资产交易平台

    DIYI交易所引领加密货币新潮流,打造全球顶级数字资产交易平台

    据相关消息报道,2024年2月16日,全球——由银行金融投资家沈龙领衔,联手帝亿资本及顶尖区块链团队打造的下一代加密货币交易所「DIYI」宣布启动。该项目以“People’s Exchange”为核心定位,聚焦现实资产代币化(RWA)、NFT-Fi创新、去中心化治理与全球化社区生态,致力于打造对标酷币(KuCoin)的千亿级交易平台,...

  • 理财新选择,托菲斯打造 Bitcoin 价值增值共享平台
    理财新选择,托菲斯打造 Bitcoin 价值增值共享平台

    理财新选择,托菲斯打造 Bitcoin 价值增值共享平台

    据官方消息报道,托菲斯正式发布其全新挖矿理财服务,为广大用户提供Bitcoin价值增值的共享平台。作为业界领先的大型 Bitcoin 矿机企业,托菲斯以其雄厚的实力和卓越的技术,在挖矿领域独树一帜。凭借专业的技术团队和深厚的行业经验,托菲斯创新推出挖矿收益与存币生息双重收益模式,一方面,托菲斯支持三十余种主...

  • 一个三线小城生意人的“逆袭”:当Web3社交代币遇上长期主义
    一个三线小城生意人的“逆袭”:当Web3社交代币遇上长期主义

    一个三线小城生意人的“逆袭”:当Web3社交代币遇上长期主义

    去年此时,我的朋友老张——一个在山东临沂经营五金店近二十年的小生意人,做了一件让所有熟人都觉得“疯狂”的事:他将半数积蓄换成了名为DND的代币,并将其质押在名为Envo的Web3社交平台中。如今,这笔不到3万美元的投资已悄然增值至10万美元,成为他“理财生涯中最成功的决策”。而这一故事的背后,不仅是一个普通人的财...

观点

更多 >
  • 三位创始人圆桌亮相,KulaDAO 再掀热潮
    三位创始人圆桌亮相,KulaDAO 再掀热潮

    4 月 22 日,KulaDAO 三位联合创始人将首次同台出席由Crypto Town Hall主办的X Space圆桌对话,与 Scott Melker、Mario Nawfal 共议 Kula 的发展蓝图。这不仅是项目的全球展示窗口,更是 RWA 治理迈入新阶段的重要信号。📅时间: 4 月 22 日10:15 PM(UTC+8)自 2025 年 4 月 15 日上线 MEXC、Coins.xyz 与 Coin...

  • 腾讯会议做不到的五件事,Envo正在实现
    腾讯会议做不到的五件事,Envo正在实现

    2025年4月2日,“腾讯会议崩了”登上微博热搜。大规模用户在线会议中断,引发行业对中心化协作工具可靠性的再度讨论。类似的问题,近年来在多款会议软件中屡见不鲜:卡顿、掉线、封会,甚至数据泄露。而在另一条技术路径上,Web3社交平台 Envo 正在用全新的技术架构与经济模型,重构线上会议的底层逻辑。它的会议系统不仅解...

观点Envo CTO专访:代码之外,皆是星辰大海
观点Numerai与Chain Profit DeepSeek达成战略合作,共同推动智能投资的未来
观点JAE Coin: 让你的投资与未来政治领袖同行
观点蚂蚁原副总裁漆远创业公司被曝all in大模型,原方向AI制药不做了
观点百度文心一言潜藏风险,AI视频素材来源不明,创作者或陷版权风暴