当前位置：首页 > 房产 > 正文

近亲繁殖，胡言乱语还是仅仅是疯狂?对人工智能模型的警告不断上升

房产
2024-11-17 08:54:03
22

去年，当学者贾森•萨多夫斯基(Jathan Sadowski)用一个比喻来描述人工智能程序如何衰退时，他选择了“哈布斯堡人工智能”(Habsburg AI)这个词。

哈布斯堡家族是欧洲最强大的王室之一，但在几个世纪的近亲繁殖后，他们的整个家族都崩溃了。

最近的研究表明，支持ChatGPT等产品的人工智能程序在反复输入自己的数据时，也会经历类似的崩溃。

萨多夫斯基在接受法新社采访时表示:“我认为哈布斯堡人工智能这个词已经很成熟了。”他说，他的这个词“只会与我们对人工智能系统的看法更加相关”。

最终的担忧是，人工智能生成的内容可能会接管网络，这可能会使聊天机器人和图像生成器变得无用，并使一个价值数万亿美元的产业陷入混乱。

但其他专家认为，这个问题被夸大了，或者可以解决。

许多公司热衷于使用他们所谓的合成数据来训练人工智能程序。这种人工生成的数据用于增强或替换实际数据。它比人工制作的内容更便宜，但更容易预测。

澳大利亚莫纳什大学(Monash University)新兴技术讲师萨多夫斯基表示:“对于构建人工智能系统的研究人员和公司来说，一个悬而未决的问题是:多少合成数据才算太多。”

训练人工智能程序，在业界被称为大型语言模型(llm)，涉及从互联网上抓取大量文本或图像。

这些信息被分解成数万亿个机器可读的小块，称为令牌。

当被问及一个问题时，像ChatGPT这样的程序选择并组装令牌的方式是，它的训练数据告诉它最可能符合查询的序列。

但即使是最好的人工智能工具也会产生谎言和废话，批评者长期以来一直担心，如果一个模型依赖自己的输出会发生什么。

7月下旬，《自然》(Nature)杂志上发表的一篇题为《人工智能模型在接受递归生成的数据训练时崩溃》的论文成为讨论的焦点。

作者描述了模型如何迅速丢弃原始数据集中的稀有元素，正如《自然》杂志报道的那样，输出结果退化为“胡言乱语”。

一周后，莱斯大学和斯坦福大学的研究人员发表了一篇题为“自我消费生成模型发疯”的论文，得出了类似的结论。

他们测试了生成图像的人工智能程序，并表明，当他们将人工智能生成的数据添加到底层模型时，输出变得更加通用，并且充斥着不受欢迎的元素。

他们将模型崩溃称为“模型自噬紊乱”(MAD)，并将其与疯牛病进行比较。疯牛病是一种致命的疾病，是由将死牛的残留物喂给其他牛而引起的。

这些研究人员担心，人工智能生成的文本、图像和视频正在清除网络上可用的人造数据。

莱斯大学研究报告的作者之一理查德·巴拉尼克在一份声明中说:“如果几代人都不受控制，MAD可能会毒害整个互联网的数据质量和多样性，这是一个世界末日。”

然而，业内人士并不担心。

Anthropic和hug Face是该领域的两位领导者，他们以对该技术采取道德方法而自豪，他们都告诉法新社，他们使用人工智能生成的数据来微调或过滤他们的数据集。

拥抱脸公司的机器学习工程师安东·洛日科夫说，《自然》杂志的论文给出了一个有趣的理论视角，但它的灾难场景并不现实。

他说:“在现实中，用多轮合成数据进行训练是不可能的。”

然而，他说，研究人员和其他人一样，对互联网的现状感到沮丧。

“互联网上有很大一部分是垃圾，”他说，并补充说，拥抱脸公司已经在清理数据方面做出了巨大努力，有时会丢弃多达90%的数据。

他希望网络用户能够通过简单地不参与生成内容来帮助清理互联网。

他说:“我坚信，人类将比模型更早看到这些影响，并捕捉到生成的数据。”

去年，当学者贾森•萨多夫斯基(Jathan Sadowski)用一个比喻来描述人工智能程序如何衰退时，他选择了“哈布斯堡人工智能”(Habsburg AI)这个词。

哈布斯堡家族是欧洲最强大的王室之一，但在几个世纪的近亲繁殖后，他们的整个家族都崩溃了。

最近的研究表明，支持ChatGPT等产品的人工智能程序在反复输入自己的数据时，也会经历类似的崩溃。

最终的担忧是，人工智能生成的内容可能会接管网络，这可能会使聊天机器人和图像生成器变得无用，并使一个价值数万亿美元的产业陷入混乱。

但其他专家认为，这个问题被夸大了，或者可以解决。

训练人工智能程序，在业界被称为大型语言模型(llm)，涉及从互联网上抓取大量文本或图像。

这些信息被分解成数万亿个机器可读的小块，称为令牌。

当被问及一个问题时，像ChatGPT这样的程序选择并组装令牌的方式是，它的训练数据告诉它最可能符合查询的序列。

但即使是最好的人工智能工具也会产生谎言和废话，批评者长期以来一直担心，如果一个模型依赖自己的输出会发生什么。

7月下旬，《自然》(Nature)杂志上发表的一篇题为《人工智能模型在接受递归生成的数据训练时崩溃》的论文成为讨论的焦点。

作者描述了模型如何迅速丢弃原始数据集中的稀有元素，正如《自然》杂志报道的那样，输出结果退化为“胡言乱语”。

一周后，莱斯大学和斯坦福大学的研究人员发表了一篇题为“自我消费生成模型发疯”的论文，得出了类似的结论。

他们测试了生成图像的人工智能程序，并表明，当他们将人工智能生成的数据添加到底层模型时，输出变得更加通用，并且充斥着不受欢迎的元素。

他们将模型崩溃称为“模型自噬紊乱”(MAD)，并将其与疯牛病进行比较。疯牛病是一种致命的疾病，是由将死牛的残留物喂给其他牛而引起的。

这些研究人员担心，人工智能生成的文本、图像和视频正在清除网络上可用的人造数据。

然而，业内人士并不担心。

拥抱脸公司的机器学习工程师安东·洛日科夫说，《自然》杂志的论文给出了一个有趣的理论视角，但它的灾难场景并不现实。

他说:“在现实中，用多轮合成数据进行训练是不可能的。”

然而，他说，研究人员和其他人一样，对互联网的现状感到沮丧。

“互联网上有很大一部分是垃圾，”他说，并补充说，拥抱脸公司已经在清理数据方面做出了巨大努力，有时会丢弃多达90%的数据。

他希望网络用户能够通过简单地不参与生成内容来帮助清理互联网。

他说:“我坚信，人类将比模型更早看到这些影响，并捕捉到生成的数据。”

上一篇：印度总理莫迪在前往饱受战争蹂躏的乌克兰途中与波兰领导人举行了安全和贸易会谈

下一篇：威廉王子和凯特·米德尔顿在奥运视频中展示了新胡子

近亲繁殖，胡言乱语还是仅仅是疯狂?对人工智能模型的警告不断上升

有话要说...

作者信息

谢珊宪管理员

最近发表

最新文章

热门文章

女子在晓华店边卖咖啡日入700元

在贾斯汀·比伯和吹牛老爹的视频重新曝光后，斯蒂芬·鲍德温发出了隐晦的警告

在Isis屠杀英国援助工作者大卫•海恩斯(David Haines) 10年后，他的兄弟终于找到了解脱

2026年上证指数预测，能否突破14600点？

里奥·费迪南德抨击切尔西俱乐部并提出了三笔交易，切尔西更衣室将“奋起反抗”

介绍新的iOS Opera One浏览器:功能和增强

金·卡戴珊就梅内德斯兄弟的假释决定打破沉默，她发表了三个字的请求

诺如病毒和食物中毒的主要症状和区别，英国人难以分辨

随机看看

近亲繁殖，胡言乱语还是仅仅是疯狂?对人工智能模型的警告不断上升

相关文章

有话要说...

作者信息

谢珊宪管理员

最近发表

最新文章

热门文章

随机看看