OpenAI数据收集新策略：转录百万小时YouTube视频-AI前沿-数据世界

【数据世界网】4月7日消息，近日，AI公司在收集高质量训练数据方面遇到的难题引起了广泛关注。本周早些时候，《华尔街日报》曾报道过这一挑战，而今日，《纽约时报》则深入揭示了AI公司如何应对这一挑战，其中涉及的内容引发了关于AI版权法的讨论。

为了解决训练数据的迫切需求，OpenAI开发了一种名为Whisper的音频转录模型。该模型被用于转录超过100万小时的YouTube视频，以训练其最新一代的大型语言模型GPT-4。这一举措显示出OpenAI在寻找新数据源方面的决心和创新。

据数据世界了解，OpenAI在2021年就已经耗尽了其原有的有用数据供应。在探索新的数据源时，公司讨论了转录YouTube视频、播客和有声读物的可能性。除此之外，OpenAI还广泛利用了其他资源，如Github上的计算机代码、国际象棋走棋数据库以及Quizlet的作业内容，以丰富其训练数据。

尽管OpenAI意识到这种做法在法律上可能存在问题，但他们认为这是对数据的合理使用。《泰晤士报》披露，OpenAI的总裁Greg Brockman甚至亲自参与了所使用视频的收集工作，足以显示公司对这一举措的重视程度。

OpenAI的发言人Lindsay Held向The Verge透露，公司为每个模型都策划了“独特”的数据集，旨在“帮助他们了解世界”，并保持其在全球研究领域的竞争力。Held还表示，公司正在考虑生成自己的合成数据，并使用“众多来源，包括公开数据和非公开数据的合作伙伴”来丰富其数据集。

然而，这一做法并非没有争议。谷歌发言人Matt Bryant在回应相关报道时指出，谷歌“看到了有关OpenAI活动的未经证实的报告”，并强调“我们的robots.txt文件(网站与爬虫间的君子协定)和服务条款都禁止未经授权的抓取或下载YouTube内容”。与此同时，YouTube首席执行官Neal Mohan也在近日警告称，尽管没有直接证据表明OpenAI使用YouTube视频来训练其文本生成视频的AI模型Sora，但这种行为违反了YouTube现行的平台服务条款。

在数据使用的问题上，meta也面临着类似的挑战。在《泰晤士报》曝光的一段录音中，meta的AI团队为了迎头赶上OpenAI，讨论了未经许可使用版权作品的情况。该公司在考察了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后，正在考虑采取一系列措施来应对数据使用问题，如支付图书许可费用，甚至直接收购一家大型出版商。

有相关博主也对此事进行了回应，称最近的新机销量确实和这个事情有关系。知情书内容：本人自愿购买华为原生态鸿蒙操作系统产品，店员已经告知鸿蒙系统使用或有不便，部分软件开发有缺陷不全，等待软件商适配，我已经知晓…

最新开源的首个多模态大模型dots.vlm1，基于自研视觉编码器构建，实测看穿色盲图，破解数独，解高考数学题，一句话写李白诗风，视觉理解和推理能力都逼近Gemini2.5 Pro闭源模型。一个理由是，hi…

2025年8月1日，2025年第二十二届中国国际数码互动娱乐展览会（以下简称“ChinaJoy2025”）在上海新国际博览中心盛大开幕，TCL华星携手LG惊艳亮相，新品4K双模电竞显示器震撼登场，为广大玩家和…

据介绍，小米汽车的磁吸物理按键不仅可以在车内使用，还可以安装在家中任何位置，如玄关、冰箱、床头等。此外，用户还可以通过磁吸按键一键控制车辆功能，如提前打开车内空调或座椅通风，确保上车即享舒适体验。小米汽车…

iFixit 发布了三星 Galaxy Z Fold7 的拆解视频，揭示了这款手机维修的复杂性。从拆解过程来看，虽然大部分零部件都能较为轻松地从手机中取出，但折叠屏维修无疑是一大难点，这也是手机中最昂贵的…

千问团队观察到，市面上已有的图像生成模型虽然在分辨率、细节刻画上实现一定突破，但在多行文本渲染、非字母语言（如中文）生成、局部文本插入或文本与视觉元素融合等任务时，仍然表现不佳。在每个MMDiT中，千问团…

另外小米也定位玄戒处理器主打高端，所以即便小米电竞手机发布估计价格也不会太便宜，而在明年发布还有个好处是电池可以做得更大，预计9千大电池起步，总体来说我认为小米电竞手机发布后应该对标的就是红魔和ROG，价格也…

快科技8月2日消息，浙江大学脑机智能全国重点实验室正式发布了新一代神经拟态类脑计算机——Darwin Monkey，中文名 “悟空”。整台计算机支持的脉冲神经元规模超过20亿，数量已接近猕猴大脑规模。达尔…

IT之家 8 月 3 日消息，荣耀超级工作台已正式上线“其他 Windows 电脑”版本，首批支持荣耀 Magic V5折叠屏手机、荣耀MagicPad3 平板，其他机型陆续推送中。 IT之家注意到，荣耀官…

在设备端，ASML高端EUV光刻机对华出口受限，导致国内先进制程研发进度滞后；在材料端，日本主导的半导体化学品市场占据全球60%份额，地缘风险加剧供应链不稳定。台积电、三星通过长期技术积累构建了完整的IP库与…

TheInformation爆料说，2024年下半年的大部分时间里，OpenAI都在全力开发Orion模型，它被寄予了厚望，原计划作为GPT-5推出。一位了解内情的微软员工透露了玄机：测试GPT-5后，…

IT之家 8 月 1 日消息，针对英伟达算力芯片被曝出存在严重安全问题，英伟达今晚向第一财经记者回应：“网络安全对我们至关重要。NVIDIA 的芯片不存在‘后门’，并不会让任何人有远程访问或控制这些芯片的途径…

iPhone 17 Pro 和 iPhone 17 Pro Max 在设计上均会采用横向大矩阵造型。 iPhone 17 Air作为一款全新推出的超薄款机型，机身厚度仅有 5.5 毫米，或将成为苹果史上最…

摩根大通在一份最新报告中透露，苹果计划在2026年9月推出其首款折叠屏手机，这款手机预计将归入iPhone18系列。此前有消息称，苹果的折叠屏手机将被命名为iPhone Fold，如果该机属于iPhone …

不得不说，现在性能级旗舰手机卷的越来越厉害了，同时也有不少小伙伴发现，如果不追求拍照，那很多手机是真香。而和天玑9400+对应的是，iQOOZ10 Turbo+的散热系统也做了升级，配备了7000平方厘米…