
Zyda - 包含1.3万亿Token的开源预训练数据集|语言模型数据集|预 …
Zyda数据集是由Zyphra公司创建的一个大型语言模型预训练数据集。 该数据集通过整合多个开源数据集并进行深度处理来构建,包含了1.3万亿Token,其质量接近商业语料。
Title: Zyda-2: a 5 Trillion Token High-Quality Dataset - arXiv.org
2024年11月8日 · Zyda-2 was used to train our Zamba2 series of models which are state-of-the-art for their weight class. We build Zyda-2 by collating high-quality open-source tokens such as …
[2406.01981] Zyda: A 1.3T Dataset for Open Language Modeling
2024年6月4日 · In this paper, we introduce Zyda (Zyphra Dataset), a dataset under a permissive license comprising 1.3 trillion tokens, assembled by integrating several major respected open …
Zyphra/Zyda-2 · Datasets at Hugging Face
Disk Utility's built-in repair commands are merely a GUI front-end for fsck and fsck_hfs.
Zyda-2|自然语言处理数据集|预训练数据集数据集
2024年11月9日 · Zyda-2是由Zyphra机构创建的一个包含5万亿Tokens的高质量数据集,旨在用于语言模型的预训练。 该数据集汇集了如FineWeb和DCLM等高质量的开源数据源,并通过交叉 …
Zyphra 发布 Zyda-2 数据集, 应用在 自然语言处理、预训练数据集
2024年11月13日 · Zyphra 本次发布的数据集 Zyda-2, Zyda-2是由Zyphra机构创建的一个包含5万亿Tokens的高质量数据集,旨在用于语言模型的预训练。 该数据集汇集了如FineWeb …
Zyphra 的新 Zyda-2 数据集可让企业以高精度训练小型 LLM
2024年10月19日 · Zyphra Technologies是一家致力于开发多模式代理系统的公司,该系统结合了下一代状态空间模型架构、长期记忆和强化学习方面的先进研究,该公司刚刚发布了 Zyda …
Zyda|大型语言模型数据集|数据预处理数据集
Zyda是由Zyphra创建的一个包含1.3万亿tokens的大型语言模型预训练数据集。 该数据集整合了多个高质量的开源数据集,通过严格的过滤和去重过程,确保数据质量。
Zyphra推出具备1.3T tokens的大模型训练数据集Zyda - 牛透社
牛透社消息:6 月 7 日,初创公司 Zyphra 推出人工智能训练数据集 Zyda,旨在帮助研究人员构建大型语言模型(LLM)。 这家由英特尔资本(Intel Capital)提供未公开金额资金支持的初创 …
【五号雷达-数据快讯】Zyda - 包含1.3万亿Token的开源预训练数 …
Zyda数据集是由Zyphra公司创建的一个大型语言模型预训练数据集。 该数据集通过整合多个开源数据集并进行深度处理来构建,包含了1.3万亿Token,其质量接近商业语料。
- 某些结果已被删除