Zyda mm - 搜索

约 348,000 个结果

在新选项卡中打开链接

时间不限

selectdataset.com
https://www.selectdataset.com › dataset
Zyda - 包含1.3万亿Token的开源预训练数据集|语言模型数据集|预 …
Zyda数据集是由Zyphra公司创建的一个大型语言模型预训练数据集。该数据集通过整合多个开源数据集并进行深度处理来构建，包含了1.3万亿Token，其质量接近商业语料。
arxiv.org
https://arxiv.org › abs
Title: Zyda-2: a 5 Trillion Token High-Quality Dataset - arXiv.org
2024年11月8日 · Zyda-2 was used to train our Zamba2 series of models which are state-of-the-art for their weight class. We build Zyda-2 by collating high-quality open-source tokens such as …
arxiv.org
https://arxiv.org › abs
[2406.01981] Zyda: A 1.3T Dataset for Open Language Modeling
2024年6月4日 · In this paper, we introduce Zyda (Zyphra Dataset), a dataset under a permissive license comprising 1.3 trillion tokens, assembled by integrating several major respected open …
huggingface.co
https://huggingface.co › datasets › Zyphra
Zyphra/Zyda-2 · Datasets at Hugging Face
Disk Utility's built-in repair commands are merely a GUI front-end for fsck and fsck_hfs.
selectdataset.com
https://www.selectdataset.com › dataset
Zyda-2|自然语言处理数据集|预训练数据集数据集
2024年11月9日 · Zyda-2是由Zyphra机构创建的一个包含5万亿Tokens的高质量数据集，旨在用于语言模型的预训练。该数据集汇集了如FineWeb和DCLM等高质量的开源数据源，并通过交叉 …
5radar.com
https://www.5radar.com › dataopensource › news
Zyphra 发布 Zyda-2 数据集, 应用在自然语言处理、预训练数据集
2024年11月13日 · Zyphra 本次发布的数据集 Zyda-2, Zyda-2是由Zyphra机构创建的一个包含5万亿Tokens的高质量数据集，旨在用于语言模型的预训练。该数据集汇集了如FineWeb …
dian8dian.com
https://www.dian8dian.com
Zyphra 的新 Zyda-2 数据集可让企业以高精度训练小型 LLM
2024年10月19日 · Zyphra Technologies是一家致力于开发多模式代理系统的公司，该系统结合了下一代状态空间模型架构、长期记忆和强化学习方面的先进研究，该公司刚刚发布了 Zyda …
selectdataset.com
https://www.selectdataset.com › dataset
Zyda|大型语言模型数据集|数据预处理数据集
Zyda是由Zyphra创建的一个包含1.3万亿tokens的大型语言模型预训练数据集。该数据集整合了多个高质量的开源数据集，通过严格的过滤和去重过程，确保数据质量。
niutoushe.com
https://www.niutoushe.com › lives
Zyphra推出具备1.3T tokens的大模型训练数据集Zyda - 牛透社
牛透社消息：6 月 7 日，初创公司 Zyphra 推出人工智能训练数据集 Zyda，旨在帮助研究人员构建大型语言模型（LLM）。这家由英特尔资本（Intel Capital）提供未公开金额资金支持的初创 …
5radar.com
https://www.5radar.com › dataopensource › news
【五号雷达-数据快讯】Zyda - 包含1.3万亿Token的开源预训练数 …
Zyda数据集是由Zyphra公司创建的一个大型语言模型预训练数据集。该数据集通过整合多个开源数据集并进行深度处理来构建，包含了1.3万亿Token，其质量接近商业语料。
某些结果已被删除
分页
- 1
- 2
- 3
- 4
- 5
- 下一页

Zyda - 包含1.3万亿Token的开源预训练数据集|语言模型数据集|预 …

Title: Zyda-2: a 5 Trillion Token High-Quality Dataset - arXiv.org

[2406.01981] Zyda: A 1.3T Dataset for Open Language Modeling

Zyphra/Zyda-2 · Datasets at Hugging Face

Zyda-2|自然语言处理数据集|预训练数据集数据集

Zyphra 发布 Zyda-2 数据集, 应用在自然语言处理、预训练数据集

Zyphra 的新 Zyda-2 数据集可让企业以高精度训练小型 LLM

Zyda|大型语言模型数据集|数据预处理数据集

Zyphra推出具备1.3T tokens的大模型训练数据集Zyda - 牛透社

【五号雷达-数据快讯】Zyda - 包含1.3万亿Token的开源预训练数 …