具体来讲,xLSTM 7B 模型基于 DCLM 数据集,使用 128 块 H100 GPU,在 8192 上下文长度下训练了 2.3 万亿 token。研究者对原始 xLSTM 架构进行了改进,确保训练效率和稳定性,同时保持任务性能。新架构依靠 mLSTM 单元和并行训练模式,实现高性能的同时最大化速度。
长文本评估与微调 研究者将 xLSTM 与几种基线模型进行了比较:作为 Transformer 基线的 Llama 2 7B(未进行长文本微调)和 Llama 3.1 8B(已进行长达 131K 词 ...
在科技日新月异的今天,人工智能领域迎来了又一重大突破。近日,国内知名互联网安全公司360集团宣布其最新研究成果——Light-R1-14B/7B模型正式对外开源,此举无疑为整个AI界注入了一剂强心针。这不仅仅是一次简单的技术分享,更是开启了端侧AI平权的新时代。
7B大小的视频理解模型中的新SOTA,来了! 它就是由达摩院出品的Video LLaMA 3,以图像为中心构建的新一代多模态视频-语言模型。 在通用视频理解 ...
在3月27日的科技界清晨,阿里巴巴掀起了AI领域的一场革命,正式发布并开源了他们的首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B。这款模型具备处理文本、图像、音频以及视频等多种输入能力,能实时生成文本和自然语音输出,标志着AI系统在综合处理能力上的历史性突破。
导语:截至目前,海内外AI开源社区中千问Qwen的衍生模型数量突破10万,超越美国Llama系列模型,是公认的全球第一开源模型。 3月27日凌晨,阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B,可同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。在权威的多模态融合任务OmniBench等测评中,Qwen2.5-Omni刷新业界纪录,全维度远 ...
端侧小型语言模型新星——SmolLM2 1.7B击败了Qwen 2.5 1.5B和Llama 3.2 1B: Apache 2.0许可 训练于11万亿个令牌 在FineWeb-Edu、DCLM、The Stack以及新的数学和编码 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果