Llama 7B - 搜索 News

15 天

原作者带队再次改造xLSTM，7B模型速度最快超Mamba 50%，权重代码全开源

具体来讲，xLSTM 7B 模型基于 DCLM 数据集，使用 128 块 H100 GPU，在 8192 上下文长度下训练了 2.3 万亿 token。研究者对原始 xLSTM 架构进行了改进，确保训练效率和稳定性，同时保持任务性能。新架构依靠 mLSTM 单元和并行训练模式，实现高性能的同时最大化速度。

新浪网15 天

原作者带队再次改造xLSTM，7B模型速度最快超Mamba 50%，权重代码全开源

长文本评估与微调研究者将 xLSTM 与几种基线模型进行了比较：作为 Transformer 基线的 Llama 2 7B（未进行长文本微调）和 Llama 3.1 8B（已进行长达 131K 词 ...

19 天

全面开源！360 Light-R1-14B/7B开启端侧AI新时代

在科技日新月异的今天，人工智能领域迎来了又一重大突破。近日，国内知名互联网安全公司360集团宣布其最新研究成果——Light-R1-14B/7B模型正式对外开源，此举无疑为整个AI界注入了一剂强心针。这不仅仅是一次简单的技术分享，更是开启了端侧AI平权的新时代。

来自MSN1 个月

达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩

7B大小的视频理解模型中的新SOTA，来了！它就是由达摩院出品的Video LLaMA 3，以图像为中心构建的新一代多模态视频-语言模型。在通用视频理解 ...

8 天

阿里全模态大模型Qwen2.5-Omni震撼发布，7B参数引领AI新纪元！

在3月27日的科技界清晨，阿里巴巴掀起了AI领域的一场革命，正式发布并开源了他们的首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B。这款模型具备处理文本、图像、音频以及视频等多种输入能力，能实时生成文本和自然语音输出，标志着AI系统在综合处理能力上的历史性突破。

雷峰网8 天

阿里开源首个全模态大模型Qwen2.5-Omni，7B尺寸实现全球最强性能

导语：截至目前，海内外AI开源社区中千问Qwen的衍生模型数量突破10万，超越美国Llama系列模型，是公认的全球第一开源模型。 3月27日凌晨，阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B，可同时处理文本、图像、音频和视频等多种输入，并实时生成文本与自然语音合成输出。在权威的多模态融合任务OmniBench等测评中，Qwen2.5-Omni刷新业界纪录，全维度远 ...

来自MSN4 个月

端侧小模型新星，SmolLM2 1.7B击败了Llama 3.2、Qwen 2.5

端侧小型语言模型新星——SmolLM2 1.7B击败了Qwen 2.5 1.5B和Llama 3.2 1B： Apache 2.0许可训练于11万亿个令牌在FineWeb-Edu、DCLM、The Stack以及新的数学和编码 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果