这表明,尽管测试人员能够成功地区分人类与ELIZA,但他们在与GPT-4.5-PERSONA和LLAMA-PERSONA比较时,无法可靠地识别出人类。
在数字经济迅速发展的当下,大语言模型(LLM)正推动个性化推荐系统的变革。最近,淘天团队推出了一项具有开创性的问答基准——UQABench,旨在基于用户表征来优化个性化问答系统,为用户带来更贴合需求的服务。随着超高效科技的飞速发展,如何通过用户表征提升推荐效果已成为行业迫切需要解决的挑战。
在梗图评估阶段,又招募了100人,同样要求英语好,但不要求有使用LLM的经验。最后有98人完成了任务,这组人男女比例差不多,平均年龄32.6岁,来自29个不同国家。
UQABench的推出,是为了破解当前推荐系统面临的效率与效果的双重挑战。随着用户在线行为的不断增加,如何将这些数据有效利用,成为了行业的关键。以往的方案虽然在某种程度上能提高推荐的相关性,但却存在诸多难题,例如用户行为序列过长导致的计算瓶颈和信息噪声。通过将用户行为转化为高密度的表征向量,UQABench为用户行为提供了更灵活的操作方式,创新性地推动了个性化问答的发展。
14 天
人人都是产品经理 on MSN言变图的“LLM时刻”,还有AI全家桶,Google杀疯了在AI的世界里,谷歌一直像是那个憋着大招的“学霸”,虽然之前在大模型的风潮中似乎慢了半拍,但最近它直接祭出了“全家桶”,把大家惊得目瞪口呆!开源模型、AI文生图、机器人AI模型……每一项都像是在说:“看我的厉害!”这篇文章就是这场AI盛宴的“菜单”,带你一探谷歌到底有多“杀疯”! 对于Google来说,作为Transformer等核心技术的发明者,在“AI 4巨头”的讨论中没有它,是一件很尴尬的事 ...
通过无缝集成推测式解码,OpenVINO™ 让开发者能够专注于构建高效、优质的 AI 体验,同时最大程度降低计算负担。在理想情况下,草稿模型的预测完全符合主模型的预期,使得验证过程可以在单次请求内完成。这种协作方式不仅提升了性能,还有效减少了资源消耗 ...
Preface前言杨松琳专注于线性注意力机制、机器学习与大语言模型交叉领域,聚焦高效序列建模的硬件感知算法设计,围绕线性注意力、循环神经网络优化开展研究,并取得多项研究成果,多篇论文被 ICLR 2025、NeurIPS 2024 等顶会收录。此外,她还开源了 Flash-Linear-Attention 项目,已在 GitHub 拥有 2k ...
现在的gap在于:显然北美这条路出成果没这么快,而国内ai叙事(还有考虑到我们的文化和商业环境)出成果很快,毕竟国人比较务实,成本要算得过来,朱xh不是说了嘛,ai会议纪要就能一个月赚几千万,这种ai应用需要毛线NV Rubin。
2025年3月,蚂蚁集团首次公开回应投资布局调整,将资金从成熟项目转向大模型、AI算力、具身智能等前沿领域。蚂蚁集团通过减持奥比中光(套现5.56亿元)与永安行(套现2.19亿元)两家上市公司,累计回收资金超7.75亿元,这是基于“AI ...
这项里程碑式研究首次系统绘制GenAI在用药安全领域的技术图谱,揭示出两大突破性发现:GAN在数据稀缺场景的卓越表现,以及LLM的通用任务处理能力。但作者团队强调,当前技术存在三重鸿沟——缺乏前瞻性验证、标准化评估体系及伦理审查框架。特别是发现LLM在疼痛管理等场景存在潜在危害性偏见,敲响临床部署的警钟。
10 天
知乎专栏 on MSNByteScale:在超过12,000个GPU上实现2048K上下文长度的LLM训练高效扩展年前,我们在做长文支持时,就有思考,为什么现在的大规模分布式训练系统(预训练)都是基于限定长度的seqlen,即使在多个长文的支持时,也是通过不同的训练任务来通常重载checkpoint去增强相关能力。为什么一定要如此整齐的数据,从样本层面的话,一定 ...
以AI图像生成技术闻名遐迩的Midjourney,正悄然展现其在人工智能领域的更广阔野心。这家拥有庞大用户群体的科技公司,在自研计算和AI硬件的消息之后,近期携手纽约大学(NYU)的机器学习专家,发布了一项关于训练文本生成大语言模型 (LLMs)的最新研究成果。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果