AIbase产品库 - 第77页

重新定义多模态AI！智源发布原生多模态世界模型Emu3

52

北京智源人工智能研究院宣布推出原生多模态世界模型Emu3。这一模型基于下一个token预测技术，无需依赖扩散模型或组合方法，就能够完成文本、图像、视频三种模态数据的理解和生成。Emu3在图像生成、视频生成、视觉语言理解等任...

47

近年来，人工智能（AI）在医疗行业的影响越来越显著，特别是在疾病诊断和治疗规划方面。医学大型视觉语言模型(Med-LVLMs 的发展，为实现更智能的医疗诊断工具提供了新的可能性。然而，这些模型在实际应用中，常常面临一个不容忽...

61

一项由以色列理工学院主导的最新研究表明，大型语言模型（LLM）可能“深藏不露”，掌握的知识比实际表现出来的更多。研究人员发现，LLM 的内部表征编码了关于其输出正确性的信息，即使它们最终生成了错误的答案，也能在内部识别出正确...

49

近日，人工智能搜索引擎初创公司 Perplexity AI 宣布，希望在即将进行的新一轮融资中将自身估值提升到约90亿美元。根据 CNBC 的报道，这家公司的估值在今年6月时为30亿美元，而他们目前计划筹集大约5亿美元的资金...

41

阿里巴巴达摩院与中国人民大学近日联合开源了一款名为 mPLUG-DocOwl1.5的文档处理模型，该模型主打无需 OCR 识别即可理解文档内容，并在多个视觉文档理解基准测试中取得了领先的性能。结构信息对于理解富文本图像（例如...

46

在构建以人工智能为核心的未来时，Gusto的联合创始人兼技术负责人Edward Kim提出了一个与众不同的观点。他认为，削减现有团队并雇佣一批经过特别训练的AI工程师并不是正确的做法。Kim在与TechCrunch的一次访谈...

42

就在今年的 WWDC 大会上，苹果展示了一些 AI 新特性，虽然这些功能吸引了许多用户的目光，但据业内分析师称，苹果实际上在 AI 技术的发展上落后于竞争对手约两年。相较于谷歌、微软等公司，苹果在 AI 技术的应用上明显慢了...

57

Midjourney 的创始人 David Holz 宣布，一款全新的图像编辑器将在下周上线，这款编辑器的亮点在于它能够利用上传图像的深度信息来生成新的图片。这意味着用户可以保留原始图像的构图和内容，同时对纹理、颜色和细节进...

37

据《书商》报道，图书出版商企鹅兰登书屋正在以印刷形式表明其对人工智能训练的立场。新书和再版书籍的标准版权页现在将写明:“本书的任何部分不得以任何方式用于或复制用于训练人工智能技术或系统。 ”这意味着企鹅兰登书屋不允许任何人将...

51

字节跳动近期针对“实习生破坏大模型训练”的传闻进行了官方回应。该公司确认，确实有一名实习生恶意干扰了商业化技术团队的研究项目模型训练任务，但这一行为并未影响到公司的正式商业项目和线上业务，也没有涉及到字节跳动的其他大型模型业...