数字经济的安全基石

业内首个落地的自主安全智能体(AI Agent),预置数百个原子级安全智能体,革命性采用任务驱动多智能体协同模式。
恒脑安全智能体以硬核实力为网络安全、数据安全保驾护航。让工具更睿智,让知识更智慧,让安全更智能!

融合人工智能与网络安全的专业服务体系,为企业提供全方位的Al安全咨询、威胁检测、安全运营等一站式解决方案,让安全防护更智能、更高效、更可靠。





行业解决方案
技术解决方案
全生命周期安全防护,智能体驱动效能提升,场景化联动管控。
多云一体、融合安全、闭环运营
多场景应用提升安全运营能力
安全态势感知与管控
全方位守护工业信息网络安全
AI数据分类分级,让分类分级快人一步!
HVV利器,即日起,免费试用三个月!
有效实现数据“供得出、流得动、用得好、保安全”的数据流通利用基础设施
7×24 小时全维度托管模式实现企业网络安全无忧化管理,全方位满足企业业务安全运行与合规监管的双重需求。
场景解决方案
构建大模型全生命周期防护架构,强化多维度安全能力
对本地AI服务提供者开展日常监督、备案审查工作
智算全栈安全方案,算网安协同,合规高效
监控感知应急全套流程的安全监管机制
安全意识教育解决方案
一站式意识教育解决方案









The Web Conference (WWW) 是计算机科学领域中聚焦Web技术、信息检索、数据挖掘与智能应用的顶级国际学术会议之一,在Web搜索、推荐系统、知识图谱、社交网络分析以及大规模数据系统等方向具有深远的学术影响力。WWW与SIGIR、KDD等会议并列,被认为是Web与数据智能领域的代表性高水平会议之一,属于CCF推荐A类会议。WWW对论文的创新性、技术深度与实验完整性要求较高,强调问题建模的现实意义、方法设计的合理性以及在真实或大规模数据上的充分验证。WWW2026共收到3370篇有效投稿,其中676篇被正式录用,整体录用率约为20.1%。
随着生成式人工智能和大语言模型的快速发展,合成数据已成为模型训练和适配中缓解数据获取成本与隐私风险的重要手段,被广泛应用于大模型微调与下游任务优化。然而,近期研究表明,当模型在高比例合成数据条件下反复学习自身生成内容时,容易出现模型坍缩(model collapse)现象,即模型学习到的数据分布逐渐收缩,稀有但关键信息丰富的长尾语义被持续削弱,从而显著影响模型在复杂场景和长尾任务中的泛化能力。
这一问题在实际应用中尤为突出:一方面,真实数据往往受到隐私保护、采集成本或合规要求的限制,难以大规模获取;另一方面,现有合成数据生成方法多偏重于表层多样性,难以系统性覆盖真实数据分布中被持久忽视的稀疏语义区域,导致生成数据在语义层面与真实分布逐渐偏离。如何在不增加额外隐私风险和计算成本的前提下,从数据生成阶段有效缓解分布收缩、增强长尾语义覆盖,成为合成数据研究中亟待解决的关键问题。

基于上述动机,该工作聚焦于分布对齐的合成文本生成问题,提出了一种面向长尾语义增强的合成数据生成框架DASGen。该方法通过识别真实数据分布中持久被忽视的稀疏语义区域,并在生成阶段定向补全这些长尾语义,从而提升合成数据的语义覆盖度与多样性,降低模型坍缩风险并增强下游模型的泛化能力。具体而言,DASGen 在嵌入空间中对真实或参考数据进行轻量级分析以定位长尾语义区域,并在无需微调模型的前提下,引导大语言模型生成分布对齐的合成文本。该方法模型无关、部署成本低且隐私友好,为大规模合成数据场景下的模型训练提供了切实可行的技术路径。

在大模型时代,数据质量决定了人工智能的上限。本次入选WWW 2026 的成果 DASGen,标志着安恒信息在高质量合成数据生成领域取得了突破性进展:证明了通过精准捕捉和增强稀缺的“长尾语义”,可以生成分布对齐的高保真数据,甚至可以优化合成数据常引发的“模型坍缩”这一行业难题。我们将这一通过顶级学术会议验证的核心能力融入“数由空间”,旨在为客户提供不仅“量大”而且“质优”的数据燃料,从源头保障大模型的鲁棒性与泛化能力,确保持续、高价值的数据供给。


