请在Chrome、Firefox等现代浏览器浏览本站。另外提供付费解决DEDE主题修改定制等技术服务,如果需要请 点击 加我 QQ 说你的需求。

第一个统一的图像和视频AIGC可解释性检测框架,多语言性能SOTA

每日一贴 bat365在线平台官网 评论

想象一下:在社交网络上航行,观看令人印象深刻的照片和令人印象深刻的视频。这是真实的,富裕的细节,你无能为力

想象一下:在社交网络上航行,观看令人印象深刻的照片和令人印象深刻的视频。它是真实的,丰富的细节,并使您相信它。但是它是真实的记录,还是顶级AI仔细选择的“杰作”?如果AI工具告诉我们这是“错误的”,您能否更多地解释为什么?您能清楚地指出图像的非理性光和阴影,或者在视频中闪烁时的缺陷吗? “很难说出真相”和“不是原因,也不是原因”的困境是面临当今AIGC时代的严重挑战。随着AI产生的内容变得越来越现实,传统的“黑匣子”检测工具无法再满足其透明度和可靠性需求。迫切需要的是一个智能检测系统,可以同时处理图像和视频并提供“诊断报告”。因此,本文档提出了“常春藤假货:统一的可解释图像和AIGC视频检测框架和参考POINTS。 “目标不仅是虚假的:图像和视频的统一解释性框架和参考点AIGC检测项目黑色!索拉哈斯塔i See3,这些强大的生成模型不仅开放了美国无限的创造力,而且还为我们内容的真实性和完整性提供了认真的证据,以表明我们的内容的真实性和完整性。诸如虚假信息,内容可怜性和公众信心越来越多地识别范围内的范围和诸如越来越多的背景。 AIGC。伪造您能完全相信这个决定吗?此外,现有的研究通常会将图像和视频的检测分开,并且没有同时处理两种方式的内容的统一框架。毫无疑问,这增加了研究和应用的复杂性。研究人员基于这些问题提出了错误的常春藤,其核心目的是在更统一和可解释的方向上促进对AIGC的检测。 2。中心问题:现有研究人员的方法和野心的瓶颈主要面临以下核心检测出现之前的核心挑战:AIGC。 2。模态不一致:图像的检测和视频的检测通常是独立的研究领域,缺乏可以同时有效处理两个的统一模型。 3。分散标签:许多数据集仅提供二进制标签,并且没有自然语言的详细标签来支持可解释性tudies。多样性不足:某些数据集在发电机的多样性和内容方案的覆盖范围中遇到了弱点,这阻碍了对检测模型的概括的彻底评估。面对这些挑战,作者旨在回答以下重要问题:图像和视频,我们是否可以设计一个统一的视觉语言模型,不仅可以准确地检测AIGC的痕迹,而且还提供了合理的解释? 3。该方法的摘要:结合常春藤数据集和常春藤 - Xdector模型。为了系统地解决上述问题,研究人员提出了两个核心贡献:一个大规模的IVY错误的解释性数据集和一个统一的Ivy-Xdector检测和解释模型。 1。常春藤假货:构建对参考里程碑AIGC检测的解释。大型和多模式:包括超过150,000个得分的培训样品(94,781张照片和54,967个视频OS)和大约18,700个评估样本(每种模态的8,700多个)。该内容涵盖了各种类别,例如动物,物体,肖像,场景,文档,卫星和deepfark图像。丰富的解释注释:与仅提供二进制标签的先前数据集不同,常春藤假货的每个样本都带有详细的自然语言推断过程,该过程解释了为什么正在检查它。它是真实的或AI发生的。几个数据源:涵盖由各种常规AIGC体系结构(例如GAN,扩散模型和变压器)生成的内容,结合了来自真实场景的数据。数据源包括公共参考数据集(例如Genvideo,Loki,Fakeclue,Wildfake)和网络上的总内容,以确保守时和传播。结构化注释的产生:研究人员使用Gemini 2.5 Pro(一种领先的多模式模型)通过知识蒸馏过程生成结构化和可解释的结果SS。特别是,他们使用结论标签来指导模型首先解释推理过程,然后做出最终判断。还提供了标签期间的可靠性标签,从而允许该模型解释分类的原因。详细特征的维度:解释还包括空间特征(包括八个细分性,例如不切实际的照明,局部模糊和难以辨认的手写)和临时特征(亮度差异,非自然的面部表情和重复性。通过多模型模型(MLLM)和特定的快速单词来处理不同字段的视频,以通过时间和空间分析生成结构化和可解释的标签信息。假显示了数据大小,模态覆盖范围,尤其是平均令牌标签长度的明显优势。 2。IVY-X??DETORTOR:统一的AIGC检测和解释体系结构基于假IVY数据集。研究人员提出了IVY-X??DETECTOR模型,这是一种领先的多模式模型,旨在进行健壮且可解释的AIGC检测。模型体系结构:根据Thellava范式初始化Ivy-Vl-llava Pesos。它的中央组件包括:Visualencoder:使用Siglip处理入口图像和视频帧。投影仪视觉(视觉投影仪)大语言模型(LLM)关键技术:动态分辨率处理:对于高分辨率图像,它将在多个子图384x384中进行细分,输入编码器,并且有效的输入分辨率可以达到2304x2304。保留时间信息:对于视频输入,视频功能不是时间压力,而是所有盒子功能均已剪接并输入LLM以保留时间信息。进行性多模式训练:发行生成能力是旨在逐步改善模型检测和调整的步骤优化策略。阶段1:一定要理解视频。初始化是使用Ivy-Vl-llava(图形参考点的SOTA,但我没有视频数据的经验)进行初始化。培训大约300万个视频文本对(例如VideoChatflash,Videlama3)为您提供基本的视频理解模型。第2阶段:AIGC检测精细调整。使用Demamba,Fakeclue,Wildfake和其他数据集比较专门用于精细调整说明的目标数据集。中心目标是训练MLLM进行二进制歧视AIGC(“ true”或“ false”)。阶段3:基于说明的检测和可解释性的联合优化。将第2阶段的AIGC检测数据与最近聚集的指令数据相结合,重点是协作培训的解释性。此阶段的说明是Designed指导模型并生成详细的推理过程并逐步生成。通过这种进步的三阶段培训,常春藤XDECTOR可以系统地开发整合性的idades来识别微妙的AIGC设备,从而创建精确的分类并阐明一致和理性的解释。 4。实验结果:多维验证,SOTA研究人员对多个参考点中常春藤 - XDETOR检测和解释能力进行了广泛的评估。 1。基因成基准图像内容分类:它包含八个常规发电机的子集,包括Midjourney,稳定的扩散等等。 (可解释的版本)也达到97.29%。在Biggan等子集中,这种改进尤其明显,这表明了新的参考点的好处。表2:基因学数据集的比较(Zhu等,2023b)。通过识别differe的真实图像和锻造图像,不同检测器(行)的精度NT发电机(列)。最好的结果以大胆标记,而以下最佳结果则标有下划线。变色龙的基准:与10种检测方法相比,IVY DET和IVY-X??DET的一般精度率分别达到85.20%和83.39%,远高于前部65.77%。表3:变色龙数据集的比较(Yan等,2025)。通过识别真实图像和锻造图像(%)来确定不同检测器(行)的精度。对于每组训练数据,前排表示一般精度,第二行代表“ Forge/Real”类别的精度。 2。数据集Genvideo视频内容分类:这是当前生成视频检测的最大参考点。在大多数一代来源中,IVY-DET和IVY-X??DET达到99%或更高的精度(F1分数)。特别是在最具挑战性的“热门”子集中,常春藤的恢复率达到99.57%,而最佳先前方法仅为65.43%。表4:与Genvideo进行比较。许多通用任务的F1分数(F1),恢复(R)和平均精度(AP)。其中,“ Demamba-Xclipff”缩写为“ Demamba”。 3。研究人员的推断(解释)研究人员将IVY-X??DET与多个开源源(QWEN2.5-7B,IntenVL2.5-8B)和封闭源(GPT-4V,Gemini 2.5 Pro)MLLM与完整的错误错误数据集进行了比较。评估指标包括Rouge-l和LLM -AS-A ----------------------- v-vision,相关性,细节级别和解释质量。图像推断:Ivy-XDET通常准确地领导(0.805),胭脂-L(0.271)和GPT辅助资格的平均得分(4.40/5)。视频推断:Ivy-XDET的效果也更好,精度为0.945,Rouge-L 0.303,GPT辅助等级的平均得分为3.86/5。表5:图像和视频任务模型的比较。 “自动”包括Precision(ACC),F1分数,Rouge L和Simility(SIM)。 “ GPT协助评估”包括四个主观标准:包含,相关性,细节,描述及其平均得分。这些结果表明,常春藤 - XDETECTOR不仅以检测准确性实现了SOTA,而且比产生自然语言解释的其他质量参考模型明显优于。 5。主要结论和含义:朝着透明且可靠的AIGC分析,这项研究为AIGC检测领域带来了一些重要的进步:1。常春藤假的先锋性质:首次提出了一套大型,统一的视频模式数据。这为后续研究提供了坚实的基础。 2。Ivy-Xdetor Excellator的性能:语言检测器vunified Isual formused提供了带有多个AIGC检测点和解释性参考的木薯性能。 3。促进可解释性的发展:这项工作通过引入自然语言的解释和结构化的推理过程来强烈促进AIGC将“黑匣子”到“白盒”的设置提高模型的透明度和可靠性。 4。统一框架的价值:统一图像和AIGC视频检测框架的构建是可行的,并证明它可以实现出色的性能。对于行业而言,此任务意味着将来,预计它将实施最可靠和最易于理解的AIGC内容审查工具。这对于打击错误的信息和保护数字内容生态系统非常重要。对于研究人员,常春藤伪造的数据集和常春藤XDector模型打开了NUEVA途径,以研究最深的解释性和最强大的检测算法。 6。案例分析本研究还为不同大型模型中的多模式内容提供了详细的错误检测案例。 7.未来的观点:共存的挑战和机遇是常春藤 - 福克和常春藤 - Xdetor迈出了很好的步骤,但值得探索更多。 1。模型效率和时间模式LING:当前的局限性可能导致模型在时间维度中减少,例如更高的空间令牌负载。未来的工作可以探索更有效的空间建模方法和更强大的时间一致性机制。 2。美人文物的位置和解释:自然语言的解释已经很有价值,但是结合了工件的更精确的定位(例如,通过热图或有限的盒子突出可疑区域),这样我们甚至提供了直观的评论。 3。对手和鲁棒性攻击:随着AIGC技术的发展,生成模型可以产生更困难的检测工件。不断评估和改善模型对抗攻击的鲁棒性很重要。 4。“这条路线是1个最高脚,魔鬼是1个较高的“循环”脚:正如文档的“更广泛影响”部分中提到的,检测技术的开发也可以用来更有力地训练生成模型和POWErful。如何在此游戏中保持其主要检测技术是一个长期的挑战。 5。中断多模式融合:当前,模型主要基于视觉信息。可以研究多模式信息的集成,例如文本和音频进行协作检测和解释,以解决更复杂的AIGC方案。毫无疑问,对AIGC含量的检测和解释性的研究领域有重要贡献。它们不仅为我们提供了强大的参考工具和点,而且还指示了未来研究的方向。我们希望基于这项工作看到更多的跟进研究,以协作促进AIGC技术的稳定和可靠的发展。
喜欢 (0) or 分享 (0)
发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论