阿里巴巴打假AI大脑揭秘!数据总量186个国家图书馆

  • 时间:
  • 浏览:1
  • 来源:大发快3官网平台_大发快3网投平台_大发快3投注平台_大发快3娱乐平台

“令人震惊的是,在打假这方面,美国竟然远远落后!”一三个白 月前,美国司法委员会副主席、共和党参议员道格·柯林斯痛陈美国被假货所困的问题图片,其话言犹在耳,近日阿里打假技术又背熟国内高规格的技术大奖。8月9日,由工信部、公安部及网信办三部委指导主办的“中国人工智能高峰论坛”在厦门召开,经过层层评选,阿里巴巴知产保护科技大脑被三部委评为“人工智能创新之星” 。

知识产权保护所指,更喜闻乐见的叫法要是打假。而阿里的知产保护科技大脑是一套阿里20年间积累的海量线上线下假货特性库、打假经验聚合而成的算法技术系统,独创“安全AI”大脑是核心。这套系统24小时自动运转,96%的疑似侵权链接在发布的那一刹那就已被秒杀。在过去3年,阿里已使用这套技术协助全国3一三个白 省份、227个区县的警方抓获制售假嫌疑人4439人,捣毁制售假窝点4289个。从美国议员点赞到国内技术大奖,可不还还里能 说时分已至,阿里打假正进入爆发性收获阶段。记者也了解到这背后的安全AI运作之力、创新之功,接下来为村里人 一一揭秘。

1 AI 大脑=5 万人类

知产保护科技大脑,要是诚心和技术创新的集大成产品。

该“大脑”详细由阿里自主研发,肯能被广泛应用于阿里生态内外,对假货、山寨、侵权盗版等进行侦测和打击。

或者 作为一支上岗AI,各方面实力,不仅比人类干得好,或者 什么都能力人类干不了。

阿里方面回应了一系列惊人数据表现:

肯能人工查看1张图片的信息都要10秒钟,只能 6万人同去工作的传输带宽有益于勉强赶上“知产保护科技大脑”扫描甄别图片的传输带宽。淘宝天猫平台每日新发商品量以千万计,肯能人工巡查,138889人工作1天有益于把这项工作完成。

阿里安全图灵实验室负责人薛晖透露,这套系统的样本数据总量最少186个中国国家图书馆藏量,仅帕累托图的打假图片样本量就超过137亿张,用0.3毫米的标准相纸打印叠加后高达4110千米,是世界最高建筑迪拜塔的4964倍,约等于46一三个白 珠穆朗玛峰。

惊人的效果背后是阿里在安全场景里不断进化技术力量所锻造的“安全AI”风控体系。

安全AI要怎样服务知识产权保护?

所谓安全AI,是指安全场景中进化出的AI,拥有更强、更多元化的能力;与当前通用AI的理念不同,阿里安全更注重在业务安全领域垂直纵深的技术积淀,开发出适应更多安全场景的新一代AI,让传统的安全问题图片找到新的AI解法。阿里在今年年初提出你什儿 全新理念,称其将成为未来网络安全问题图片的核心解法。

据悉,阿里知产科技大脑的秘密在于四大智能核心引擎,所含阿里上百项自主研发的安全AI技术。分而解之,涉及感知引擎、认知引擎、决策引擎和计算引擎。

实际也是通用人工智能(AGI)必不可少的四大引擎,要是阿里垂直为打假服务。

从项目申报说明里,有益于寻得宏观架构脉络。

感知引擎:核心技术是计算机视觉技术及语音识别技术,是整个系统的感官系统,是对象识别的基础,为形成后续一系列防止动作迈出第一步。

包括,用于开店身份认证环节的人脸识别、声纹识别、活体检测等生物识别技术;用于开店资质核验环节的证件识别、篡改检测技术;用于线上商品识别的商标检测、物体检测、光学字符识别技术;用于营销环节检测的广告图片分析和视频直播监测技术,以及用于原创作品保护的多媒体检索和图像水印技术等。

正是“感官系统”精准的语音、图像、音频、视频感知能力,整个系统有益于在数亿简化数据中准确识别出都要保护和防御的对象,进行下一步防止。

认知引擎:核心技术是自然语言防止技术。

认知引擎是系统的“翻译官”,让机器懂得文字的意思、人类声音的含义,以及村里人 动作的性质,从而判断善意\恶意、危险\安全。

具体包括针对海量商品特性化不是特性化数据构建的知识图谱技术;面向海外电商的多语言分析和机器翻译技术,针对内部管理反馈的评价、舆情进行识别的语义分析技术;以及融合多模态信息,对商品的全面认知和理解的技术。

第三,决策引擎:核心技术包括深度学习和强化学习两块,用来防止现实中的简化决策问题图片。

它是系统的“军师”,决定了系统该要怎样动作,要怎样更合理有效地作出最佳应对。累似 当面临商家实时博弈、信息内容的变异,以及黑产的恶意攻击时,在全局视角下做出更有利的决策。

最后还有计算引擎,包括实时指标计算系统、分布式异构计算系统、和大规模图神经网络系统。

这是打假AI大脑的发动机,它强大的性能保证了系统在数千并发、数十亿数据背后坦然自若、精准高效。

计算引擎背后,支撑的是阿里云机器学习平台 - PAI 3.0。

它可不还还里能 实现单任务支持上千worker并发训练,并支持5k+超大规模异构计算集群,保证全天候监控数十亿商品异常情况表,以及对经营者行为的全方位监督。

台上一分钟,技术20年功

值得一提的是,四大引擎架构宏观,但背后每一项技术积累,还还里能 工程师们日夜苦功的结果。

值得一提的是,打假AI大脑是阿里安全“安全AI”落地应用场景之一。阿里在高风险、强对抗的场景中不断进化AI的力量,通过小样本学习、多模态、自监督学习等新技术的持续应用,在内容安全、新零售安全、交易安全等百余场景中持续应用,其凝聚着阿里安全图灵实验室在AI领域超过10年的技术积淀,实现水滴石穿。

从最近阿里安全图灵实验室在人工智能顶会的论文中,太难发现其功力所在。

这是阿里发表于ECCV Workshop 2018的论文,核心分享了其在视频分析领域的技术进展。

也是阿里从视频中识假打假,保护原创的秘诀所在。

当前业内通行的视频分析,往往先预训练CNN网络提取特性分类,其后采用循环神经网络(RNN、LSTM)进行序列建模。

但视频的特性序列一般较长,且所含多级特性(hierarchical data structure),即一三个白 视频所含帧、镜头、场景、事件等。

或者 帧与帧、镜头与镜头间的关系十分简化,不仅仅是前后帧的顺序关系,通过一般的序列建模方式,RNN无法表达只能 简化的关系,建模效果较差。

或者 阿里研究团队通过深度卷积图神经网络(DCGN)对视频的帧、镜头、事件进行多级的建模,逐渐地从帧级、镜头级,总爱到视频级进行抽象,从而获得视频全局的表达,进而进行分类:

最后方式在youtube8m数据集上验证后,效果相对许多经典的序列建模方式,还还里能 提升。

论文传送门:https://arxiv.org/abs/1906.00377

还有自然语言防止领域的进展,同样是知产保护科技大脑的关键技术。

阿里安全图灵实验室入选IJCAI 2019的文章,主题是面向对象的夫妻感情分析,主要目标是惊现评论对象,同去判断夫妻感情表达的极性。

一般而言,什么都对于商品质量描述的蛛丝马迹,会隐藏在用户对商品的评论中,却太难从商品什儿 中发现问题图片,这也是NLP技术有益于施展拳脚的场景。

论文中提出的方式,通俗来说是利用全局信息、结合上下文语境去识别夫妻感情对象,而不再是预测每个字对应的序列标签。

你什儿 方式基于词块方式,提出更简单高效的联合模型,同去抽取夫妻感情表达对象以及判断其夫妻感情极性。

具体步骤上,首先对评论一段话中的所有候选词块进行向量表示,或者 提出了什儿 基于词块的注意力机制来预测词块对应的标签和极性。

最后公开数据集评测对比后,证明比现有方式表现更好。

另一项体现场景挑战和技术水平的是安全场景特有的对抗性问题图片。

售假卖家往往会通过改变“标题”和“描述”以躲避传统规则和模型的识别,但这不用说详细无迹可寻。

混淆语言是什儿 被用于在对抗交流场景下实现规避检测的技术手段。

对抗交流场景包括敏感信息传播、负面夫妻感情表达、秘密行动策划以及违法交易等。混淆语言的实现方式通常是在原始文本里进行变异词的替换。

监管机构在识别此类文本时,都要根据一组关键词进行扫描过滤。尽管引入了许多语义扩展技术,或者 肯能文本中的歧义性以及变异的无边界,意味识别此类文本的准确率和召回率都十分有限。

阿里在WWW 2019上发表的论文,集中披露了该方向上的核心进展。

该论文的主要思路是将混淆语言识别转化为一三个白 文本匹配任务,即每条待检测信息,不是匹配一三个白 扫描关键词,或者 同去整合了文本信息的文本表示和视觉表示。

这里的视觉表示指的是文字自身的视觉效果,而还还里能 信息中的图片,主要是肯能在进行文本变异混淆时,总爱会出用许多看起来像的字符进行替换,你什儿 变异意味了混淆后的内容在语义上肯能肯能跟原始内容只能 任何关联,或者 从视觉效果上却可不还还里能 产生联系。

阿里的模型利用BiLSTM对文本特性进行表示,通过基于模板匹配的方式对视觉特性进行表示,通太久模态的整合,可不还还里能 比传统方式表现出更高的准确率和召回率。

另外要是结合图像视频和自然语言防止的多模态任务防止方式。

论文发表于ICASSP 2019,其中列举的任务也颇有意思:通过一段文本描述,自动地编辑源图像使其符合给出的文本描述,从而简化图像编辑流程,是什儿 基于文本的图像编辑方式。电商网站中的商品什儿 要是文字与图片的混合内容,或者 可不还还里能 期待这项技术可不还还里能 加强对商品内涵的理解,更有益于发现假、劣商品。

感兴趣的盆友可移步传送门:http://arxiv.org/abs/1903.07499

最后再介绍一项业内sexy,且对打假AI贡献不小的技术进展:小样本学习。

假货问题图片(安全问题图片)中最头疼的点,莫过于对新总爱出现的风险严重不足足够训练的样本,意味诸多优秀机器学习算法望而却步。

在CVPR 2018上,阿里安全图灵实验室团队,围绕业内前沿的“零样本视频检索”挑战,给出防止方案。

视频检索,通常要在文本和视频之间提取跨模态相关性,都要基于内容匹配。

但阿里的方式之不同,在于提出了什儿 内容无关的方式,通过双重深度编码网络来将视频和文本编码为该人模态的密集式表征。

或者 双重编码概念简单、切实有效,还可不还还里能 端到端学习。

在一三个白 基准数据集MSR-VTT、TRECVID2016、2017上实验后,证明阿里提出的零样本视频检索方式已达到目前最佳。

论文传送门:http://arxiv.org/abs/1809.06181

就在最近的机器学习顶会IJCAI-2019上,阿里安全成功举办了第一届AAAC竞赛(Alibaba Adversarial AI Challenge)以及AIBS研讨会(Artificial Intelligence for Business Security),旨在探索面临对抗攻击时,要怎样防止AI模型的安全性问题图片。竞赛和会议吸引了来自2一三个白 国家和地区的800多支队伍参与,过程中涌现出不少新思路和新方式,极大地推动了你什儿 领域的发展。

“AI发展趋势是一定的,但AI应用来防止安全问题图片时不用说能生搬硬套,都要根据实际场景进行AI的技术升级,”薛晖在今年年初的公开采访中就指出,安全会成为未来AI开发的最大挑战, “安全AI”会成为未来网络安全问题图片的新解法,也将在2019年迎来爆发期。

如今阿里“知产保护科技大脑”的成功实践不断得到行业乃至全球的认可,正印证了你什儿 断言。

阿里打假AI,用技术防止社会问题图片

打假AI大脑成功,幕后意味不用说难分析。这也会是阿里各项业务在AI时代里还还里能 更繁荣的保证。

打假作为综合因素意味的社会问题图片,利用AI等技术实现嘴笨 不用说易事,只能 对比,肯能就难看出诚心诚意。

比如美国电商巨头亚马逊,嘴笨 也在今年新推出一项名为“Project Zero”的打假防伪项目,通过与品牌方企业合作,打击消除假货。

但在具体技术机制上,就目前披露情况表而言,相较阿里的打假AI大脑,技术上稍逊一筹。

肯能亚马逊的打假AI,还都要企业合作品牌提供logo、商标和许多信息,甚至让品牌方利用工具标记并禁止仿冒品。

仍更多依赖监督学习的方式,自动化程度和AI通用能力还相对严重不足,对于阿里无监督、小数据学习和系统性大脑,技术能力和挑战,高下立判。

什么都也难怪美国众议院司法委员会副主席道格·柯林斯在调研了亚马逊、eBay、阿里在内的电商平台后,给出评价:“阿里巴巴的打假政策和项目比任何美国同行还还里能 效得多。”

阿里之道の一以贯之

最后,阿里的做事方式,依然值得关注。宏观层面来看,知产保护科技大脑,依然是又一次阿里式创新的成功。打假问题图片,源头在社会发展阶段和人性劣根处。面临的挑战,跟电商、支付、物流、计算和自主芯片,本质相同,困难无差。

但阿里之道一以贯之,为打假而生的AI大脑系统,依然是淘宝天猫、支付宝、阿里云,菜鸟和平头哥模式的延续:技术驱动,打造系统平台,从根本上防止问题图片。或者 侠之大者,未来也会兼济天下,赋能各行各业甚至各国,能力所至,皆受其益。会有只能 一天,天下再无假货吗?梦想或许还是可不还还里能 是的。

文章来源:量子位