七夕将至,你是否收到过电商店铺推送的打折促销短信?平时是否经常收到理财、贷款、购房等信息?如果你是苹果用户,那你是否有过半夜收到iMessage推送赌场、假货、股票以及色情信息的经历?
商家给安卓用户推送广告信息需要通过移动、联通等运营商,运营商会拦截掉一些非法信息,而针对苹果用户,商家甚至不法分子则可利用iMessage渠道通过互联网直接向用户推送垃圾信息,目前苹果公司尚未采取有效的筛选、拦截等手段。
近日,苹果官方终于发声,表示正在探索更先进的机器学习模型识别,过滤垃圾信息。机器学习模型如何过滤垃圾信息?又面临哪些技术难点呢?科技日报记者采访了相关专家。
作为人工智能的核心技术,机器学习是计算机模拟人类思考方式的一种学习行为,它让计算机变得“聪明伶俐”。“基于机器学习的垃圾信息过滤技术实际上是一个二元分类过程,机器学习模型需回答‘是’或‘不是’,以便将垃圾文本从大量信息中分离出来。”北京语言大学大数据与语言教育研究所所长荀恩东教授在接受科技日报记者采访时说,“首先应准备人工标注的数据,进而构建机器学习参数化模型,最后对其训练、测试,直至模型应用,解决实际问题。”
“目前市场上识别垃圾邮件、短信的机器学习模型绝大部分采用的是针对文本显式特征的分析和提取。”荀恩东解释,所谓“显式”特征,是指垃圾信息的关键词、表达形式、特殊符号、异体字、敏感词语表达方式等“外在”特征。将这些多元、离散的特征元素汇总,便可构成显式特征列表,进而构建模型对垃圾信息进行甄别。
“这种分类方式效率较高、成本较低、所依赖数据较少,但也存在适应性差,识别精度不高等不足之处。”荀恩东指出,如果垃圾信息发送方掌握了用户拦截系统的显式特征列表,便可对垃圾信息的敏感词汇作出相应调整,变换表达形式,从而有效规避拦截系统。因此分类器需要实时动态更新显式特征列表,即便如此,该列表元素数量也十分有限,导致分类器过滤效果不佳,精确度不高。
基于显式特征的分类方式“先天不足”,苹果公司有可能将目光投向隐式特征分类,即深度学习模型。荀恩东表示,深度学习模型可对海量数据的信息进行深度挖掘,从信息的语义和内容上对垃圾信息进行甄别。也就是说,同样一条推销短信,深度学习模型基于庞大的数据库,可分析出它的多种表达方式,从而做出更加准确的判断,仅靠改变文字形式无法逃脱深度学习模型的“火眼金睛”。深度学习模型省去了前期建立大量显示特征列表的工作,只需标注垃圾、非垃圾信息即可,不仅效率提高,识别精度也得到很大提升。
基于深度学习的垃圾信息过滤技术目前也面临诸多技术难点。复旦大学计算机科学技术学院张军平教授表示,虽然有大数据支撑,深度学习模型在很多方面还是无法像人一样有效分析和理解信息中的内容。例如,个别汉字的顺序颠倒不一定能影响阅读,然而深度学习模型并没有人脑这样“聪明”。另外,组合爆炸问题也是难点之一。垃圾信息涉及领域广泛,形式变化多端,大数据深度学习模型可能对已有的垃圾信息有效分类,但面对新出现的垃圾信息可能就会“蒙圈”。
“这需要借助类似长短时记忆网络或更新的一些技术,对深度学习模型进行定期更新。” 张军平认为,还可以考虑自然语言处理中的一些句与句的关系,进一步完善深度学习算法,从而改善其预测、分类能力。
随着社会活动逐步恢复正常,记忆中熟悉的春运场景再次重现。据交通部有关负责人介绍,预计2023春运客流总量达20 95亿人次。在北京工作的小
励普教育二建频道了解到,5月5日,江西人事考试网发布通告:江西2022年度监理工程师职业资格考试(原定于5月14日、15日)暂停举行。后续考试
张医生,我们是专门过来找您看病的张院长,你看看我的病还能治吗?治骨病,找张喜海医生 纷杂的诊室前,病人们一看到张喜海院长,就围
近年来,小剧场戏曲在北京、上海等地的演出红红火火,许多年轻人以去小剧场看戏为时尚。小剧场戏曲以其深厚的传统文化底蕴,新颖的呈现形式
快递车开进田间地头,农产品出山通道更畅通;生鲜蔬果半小时送达,居民日常生活有了贴心帮手;收寄快递位置实时查询,物流信息尽在掌握……
作为中国电影走出去的先锋,功夫电影是中国电影在海外最响亮的一张名片,在海外有影响力的华语明星也多数因其功夫片代表作而闻名。前不久,
龙勇军说,自己这些年从一个打工仔到工地的小包工头,一直感觉运气比较好,生活中需要常怀感恩之心。(李政葳 摄)光明网记者 李政葳 范
人民网北京8月13日电(孝金波 仇双)8月5日前后,一段“安徽芜湖城管打暑期学生工”的视频在网上流传,视频中“城管”的暴力执法引发网民
人民网北京8月13日电 (朱江)据中国铁路北京局集团有限公司官方微博消息,上午10:12分,经铁路部门抢修,京沪高铁北京南至廊坊间设备故障
人民网北京8月13日电 中央纪委国家监委网站消息:近日,福建省纪委通报了全面从严治党主体责任检查工作问责的7个典型案例,在全省引起强烈
人民网北京8月13日电(董菁 郑方缕)8月12日,商务部发布国际航空运输协会(IATA)最新数据。数据显示,2018年6月全球航空客运量激增,中
新华社北京8月12日电 题:邪说蛊惑 戕害社会——揭开“全能神”邪教真面目新华社记者借壳宗教自创一套理论,宣扬歪理邪说;要求信徒对教
辽宁矿产网版权
联系我们:744 891 154@qq.com