互联网20周年最具价值产品

已有551人投票

搜狗号码通

搜狗愿在下一个20年,继续秉承“科学精神,追求产品卓越;信仰文明,坚持正直经营”的精神,创新进取,为用户不断创造价值,与中国互联网共同成长。


      搜狗号码通是一款基于搜索引擎海量数据,实现了智能拦截方案的号码工具类移动APP。2012年4月27日发布1.0 Beta版,因首创的陌生电话识别功能,帮助手机用户有效防止推销电话骚扰,受到用户欢迎。其核心及相关创新技术,均已向国家申报了发明专利保护,搜狗创新思维及创新能力也因此受到广泛好评。
       陌生电话识别功能,是当用户接到一个陌生电话时,号码通为用户提示来电者身份,如快递员、房产中介、广告推销员等,从而帮助用户接听或拒接,最终满足用户电话防骚扰的需求。号码通的陌生电话识别,独特之处在于,拥有海量电话号码数据,能够帮助用户识别来电是否骚扰电话。功能的核心,在于电话号码库的大小。截止目前,号码通云端号码库中已记录5000万号码。
背景调研
      在立项之前,号码通团队做了大量用户访谈和调查。调查中发现,约32%用户反感或非常反感接到各类推销电话。同时这些用户一直在苦苦寻找能够有效解决此类问题的工具,可惜国内市场上并没有一款产品满足需求。经过更大范围的调查分析,发现美国、新加坡、台湾等国家和地区的用户,同样遇到了此类烦恼。在这些国家地区,也没有一款产品,有效解决此类问题。
首创标记系统
      搜狗号码通首创的陌生电话识别功能,借助海量号码库,初步解决了世界范围内的一个难题,并且在移动互联网领域受到用户认可,下载量和用户口碑迅速提升。那么海量数据是如何收集的?为什么长期致力于优化防骚扰功能的传统安全厂商没有做到?
      要回答上面的问题,需要聚焦到号码通创造性提出的标记系统上。标记系统是众包模式在移动互联网的一次创新实践。众包,故名思议,是把一个任务以自由自愿的方式分包给众人,由大家一起协作完成。Linux开源社区、Google Books纸质书数字化等,都是众包模式的成功实践。
       标记系统的基本原理,是当用户接到一个陌生电话后,无论是有用电话还是骚扰电话,都提示用户,可以对来电号码进行一次标记,如标记为快递员、推销员等。此次标记数据,包括号码与号码的身份,将进入号码通云端号码库。当这个号码致电其他用户时,号码通根据云端号码库里的记录,自动提示此号码的身份。
      自提出标记系统的设想之后,搜狗内部产生大量讨论。讨论最多的,是如果有人恶意标记,故意把某号码标记为不良身份,该如何处理。以及不同的人标记身份也不同,又该如何处理。针对这两个问题,团队创造性的借鉴了西方法系的陪审团制度。第一,只有接听过某号码来电的人,才有资格标记;相当于陪审团员必须听完整个庭审过程才有资格行使裁定权。第二,标记数量多于一定量,且多数人标记一致,标记才生效;相当于陪审团员需达到一定数量且过半数一致,裁定才有效。
      搜狗在移动互联网领域,通过产品模式的创新,独创标记系统,突破了传统安全厂商只在客户端想办法的固有思维,利用众包模式和云计算,收集整理出海量号码库,特别是电话业务量巨大的营销电话,为最终解决骚扰电话这一世界范围内普遍存在的顽疾,贡献了自己的力量。
大数据和云计算的深度应用
1、搜索引擎反哺
      搜狗输入法是第一款在搜索的助力下,迅速收集用户输入热词、频繁词,而获得成功的产品。同样,号码通也获得了搜狗搜索的反哺。
      号码通仅仅帮助用户识别推销、诈骗等大量外呼的电话的不够的,还有大批企业电话、快递电话、外卖电话无法通过标记系统进入号码库,但这些号码也是用户所需要的。经过调研,我们发现互联网上大批网站、论坛、贴吧中,包含电话号码和身份。比如阿里巴巴网站中,有企业电话号码;各城市论坛中,有当地生活服务、或诈骗类电话。这些以网页形式存在的号码及身份数据,很多是非结构化的,嵌在用户的一长段表达中,无法直接使用。这里就需要用到搜狗搜索、搜狗输入法擅长的自然语言处理,在大段非结构化文本中,提取结构化数据出来。其中因为网站众多,每天需要处理的数据量达到了近10亿页面,1T数据。这里用到的大数据处理能力,并非一朝一夕之功。搜索引擎抓取电话号码数据,从产品上线运行情况看,起到非常重要的作用。
大数据挖掘和云计算
      搜狗号码通是一款移动互联网APP,就不可避免的受限于移动互联网的一些特性。
首先,用户手机内存有限,无法把云端5000万的海量号码库全部置入手机。受限于此,要想做到尽量识别每一个来电号码,号码通只有在来电时,通过互联网,自动向云端号码库查询,然后提示用户来电身份。
      其次,中国特殊的网络环境,让约占整体用户85%的2G卡用户,无法在接到来电时连接互联网。
      以上两个限制条件意味着,85%的手机用户,可能无法使用号码通。这是横在号码通团队面前的一道鸿沟,怎样才能渡过?
      搜狗以技术基因著称,遇到问题常常从技术层面想办法。号码通团队利用预测算法,准确的预测出用户接下来将要接到什么号码来电。实际上整个预测算法,是几种算法的混合,比如协同过滤、热点推荐、按地域划分等。预测出来的号码数量将大幅减少,能够轻松置入用户手机。经过详细评测,目前搜狗采用的预测算法,虽然只置入很少的号码量,效果却相当于向用户手机中置入3500万电话号码。从实际用户反馈看,此技术效果也获得极大好评。  
      在技术实践中,号码通团队结合了云计算和大数据挖掘技术。号码通目前累计约2000万用户,用户每天将接到的电话都会发生变化。这就要求,号码通每天通过对2000万用户的大量通话数据,进行挖掘,为每个用户单独做预测,并生成极小的数据包,在当日下发到用户手机中。在这个过程中,动用的计算量非常大,占用机器数以百为单位。这种规模的计算必须以分布式形式并行计算。目前这套系统以云计算的方式部署,运行情况良好。
工具到服务,商业模式的同步创新
      搜狗号码通让诈骗、中介、推销等骚扰号码无处遁形的同时,可以帮助用户通过搜狗号码通“超级电话本”功能快捷查询周边的快递、餐饮等联系方式。搜狗号码通积极探索创新的商业合作模式,先后与顺丰,凡客,招商银行,德邦物流、嘀嘀打车、世纪佳缘等企业达成合作,利用产品的鲜明特性,以号码身份识别为纽带,在企业与用户之间搭建了崭新的桥梁,将搜狗在移动互联网时代由工具向服务化平台转变的发展理念进行了成功的尝试。