本篇文章3417字,读完约9分钟
上塘科技专注于人工智能领域,是一家依靠原创技术蓬勃发展的中国公司。英美烟草一个接一个地出价,并从idg获得了数千万美元的A系列融资。包括京东、小米和华为,都采用了上汤科技的计算机视觉技术。
当我们谈论人工智能时,我们在谈论什么——也许是阿尔法戈,也许是微软萧冰,甚至是电影《星球大战》中的经典机器人图像r2d2和bb8,但是很少有人谈论中国原创的人工智能。
一方面,中国的人工智能技术还不成熟;另一方面,街上有太多打着"人工智能"幌子的诈骗公司,让人迷惑不解。
“如果你没有掌握核心的东西,很难说你是在做人工智能。”徐莉坐在会议室里,在侃侃谈着话,从神经网络算法到数据驱动,从神经网络的鼻祖杰弗里·辛顿,到人工智能“四大天王”中除辛顿之外的约斯华·本吉奥、扬·勒昆和安德鲁·吴。当然,他最想谈论的是他创建的人工智能公司sensetime。
徐莉的“核心”是指深度学习。他认为这取决于一家公司是否真的做人工智能,而仅仅取决于它是否掌握了深度学习技术。
人工智能的发展经历了许多阶段。事实上,早期的人工智能是“人工指导智能”,即人们指导计算机什么是对的,什么是错的。但是如果我们想让计算机像人类一样思考,我们需要计算机从大量的数据中学习,像人脑中的神经元一样相互连接以产生信号,并最终理解复杂的事情。这就是业界现在所说的深度学习。
徐莉举了一个例子。以人脸识别为例,传统的方法会告诉计算机,人的眼睛与鼻子和嘴巴的特征之间的距离是标准的。如果特征相同,那就是同一个人。然而,这些特征是由人类设计的,他们的判断是基于人类的判断。
深度学习是不同的。它使用类似人脑的复杂网络将不同系数的神经元连接到几个层,然后让它根据科学家提供的深度学习框架不断查看大量照片数据。最后,它获得了自己判断两个人是否是同一个人的能力,这甚至可以超过人眼的准确性。
在人工智能迅速崛起的背景下,深度学习不仅是学术前沿,也是产业前沿,知识是这一领域最重要的财富。正是人们带着这种知识。
谷歌很早就意识到了这一点。2014年,谷歌斥资4亿英镑收购了鲜为人知的小公司deepmind。除了12名科学家,这家公司没有任何产品。
“每个人都认为谷歌疯了,乱花钱,用4亿元买了12个人。逻辑是什么?但谷歌知道它们的价值。”徐莉告诉interface记者,yoshua bengio当时评论说,世界上有50个人是真正的深度学习专家,其中12个人是深度思维专家。谷歌显然在规划未来,后来阿尔法戈是深度思维研究的结果。
跟随谷歌的脚步,百度和facebook分别邀请了安德鲁·吴(andrew ng)和扬·勒昆(yann lecun),成立了百度深度学习研究所(Baidu Deep Learning Institute)和facebook人工智能实验室。雅虎和微软等其他大公司也纷纷效仿。人工智能已经从学术界的前沿转移到了工业领域,并开始给工业带来颠覆性的变化。
徐莉很高兴看到学术热点和工业热点的紧密结合。徐莉出生于学术界。本硕毕业于上海交通大学,获香港中文大学博士学位。他在计算机视觉、模式识别和图像处理领域拥有十多年的研究和产品开发经验。他在视觉领域的顶级会议和期刊上发表了40多篇专著,并访问了摩托罗拉研究院、欧姆龙研究院、微软研究院和联想研究院等计算机视觉基础研究机构。
他有着深厚的学术背景,从自己研究的计算机视觉方向出发,从麻省理工学院、斯坦福大学、香港大学、香港中文大学和清华大学等大学招募了数十名学识渊博的科学家,以及来自谷歌、百度、微软和联想等行业的核心工程师。
最令人惊讶的是,徐莉团队中竟然有50名医生,其中包括两届国际计算机视觉大会(iccv)主席、2011年度杰出教授戴玉荣博士,以及曾在kaggle Data Scientists排名中名列亚洲科学家第一的安徽高考状元、香港中文大学的张伟博士。
"这些医生不是一个接一个招募的,而是成串招募的。"徐莉笑了。徐莉从自己的实验室招募了许多弟弟妹妹,并从香港中文大学多媒体实验室和微软研究院招募了许多团队。每个负责人带来一个团队,自然形成了一个高级研究团队。
所有这些学者都专注于计算机视觉和人工智能。他们在三个国际顶级机器视觉会议上发表了150多篇论文,在亚洲企业中排名第一,仅次于谷歌和微软。
如此强大的研究力量很快就会发光。2014年9月,来自sensetime的科学家首次参加了被称为“计算机视觉奥运”的imagenet竞赛,并在大规模物体检测竞赛中以40.7%的成绩获得世界亚军,仅次于谷歌的43.9%。
2015年,imagenet增加了一个新的视频对象检测任务,这个任务比静态图像中的对象检测更加困难。上塘科技以成功识别28种物体的正确率获得该项目一等奖,成为中国第一家在imagenet中获得冠军的企业。
“简而言之,当图片以毫秒的速度闪烁时,计算机必须识别图片是人、书、汽车还是动物。”徐莉向界面记者解释道。
这种深度学习有三个关键点。首先是“大脑”的智能,这取决于创造“大脑”的科学家是否有一个好的深层学习框架。第二是数据量。有了“大脑”之后,我们需要教它,大量的数据可以提供足够的训练,并驱动“大脑”。最后,还有计算资源。有了聪明的“大脑”和足够的“教材”,需要由多个图形处理器组成的深度学习超级计算来快速消化大量数据。
2014年5月,百度推出了当时世界上最快的深度学习水洼机器人。Andrew ng宣布,minwa与144个GPUs相连。相比之下,前一段时间表现出色的alphago与170个图形处理器相连。
“sensetime目前连接了200个图形处理器,是世界上速度最快的深度学习超级计算机之一。”徐莉对此感到自豪。
然而,聚集了大量科研专家的上汤科技并没有获得所有的赞誉,有些人认为他们所做的是没有根据的,远离消费者。
然而,由于独特的技术,上塘科技很快吸引了许多科技公司的注意。“在中国,依赖原始技术的公司很少,但正因为如此,每个人都渴望技术,强大的技术可以迅速打动对方。”徐莉说。
科技产业的信息流动很快,不求人,一个主要的制造商,没有我,但要求人们有我。由于可以很好的结合用户的娱乐功能,小米手机和华为mate8的系统相册中植入了上塘科技提供的人脸识别功能——用户拍摄的任何照片都可以根据人脸特征进行分类。类似的技术很受用户欢迎,后来被新浪微博的相册采用。
“还有一段时间前非常热门的faceu应用程序,以及snow自拍应用程序、pepper直播、米托相机等。”,它们都使用我们提供的技术,因此我们的用户实际上已超过数亿。”徐莉表示,上塘科技定位于技术提供商,采用b2b2c模式进行阶梯报价,根据软件装机容量进行划分。
*上塘科技的人脸识别技术
除了移动互联网领域,徐莉相信上塘科技的视觉智能技术将在未来的互联网金融和安全监控领域得到很好的应用。
以安全监控为例,上塘科技与东方网通合作,将人脸识别技术应用于警方监控视频中,通过算法在多个摄像头视频中发现同一个人。目前,这种“捕捉和逃逸系统”已经在深圳地铁进行了部署和测试。
*上塘科技智能监控功能
“这三个领域有一个共同的特点,那就是对人口红利有很大的需求,但它们遇到了困难,因为中国的人口红利正在下降。”徐莉认为,许多互联网金融公司通常需要数千名员工来审核用户上传的数据。要在“十二五”规划中实现智慧城市,需要将大量的摄像头接入互联网,收集的数据也需要大量的人力来整理——所有这些困难和挑战都可以通过视觉智能来解决。
目前,已从idg获得数千万美元A系列融资的上唐科技,在早期曾被苹果询问收购事宜,但当时上唐科技的团队已经有70人,但徐莉认为既然要做大,就必须先打品牌,这样才能服务大众。"如果你过早陷入困境,发展将面临限制."徐莉说。
随着人工智能最近成为热门话题,徐莉认为这方面是一件好事,因为它可以让公众更多地了解人工智能,而且它还会鼓励许多企业家加入到人工智能的发展中来;另一方面,这个概念会被一些不太想成为人工智能的人使用,造成负面影响和误解。
“事实上,人们所说的可以独立思考的‘人工智能意识’离我们还很远,但是只要数据足够大,人工智能确实可以通过在垂直领域积累经验而超越人类。徐莉认为,深度学习是由数据驱动的,它具有数据红利和情景的优势,其人才储备也不错。中国有实力和责任成为真正原创的人工智能。
标题:这家研发人工智能的中国公司为何能引来苹果、阿里巴巴竞购?
地址:http://www.3mta.com/xlxw/6312.html