2017年底,辞旧迎新之际,对2017年做一些小总结。首先很惭愧,我是做舆情和公安大数据出身,也接触了机器视觉处理和NLP领域,虽然谋求做出来一些有意思的产品,包括图像舆情产品和人工智能情报分析、网页抓取,但是受限于各方面条件以及我的自身能力所限,一直没有可以拿得出手的。2017年是我内心革新的一年,这一年里我认识了很多牛人,也感受和经历了很多事情,我看事物的视野角度提高了一层,以前文章里写过很多感谢,这里不再对这些牛人列表了,从内心里尊重他们并且努力吸取他们的知识和见解是我最优先的事情。

2017年,我见到了几个感觉不靠谱的公司,也见过了一些感觉不靠谱的老板(甚至有想让我骂街的)。这里说一些大实话,我从来只把我自己当做一个失败的产品汪,但是我坚信我早晚会做出来我内心能承认成功的产品,只是我现在还缺失太多的东西,包括资源、人脉、技术、视野、思想理论,我只有更加精进才可能实现我的梦想。所以面对很多看了我的知乎加入我的QQ群和微信群的朋友们,我会尽量把我知道的知识告诉你们,因为我觉得我知道的太少了,完全没有必要藏着掖着,我希望为大家创造价值,形成我们的数据爱好者圈子。

接下来回到本文专题,2017年,数据采集行业发生了什么?有哪些值得注意的变化?

首先本文将行业内的公司进行罗列,不分先后且主要关注于国内,由于调研时间有限,有些公司可能会遗漏:

国内

  • 火车头采集器
  • 八爪鱼采集器
  • 神箭手采集平台
  • 造数科技采集平台
  • 集搜客Gooseeker
  • 发源地数据交易平台研发的云采集系统
  • 瑞雪采集云
  • 前嗅
  • 小猪采集器
  • 爬山虎采集器
  • 爬一爬采集器
  • 等等

国外

  • Parsehub
  • Mozenda
  • Zennoposter
  • Import IO
  • Dexi
  • Extracty
  • Kimono Labs
  • 八爪鱼海外版

海外部分我暂时跟进不过来了,得重新调研和试用才知道有哪些变化了。主要还是看看国内的变化吧。按时间轴来看是这样的:

2017-05-10 神箭手获百万级天使轮融资

2017-05-16 发源地获数千万元Pre-A轮融资

2017-06-08 八爪鱼发布V7版采集器(一个大的版本迭代)

2017-10-18 造数科技成立一周年

2017-12-09 兔哥数据爱好者圈子第一次沙龙聚会(给自己打广告)

2017-12-18 兔哥数据爱好者微信群正式开放公开加入,QQ群462346024已经达到262人

2017-12-21 造数科技获得千万级Pre-A融资


数据采集行业在2017年定为逐渐更加清晰化,大家分门别类的把自己产品做了定位:

云采集平台

主要代表:神箭手、发源地、造数科技、瑞雪采集云

软件和工具

主要代表:火车头(据悉正在向云转型,值得期待)、八爪鱼(软件+云采集)、集搜客(主要还是基于浏览器)

数据交易与数据采集相结合

神箭手(爬虫+大数据市场)、发源地(交易平台+采集引擎)、八爪鱼(数多多交易平台+八爪鱼采集器)

数据采集+数据分析+可视化

八爪鱼(八爪鱼采集器+微图+NLP分析)

C端用户喜欢用的产品

火车头(老牌子,淘宝卖规则的多)、八爪鱼(界面化容易用+卖规则的也很多)、造数科技(最简单且界面也差不多是最好看的采集器)、神箭手(不确定C端用户有多少人知道,但是理论上用起来并不难)

B端用户喜欢的产品

这个很难界定,大体上来说B端希望得到的只是服务,还要物美价廉,所以B端用户实际上不会对任何产品拘泥,只要能得到想要的数据就可以了,所以基本都是定制化的,很难完全标准化。高价值高利润的客户买的是服务,这个是我个人的认知,数据采集本身不值钱,值钱的是定制化和差异化的服务。至少,我认为也得从行业级别差异化才能得到高价值愿意付出的客户。

2017年总结

这一年数据交易受到了一些政策和法规的影响,主要原因是之前很多数据公司都在倒买倒卖涉及个人隐私的数据,赤裸裸的挑战大众底线。于是今年当一些骗子骗死一些人之后,包括数据堂等公司都受到了调查,也让很多公司对数据脱敏更加关注。我认为这很正常,这是一个必然的发展趋势,只有让数据产业良性发展才能有长远的价值,太多人急于变现了,这也是国人的一些劣根性。

这一年的另一个趋势就是云服务、云计算、数据底层的实用化,数据分析已经是产品经理、运营经理的必修课,数据获取就必然依赖采集工具,采集快、配置容易、数据导出方式多的平台或工具就很受欢迎。不过这里要说的另一点是,能生成规则并且分享的产品,才能获得众包以及整个网络的规模化优势,这个优势包括宣传推广优势(规则分享必然带动更多人使用同样的采集产品)、规则质量优势(分享的过程中会逐步发现优质的规则,劣质的会逐步淘汰)、渠道优势(数据服务商、代理商可以提供更多的渠道,他们也会具备更高的可控度,不过分依赖产品提供者定制的规则,可以自己编写和出售)。

本文本来想写更详细的数据采集行业调研的,不过受限于今年我自身产品工作太忙的原因,只好年底赶工出来这篇文章,附上一些导图,如果想要xmind源文件,可以先加我的群和我混熟了(笑)。

fetch_file7f564eaf4fbda78116a58c55265d5ca3-picturefetch_file78cf00a8ba8724ff0416dc6def6c8a7b-picture

2018年展望

2018年是AI人工智能爆发的一年,或者说继续爆发的一年。首先AI技术已经逐步开始在细分领域应用化并体现出较好的效果,但是仍然不能把它想得真的“智能”,它只能实现一部分的智能,并且更适合于代替低级且繁琐的人工事物。

AI在数据采集行业的主要应用可以是以下这些方面:

  • 自动化采集模板配置(通过统计规律,解决大部分规范页面的采集是可行的);
  • 动态词库维护(通过海量网络数据,联系前后文情景,可以维护词库并定义新词的词性和可能的语义);
  • 文本分类(分类可以是情感正负面,也可以是行业、内容、地区、事件、人物、机构等等,需要通过大量训练才能提高精度);
  • 文本聚类和趋势预测,聚类比较容易,有很多算法和逻辑。预测比较难,涉及数据较多,并且准确性是不确定的,单纯靠数学算法并不适合网络那么多种类的数据,还是需要依靠模型训练逐步得到细分领域的模型,再扩展;
  • 文本、多媒体(视频、图片、音频)的结构化提取,当数据采集已经不是大问题的时候,数据的提取就成了AI的重头戏了,因为这年头谁也不会傻到觉得靠正则表达式就能搞定一切了,结构太复杂了;多媒体数据的识别和结构化提取也是复杂工程,目前还没有做得特别好的公司,因为不可预知性太多,但是可以极大地替代人工,这也是它的价值点所在。

2018年,数据行业有新的机会和机遇,当传统的急功近利型的数据需求逐步消失,数据产业长远发展的趋势和方向会逐步明确,寻找的过程也是这个行业从业者的另一种乐趣。一些公司已经看到或享受到这些价值,比如随着AI的兴起,对数据,尤其是高质量标注过的数据的需求越来越多,购买这类数据的公司也越来越多。首先基本的深度学习都需要低噪声的大量标注化数据,强化学习和迁移学习虽然可以减少数据量需求,但是这两个技术目前并没有那么靠谱,而且如果本身深度学习建立的模型质量就很差的情况下,其他的模型也不好强化和迁移,这是一个整体的过程。所以在可预见的2018年,数据的需求仍然是增长和爆发的,就看如何抓住机会和瞄准某些领域突破了。

下面是喜闻乐见的批斗环节:(大佬们不要打我脸,可以打我PP……)

  • 火车头采集……这些年你的更新就像挤牙膏,别学因特尔啊,因特尔第八代CPU还被形容为一屁股坐在了牙膏上,期望你们明年也来个大的更新!
  • 八爪鱼采集……你的云采集需要狠狠加强了,单机越来越好用,云采集越来越被比没了这是肿么回事?另外微图的操作我还是不习惯,我更接受FineBI、Tableau、BDP的操作。
  • 神箭手……吴桐兄……我不知道你们瞄准B还是瞄准C的用户,想把什么都做成标准化是挺好,但是高净值用户买的是服务,并不是一个接口就能满足。但是我看好你们!
  • 集搜客……能不能把产品里的一些名字好好改改?我用起来超级头疼……从内心抗拒……
  • 造数科技……把自定义xpath加进来行么……光靠点击很多时候搞不定我需要采集的复杂页面,有些数据还需要合并,有的详情页里还带分页,页面结构复杂后很多搞不定也是很痛苦的事情……
  • 瑞雪采集云……崔哥,新兴的产品确实不容易,一定找准定位。定位爬虫研发就要瞄准众包;定为中小企业+C端就瞄准直接将数据送到用户嘴边;瞄准大企业就直接提供数据服务并且将数据尽可能复用。咱们不能继续犯想做成产品,结果却不停地在项目中内耗的问题,老板的耐心往往比想象中还要低……

在PMCAFF我就不做自己的QQ群广告了,有感兴趣的朋友单聊吧。