意见反馈 ×

由于您昨日≥3次未及时响应商机信息,今日不允许上班,请明天准时来哦~

查看商机推送规则

再休息会儿吧
08:00以后才可以上班哦~

  • 微信小程序

    获取商机快人一步

  • 微信服务号

    消息通知一手掌握

  • 微信订阅号

    解放号资讯动态

立即处理 如有疑问,请致电:{#hotline#}

--

成交量:0 成交额:¥0.00 好评率:0.00%

用手机逛本店 收藏店铺
分布式Web网络爬虫,数据采集,大数据分析!

分布式Web网络爬虫,数据采集,大数据分析!

  • 分布式Web网络爬虫,数据采集,大数据分析!
  • 分布式Web网络爬虫,数据采集,大数据分析!

Dyson.大数据——Web数据自动化采集平台

Web数据,网络爬虫,数据采集,网页分析

价格: ¥ 100,000   起  
  • 成交量

  • 综合评价

  • -

    好评率

有问题联系我

探码科技

服务范围: 数据收集和分析 大数据解决方案 桌面软件 APP开发 微信开发 H5开发 大数据应用 企业管理软件 前端开发

  • 成交量

  • 成交额

  • 好评率

店铺客服
官方客服 contactMe.png
QQ客服 qqChat.png
电话客服 phoneContact.png
  • 13551280527
  • 02883132192
服务时间
  • 周一至周五:09:00~21:00
  • 周六至周日:09:00~17:00
本店其他服务 更多
    服务类目:
    大数据 - 数据收集和分析 - 大数据采集

    服务属性:

    分类 - 数据检索 、 数据清理 、 数据集成

    数据格式 - 文本 、 图像 、 其它

    探码Web大数据采集系统

    探码科技基于云计算研发的探码Web大数据采集系统——利用众多的云计算服务器协同工 作,能快速采集大量数据,避免了一台计算机硬件资源的瓶颈,另外随着行业之间对数据采集的要求越来越高,传统post采集不能解决的技术问题也逐步被解决,以探码Kapow/Dyson采集器为代表的新一代智能采集器,能模拟人的思维,模拟人的操作,从而彻底解决了ajax等技术难题。

    1.jpg

    Web大数据采集系统的八个子系统

    探码Web大数据采集系统分为8个子系统,分别为大数据集群系统、数据采集系统、采集数据源调研、数据爬虫系统、数据清洗系统、数据合并系统、任务调度系统、搜索引擎系统。

    2.png

    大数据集群系统

    本系统可以储存TB级采集到的数据,实现数据持久化。数据存储采用MongoDB集群方案,此方案在集群上有两大特点:

    • 分片:分片即MongoDB在服务器之间划分数据的一项技术。MongoDB能够自动在分片之间平衡数据,并且能够在不需要数据库离线的情况下增加和删除分片。

    • 复制:为了保证高可用性,MongoDB维护了许多数据的冗余备份,复制被嵌入于MongoDB,并且在不需要专业网络的情况下就可以在广域网内工作。

    数据采集系统

    本系统配置Kapow、PhantomJS、Mechanize采集环境,运行于Docker容器中,由Rancher编排容器。

    采集数据源调研

    本系统是在“数据爬虫系统”开始之前,必不可少的一个环节,经过调研,得出需要采集页面、过滤的关键字、需要提取的内容等。

    数据爬虫系统

    爬虫程序都是独立的个体,结合需要的数据采集系统服务器,通过Rancher编排,自动在DigitalOcean中启动爬虫程序,根据输入参数,抓取到指定的数据,然后通过API发送回我们的大数据集群系统。

    数据清洗系统

    本系统通过Ruby on Rails + Vue技术框架,实现Web前端展示,展示出爬虫程序抓取到的数据,方便我们进行清洗。数据清洗系统主要由两部分组成:

    • 手工清洗:通过Web前端展示出抓取到的数据,对数据进行直观分析,得出哪些条件的数据需要删除,哪些条件的数据需要修改。

    • 自动清洗:经过手工清洗之后,可能会得出一些清洗模式,这种模式适用于所有数据。我们把这种模式记录在程序里,将来的数据只要匹配这种模式,数据将来会被自动清洗,不再需要人工清洗。

    数据合并系统

    本系统通过Ruby on Rails + Vue技术框架,实现Web前端展示,对数据进行合并。数据被清洗之后,数据合并系统会自动匹配大数据集群中的数据,通过相识度评分,关联可能相识的数据。通过Web前端展示匹配结果,可以人工或自动合并数据。

    任务调度系统

    本系统通过Ruby on Rails + Vue技术框架,Sidekiq队列调度,Redis调度数据持久化,实现Web前端任务调度系统。通过任务调度系统,可以动态开启、关闭,定时启动爬虫程序。

    搜索引擎系统

    本系统通过ElasticSearch集群,实现搜索引擎服务。搜索引擎是PC端检索系统能够从大数据集群中、快速地检索数据的必要工具,通过ElasticSearch集群,运行3个以上的Master角色保证群集系统的稳定性,2个以上Client角色保证查询的容错性,2个以上的Data角色保证查询、写入的时效性。通过负载均衡连接Client角色,分散数据查询压力。

    Web大数据采集系统应用案例展示

    5.jpg

    4.jpg


    • 综合得分0.00
    • 技术能力0.00
    • 完成质量0.00
    • 如期兑现0.00
    • 响应速度0.00
    • 沟通能力0.00
    • 合作精神0.00

    对不起,您查看的服务不存在。

    您可以:

    1.在顶部搜索框重新输入关键词搜索。

    2.为你推荐一些你可能会喜欢的内容,将在15秒后自动跳转

    店铺其他服务

    服务热线 {#hotline#}
    {#hottime#}

    微信小程序

    获取商机快人一步

    微信服务号

    消息通知一手掌握

    微信订阅号

    解放号资讯动态

    Copyright © 2013-2021北京掌中无限信息技术有限公司 京ICP证041626号 | 京ICP备09083730号-8 京公网安备 11010802028637号

    全国商务合作邮箱:partner@jfh.com

    意见反馈 ×
    意见反馈 ×