<legend id="h4sia"></legend><samp id="h4sia"></samp>
<sup id="h4sia"></sup>
<mark id="h4sia"><del id="h4sia"></del></mark>

<p id="h4sia"><td id="h4sia"></td></p><track id="h4sia"></track>

<delect id="h4sia"></delect>
  • <input id="h4sia"><address id="h4sia"></address>

    <menuitem id="h4sia"></menuitem>

    1. <blockquote id="h4sia"><rt id="h4sia"></rt></blockquote>
      <wbr id="h4sia">
    2. <meter id="h4sia"></meter>

      <th id="h4sia"><center id="h4sia"><delect id="h4sia"></delect></center></th>
    3. <dl id="h4sia"></dl>
    4. <rp id="h4sia"><option id="h4sia"></option></rp>

        22-top_img.png

        【技术】大数据365体育投注官网_亚洲365bet网址_365出款成功未到——国家365体育投注官网_亚洲365bet网址_365出款成功未到的未来之路(二):大数据——数据采集

        发布时间:2016-08-19 浏览次数:181

        你采,或者不采,数据就在那里,闪闪发光。

        数据资源被誉为21世纪最大的资源。就像当年的淘金者一样,无数探路者涌入大数据分析的滚滚浪潮。俗话说巧妇难为无米之炊,数据采集是开始数据分析的第一步。

        数据按其来源可分为公开数据(如互联网数据)、半公开数据(如各类监控数据)、内部数据(如企业业务数据),相应数据采集方式有网络爬虫、传感器采集、从相关数据库中摘取等。

        众所周知,互联网上有大量的信息,如何高效的获取这些信息当然地成为了技术研究的热点。爬虫大概是智能搜索的形象化表述,开发者希望自己的程序能够像昆虫一样聪明地嗅到需要的信息。网络爬虫技术在舆情分析等社会学研究中得到不错的应用。

         

        网络爬虫基本原理

        传感器网络技术通常用于采集较分散数据,如大城市的交通流量数据。城市公交的刷卡机可以看作是一台独立的传感器,公交公司从上万台终端机中采集乘客出行数据,用于市政部门分析城市交通流量,或帮助商家分析热门商区。

         

        传感器网络基本原理

        数据库摘取指从企业的信息系统的生产数据库中直接提取数据,如阿里巴巴分析网购客户的购物倾向,又如银行的征信系统,通过用户的信用卡消费数据定义用户的信用等级,作为判定贷款发放金额的依据。365体育投注官网_亚洲365bet网址_365出款成功未到人员经常遇到的数据库有微软SQL Server,ORACLE和DB2等,可以根据实际需要选择不同的数据备份方式取得数据,如备份规模较大的ORACLE数据时,可以选择数据泵方式,提高数据采集效率。此外,在采集过程中应注意保留备份脚本等辅助信息,采集之后要及时恢复数据并校验数据质量。

        foot_img_01.png

        主办单位:盘锦市365体育投注官网_亚洲365bet网址_365出款成功未到局 版权所有:盘锦市人民政府办公室 网站地图

        网站标识码:2111000039 ICP备案序号:辽ICP备2023000128号-1 辽公网安备21112302000024号

        联系电话:0427-2834245

        foot_img_02.png