如何收集/获取数据？

2021-01-07 13:33:52 阅读（203） 评论（0）

说到数据分析，没有米饭怎么做？没有数据，我们如何进行数据分析？几天前，一个朋友在现场问我，我们是一家初创公司，我们也想做数据分析，机器学习，但我们没有数据！这能怎么办？我们不知道这些数据来自哪里，更不用说技术了。公司里只有几个人，他们都是从传统公司毕业或刚毕业的。当时我给他打了个比喻，有点像我们没饭怎么做饭。如果真的没有大米，我们可以自己种大米，在市场上买大米，或者和别人交换其他东西，或者吃小麦。同样，如果我们没有数据，我们必须找到收集数据的方法。假如你是spyman，那一定要收集各种情报。我们常见的数据收集分为内部和外部：1。内部：a）历史log日志会员信息；b）基于基本标签特征的预测；c）集团各业务、子公司数据等。2.外部：a）爬虫采集发动机；b）数据购买；c）合作公司数据交换；d）收购并购公司；e）营销等手段。不用说，每个人都会知道内部已有的数据。*我们常用的网络爬虫方法。在这个数据采集中，如果是大规模的维护系统，可以使用专用的采集引擎，比如基于apache服务器的nutch。如果以填网站为目的，觉得哪个网站内容好，想借为已用，这种需求是随机灵活的，对于抓取量不太高的采集，可以采集python爬虫工具scrapy。当然，php也可以实现各种网站捕获，但似乎没有形成框架，因为捕获的本质是基本的网络协议，http，所以你清楚地理解这些协议，理解一些脚本语言，基本上会画一个工具来实现你的需求。但效率却大不相同。框架将为您提供完美收集的多元素补充。你几乎涉及到收集应该处理的所有问题。它为您提供了相应的解决方案。如果你有耐心扣除计划，你总能理解他教你的意思，然后合理地实现你的爬虫。然而，收集只是数据处理的一个环节。如何净化和完善数据，基于自身商业目的的导向，也可能涉及知识产权等问题。当然，这不是技术收集的考虑因素。至于数据分析，当然我用python多一点，python提供了很多内置的math函数处理库，比如numpy，scipy,matplotlib,这些互联网都有相应的使用教程，存储或按照这些组件可以处理的格式保存收集到的数据，然后导入数据，所以扔。此外，对于初级用户，介绍现成工具：火车头应该是国内最成功的收集软件之一，用户数量包括收费用户数量应该是最多的优势：功能齐全，收集速度快，主要是cms，可以收集很多，过滤，更换好，更详细；技术：技术主要是BBS支持，帮助文件多，易于启动。有收费和免费版本的缺点：功能复杂，软件越来越大，占用内存和CPU资源，大规模收集速度差，资源回收控制不好。大多数人可能不知道CS架构的限制。这是我自己开发的。我以前用爬虫写程序，java、python等，后来觉得很麻烦，就捣鼓要做一些简单的事，然后就不能停下来了，最近一直在进行产品迭代。优点:功能聚合性强，速度快，saas架构，数据预览，数据规则市场，api等输出方式，免费缺点:知名度还比较低。三人行主要针对论坛的收藏，功能比较完善。优点:或者针对论坛，适合开论坛的技术:收费技术，免费广告缺点:超级复杂，上手难，cms支持差。ET工具的优点:无人值守，自动更新。用户群主要集中在长期潜水站长身上。软件清晰，必要功能齐全。关键是软件是免费的。据说中英文翻译功能的收集已经增加。软件清晰，必要功能齐全。关键是软件是免费的。据说中英文翻译功能的收集已经增加。技术：论坛支持，软件本身是免费的，但也提供收费服务。帮助文件少，开始不容易缺点：BBS和CMS支持一般海纳优势：大，可以抓住很多关键词文章，似乎适合网站主题，特别是文章、博客技术：无论BBS费用，免费功能限制缺点：分类不方便，也就是说，收集文章分类不方便，手动（自动混淆），特定接口，收藏内容有限狂人的优点：非常适合收藏discuz论坛的缺点：过于专一，兼容性差。

内容来源:数据分析网，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：什么样的数据科学实践更容易？下一条：数据分析多层模型介绍

商标/知识产权

网站服务

CRM/销售管理

ERP/智慧办公

财税系统

安全/技术支持

其他应用

商标版权

小程序

如何收集/获取数据？

推荐阅读

猜你喜欢

分类

最新文章