AI 浪潮下,抽样为何仍是数据分析 “刚需”?
蛇年新篇
小编经常收到小伙伴问这样的问题——这也是许多研究者在做数据分析初期遇到的疑惑:
√ AI时代变化快,还有必要进行抽样吗?
√ 需要研究多少个样本,才能得出有效的结论?
√ 什么样本、样本有多大,才能较好地代表总体?
√ 那么多抽样方法和工具,该如何选择?
本篇文章就来解答大家对于数据抽样的各种问题,让你一文就精通!
点此回顾:研究数据的清洗最头疼?使用DiVoMiner化繁为简
抽样(Sampling)是研究者常用的方法,从总体对象中,按照某种原则,抽取一部分,并通过对该部分进行研究,得出对总体的认识。
抽样的目的是通过对一部分被选择的样本来推断总体,要求我们抽取的样本具有能够代表总体质量特征的性质,也就是抽样的代表性。
抽样方法主要分为两大类:随机抽样方法与非随机抽样方法:
无论使用AI还是人工对数据进行分析,抽样都是有必要的,因为数据量庞大时处理全部数据成本高、效率低,抽样能平衡数据量与处理能力;还可用于控制数据质量,帮助节省时间和资源,为决策提供依据。
蛇年新篇
这个问题实属小编收到过最多的求助——选多了,时间和人力成本增高,降低了研究效率;选少了,又怕不足以代表总体,影响研究的严谨性。
抽样的样本量的选定,往往会考虑以下几个因素:
展开全文常用的方法是通过统计公式计算样本量,或使用统计软件进行样本量估计,以满足研究的精确性和可靠性要求。大家也可以参考类似的研究,来决定最终抽样的样本量。
制定好抽样方法和样本量,就可以开始抽样了!不用担心,在DiVoMiner平台上点几下鼠标就能轻松搞定,多复杂的抽样规则也不用怕!
第一步:点击【抽样】,命名,创建抽样库
第二步:设置抽样范围
在随机抽样的情况下,只需要输入百分比或固定数值即可完成抽样。还可以根据点赞、评论、转发等条件进行升降序的抽样。
在非随机抽样的情况下,就可以点击【设置抽样范围】,对抽样规则进行个性化的制定。
抽样的条件和规则,既可以设置为满足下列“全部条件”(AND逻辑),也可以是“任意条件”(OR逻辑)。
设置好规则,只需要稍等片刻,抽样就完成啦!是不是很方便、很高效呢!在DiVoMiner平台上一次性完成多条件的复杂抽样,也是很容易的!
小编提醒,在抽样后,会形成独立数据库,可以单独操作、多库并行,但是、抽样库是占用话题数据容量和文件容量的哟~记得合理规划话题使用情况。
蛇年新篇