
R语言适合单机版吧,函数肯定比spark丰富; spark是分布式计算引擎,里面包含ml(machine learning),函数和功能没有R多,而且输入格式要求比较高。
适合大数据量下的计算(十亿或百亿级别,TB级别以上的数据),不过Spark也有SparkR组件,建议可以了解一下。一般情况下,是用抽样数据,在R上实现模型,看看是否可用,再在大数据量下用Spark实现,并运行调优
R语言适合单机版吧,函数肯定比spark丰富; spark是分布式计算引擎,里面包含ml(machine learning),函数和功能没有R多,而且输入格式要求比较高。
适合大数据量下的计算(十亿或百亿级别,TB级别以上的数据),不过Spark也有SparkR组件,建议可以了解一下。一般情况下,是用抽样数据,在R上实现模型,看看是否可用,再在大数据量下用Spark实现,并运行调优