不用纠结于这个吧。 一般来说是dn去读处理自己节点的数据。当数据倾斜比较厉害的时候,也就是所有数据都在一台dn上的话,会有跨节点作业出现,其他的dn来读这台dn的数据。
hdfs就是个文件系统,可以存任何东西,可以理解为一块硬盘