第三章 遗传地形图

知识类型: 析出资源
查看原文
内容出处: 《中国姓氏群体遗传和人口分布》 图书
唯一号: 131020020210012262
颗粒名称: 第三章 遗传地形图
分类号: K810.2
页数: 11
页码: 58-68
摘要: 遗传地形图概括了样本和分布图、迁移率和迁移图等。
关键词: 姓氏 地形图 群体遗传

内容

3.1样本和分布图
  样本就是能客观和全面地反映总体的一群代表,通过对样本的分析和样本的统计,来推断总体的数值,以此来描绘和了解总体,这是群体遗传学中常用的研究方法。既然我们研究的是样本,根据实际条件,对样本就有一定的要求和统计学的检验,这样才能获得最理想的样本。从总体中抽取的样本的首要原则是随机性,其次是样本数量的最小原则。
  当代姓氏的样本是国家统计局人口统计司提供的1982年全国人口万分之五,三阶段整群抽样资料(国家统计局,1984年)。
  最小样本数目确定的公式: 理论上最少的样本数为53万人。实际上1982年随机取样数为57万余人,把握程度有效地超过了设计要求。
  三阶段整群抽样方法是按三个层次进行的,省(自治区、直辖市)抽县(市、区),县(市、区)抽乡(街道),乡(街道)抽居民点(村民小组、居民区)。各层次均有其概率比例(国家统计局1984年人口变动情况抽样调查方法)。
  我们对以上的样本点和姓氏进行了验证,根据姓氏分布的要求,几个点的样本人数太少不能用,可用的样本点为291个,除了少数民族外,又剔除了一些姓氏不明的样本,共获得汉族样本537421人。
  台湾地区的姓氏数据来自1967年的全台湾四分之一的抽样(陈绍馨和傅瑞德《台湾人口姓氏分布》,1968年),共有19个抽样县(市),我们按万分之五的比例获得台湾的样本4841个。所以,当今全国姓氏的总样本为542262个,抽样点310个,图3.1为抽样点的分布图。
  宋、元、明三朝的历史姓氏资料来自近千部的文献中的人物,组成的样本并不完全的随机,我们根据当时的各省的人口分布情况加以调整,并用“中性等位基因分布”的理论进行检验,说明了宋、元、明三朝的历史姓氏资料的可信程度。详细的说明见第二章的有关章节。
  每一同姓人群在各地的分布都不平衡,不同姓氏人群的分布也都不一致,任何文字和数据都不能完整地说明它们的分布形状和与其他同姓人群的关系。绘制姓氏遗传地形图就是为了能在地图上直观地看到每一同姓人群的分布状况,包括其分布的形状、同姓人群的分布中心、聚集区域、扩散趋势、人口密度以及在各地的总人口中所占的比例。
  我们利用当代姓氏的全国抽样样本,绘制了当今最常见100个姓氏的全国遗传地形图。每一个姓氏的遗传地形图包括两幅图:密度分布图和频率分布图。密度分布图说明某同姓人群在全国的绝对分布情况,即在每平方公里内某姓人口数。频率分布图将揭示某同姓人群在全国的相对分布情况,即某姓占当地总人口的比例。全部200幅分布图已展示在书前并在下编中逐一地给以详细的说明。
  绘制遗传地形图的原理是:根据全国310个抽样点上的全部姓氏的分布值,对全国其他没有取得数值的点进行插值,获得每一点上的全部姓氏的推算分布值(Shepard1968,Piazza et al.1981,Piazza and Menozzi1983)。换句话说,就是用已有数值的点来推测未取得数值的点。取得了全部点的值以后,对全部点按若干不同的值归类,不同值的点用不同的颜色或灰度来表示,最终展示在大家面前的是一幅幅清晰直观的姓氏遗传地形彩图。全国分成93938个插值点,每一点的某一姓氏的插值由310个抽样点上的这一姓氏的分布值来决定,由于每一点到310个抽样点的距离不同,理论上讲距离越远,抽样点的值对其影响越小,反之则越大,原点的影响为最大。修正的插值公式如下:公式中di代表第i个抽样点到插值点的距离,〓和〓i分别代表插值点和第i个抽样点的纬度,y和yi分别代表插值点和第i个抽样点的经度,当然,地理距离的计算不是直线的,还要作些其他的处理。I代表全部310个抽样点,p代表插值点的某姓氏的插值,wi代表第i个抽样点到插值点的距离系数,pi代表第i个抽样点的某姓氏的分布值。
  用抽样点绘制的遗传地形图也存在缺憾,由于是全国千分之零点五的抽样数据,存在一些点的数据有较大的误差,特别是新疆地区的姓氏数据(参见第二章的表2.2b),主要表现在经插值后新疆等地区的值偏高,在下编中的100个大姓遗传地形图上将会有所显示。但作为整体数据是符合设计要求的,其所反映的每一种姓氏的全国分布图形和发展趋势基本上与现状相符,不合理的地方正是我们在今后需要改正的。但在这次绘制中不能轻易地撤去这些点,以免造成整体不平衡,失去统计学的意义。
  3.2迁移率和迁移图
  中国人历来有同姓聚居和联宗修谱的习俗,而且,“婚姻半径”小,地域相对固定,这样形成了大小不等的同姓人群。中国人的姓氏分布实际上主要反映的是同姓人群的分布规律。在中国,某一村落全体成员都姓同一姓氏的情况是不会发生的,但全体男性为同一姓氏是可能的。相对隔离的群体内的姓氏种类和姓氏比例随意发生变化的可能性很小,而只有当与周边群体发生人员流动才会改变群体内的姓氏种类和姓氏比例。村与村之间、乡与乡之间、县与县之间、省与省之间经常发生着人口的迁移。人口的迁移对人群内的姓氏种类和姓氏比例的改变,人群越小,影响越大。所以说,迁移是影响亚群体的遗传结构的主要因素,也是影响亚群体内姓氏种类结构的主要因素。
  迁移率是研究人群迁移的主要参数,要取得计算迁移率的数据是十分复杂和非常不易的。虽然,历史文献中频繁出现记录历代人口迁移的大事记,但人口迁移数据不完整,很难统计,至于迁移率则更难确定了。历史文献上还有一种是人物的记录,例如阵亡士兵、烈女等名单。这种记录是随机的、大量的,内容包括姓氏、地区、年代等主要因素,一直不为人们所注意,这是一批十分有用的人口迁移的记录,有可能成为分析人群迁移,特别是同姓人群迁移的素材,是研究姓氏变迁的重要资料。结合历史上人口数,有可能建立一种人群迁移的模式,确立各时期各地区的相对迁移率,供有关学科参考。
  当代世界最负盛名的美国斯坦福大学的人类群体遗传学家卡瓦利-斯福扎教授,1968年以来发表了一系列有关人群迁移的研究,其中就有介绍用姓氏作为材料的研究文章(Bodmer and Cavalli-Sforza,1968.Wijsman ed.ta,1984)。根据不同时期不同地区的全部姓氏资料,进行姓氏频率的分布的计算,建立各个时期不同地区群体的遗传结构数据库,从而获得不同时期和不同组合的相对的人群迁移率(m),这些迁移率对当时的人群的迁移有一比较合理的估算。推算迁移率m的一系列公式如下: 首先建立不同时期不同地区群体的姓氏的亲缘系数(Kinship)的数据库,亲缘系数也即为同姓率(Isonymy),其公式如下:式中S表示全部姓氏种类数,pils表示i地区第一时期中第s个姓氏的相对分布频率,pj2,表示j地区第二时期中第s个姓氏的相对分布频率。全部S姓氏的pils与pj2s乘积总和为Iij12,即表示i和j地区之间在第一和第二时期间的总的亲缘系数矩阵。
  人群迁移的概念是外来人口的迁入与群体内人口的迁出的差值,迁移率是指迁入总人口与迁出总人口之差值和人群总人口的比值。当迁入人口总和大于迁出人口总和时迁移率为正值,反之为负值。假如人群Nl经过迁移和繁殖后变成N2,其迁移率为m,繁殖率为r,那么有以下公式:可变为式中Nspi代表由S×P组成的长方形矩阵N中的第sp个元素,i表示时间段,S表示姓氏数,P表示地区数。rp代表由P×P组成的对角方阵r中的主对角线上的第pp元素,表示P地区的繁殖率。mij代表由P×P组成的方阵m中第ij个元素的值,表示由第j地区向第i地区的迁移率。e代表两个时期之间发生的全部随机因素产生的影响。设b=rm就有这里n代表人口总数,i和j分别代表第i地区和第j地区,1和2分别代表第一时期和第二时期。
  公式虽比较复杂,经过计算机的计算很快获得b矩阵中的全部元素的值,为了便于计算,我们假设各省的人口繁殖率一样,那么有:由b=rm公式可分离出迁移率m矩阵中的全部元素,元素mij代表第j区向第i区迁移的迁移率。以上的迁移率公式的推导,让我们有可能利用姓氏在不同历史时期的分布计算这个时空中人群的迁移率,反映人群的主要流动方向和地域间人群的相对迁移动向。我们利用宋朝、明朝和当代三个时期的姓氏分布的数据获得了宋明期间的迁移率矩阵Msm(表3.2a)和明至现今期间的迁移率矩阵Mmp(表3.2b)(袁义达,2000年)。
  图3.2a和图3.2b是根据相对迁移率绘制的人群迁移图(袁义达,2000年)。
  图3.2a表示宋朝与明朝大约600年间的人群迁移状况,在这600年中,中国人群主要从华北地区向东南部江浙闽地区、中南部湘桂地区、西部陕南地区迁移,四川地区人群大批流入湖南和湖北,同时,广东地区的南方人群向北的湘赣地区扩散。
  图3.2b表示明朝至当代大约600年间的人群迁移状况,在这600年中,中国人群的流动方向有了重大的变化,由南宋时全国人口中心的江浙赣地区开始向北、南和西扩散,长江流域地区人群向北和南流动,造成华北和中原地区人口的快速增长。同时,浙闽地区人口的外移增加了其西南方向上人口的压力,进一步形成了广东地区向北和向西迁移的力量。其次,中原地区和西北地区的人口流入四川,同时四川地区的人口也向湖南地区迁移。这样南北人口逐渐处于平衡。
  两幅人群迁移图也明显反映了在1000年内,以武夷山和南岭为分界线,中国南北汉族存在差别,提示在历史上一直存在着这种差别。
  1000年来中国人迁移的主要原因有三:其一,北部的民族以外族的形象入主中原,原中原人群被迫向南向东南地带迁移,一旦中原政权相对稳定,部分原迁出的人群又返回了原地。其二,相对经济发达的地区和战乱少的东南地区,人口繁殖过快,同样引起人口向外的流动,主要向南部和中南地区流动。其三,自然灾害造成人群迁移。
  对迁移率的分析不仅反映了这1000年间人群迁移的主要方向和途径,而且也说明了,正是由于人群的迁移才形成了当今各地人群的分布现状。人群迁移的全过程代表了迁移人群所携带的全部遗传基因的流动轨迹,并与当地人群遗传基因交流和重组。不断的人群移动,不断的遗传基因流动,动态的各地人群内遗传结构重组和变化,是形成当今各地汉族的主要原因。

知识出处

中国姓氏群体遗传和人口分布

《中国姓氏群体遗传和人口分布》

出版者:华东师范大学出版社

本书内容包括:中国姓氏群体遗传(绪论、姓氏分布、遗传地形图、姓氏与血型),当代大姓及其分布规律。

阅读