từ hai đồng hợp tử
cha mẹ, nhưng đây không phải là dễ theo dõi trong một thiết lập F1 và sẽ được bỏ đi). Lưu ý rằng
giao diện web được hiển thị tất cả các kiểu gen có thể, bất kể các loại bản đồ.
• o -. đường dẫn thư mục để viết các tập tin đầu ra
• p -. đường dẫn đến tập tin có chứa các chuỗi mẹ
• r - đường dẫn đến tập tin có chứa các trình tự thế hệ con cháu .
>>>> Ví dụ sử dụng đậu xanh:
điều kiện tốt nhất để phát hiện SNPs 1nt nên là: m = 5 (để giảm nguy cơ không phù hợp duy nhất do
lỗi sequencing), M = 1 (locus sẽ cho phép với chỉ 1 không phù hợp giữa gen tương ứng, vì vậy không có
lỗi trình tự cho phép), n = 1 (sẽ cho phép locus trận đấu giữa cha mẹ với 1 không phù hợp,
và như vậy có thể aa / bb kiểu gen).
>>>> Tăng "m" cho phép điều kiện nghiêm ngặt hơn và tránh hiểu sai
lỗi trình tự như SNPs. Tuy nhiên, [m] không nên vượt quá 10 vì nó có thể làm giảm quá nhiều
tổng số loci.
4a.2b- Run denovo_map.pl sử dụng Shell Script
Thay vào đó ofentering một dòng lệnh trong các thiết bị đầu cuối, một kịch bản có thể được sử dụng để stacks chạy. Nó
cung cấp các lợi thế của việc có thể chạy nhiều mẫu và nhiệm vụ cùng một lúc.
Tạo file "stacks.sh" và viết kịch bản sau đây:
#! / bin / bash
cd / usr / local / share / stacks / scripts
mẹ = " parent1 parent2 "
con cháu = "progeny1 progeny2 progeny3 progeny4 progeny5 ... .."
pathparent = ""
pathprogeny = ""
cho tôi trong $ mẹ
làm
pathparent + = "- p /path/to/samples/${i}.fq";
done
cho tôi trong $ con cháu
làm
pathprogeny + = "- r /path/to/samples/${i}.fq";
thực hiện
denovo_map.pl -m 3 -M 1 -n 1 -T 15 -B db_name_radtags -b 1 -A F2 -t -H
-D "Denovo Map"
o / path / to / stacks_denovo
$ pathparent
$ pathprogeny
Sau đó chạy script bằng cách vỗ nhẹ trong dòng lệnh sau trong terminal:
> bash / path / to / ngăn xếp sh
4b- Stacks - ref_map (với trình tự hệ gen)
Chương trình sẽ chạy một loạt các thành phần ngăn xếp (Pstacks> Cstacks> Sstacks>
kiểu gen> load_radtags.pl> index_radtags.pl> kiểu gen) để tạo ra một
danh mục các loci và alen (SNPs). Sự khác biệt có ý nghĩa với denovo_map, là ref_map
trình tự sử dụng lần đầu tiên được sắp xếp để một bộ gen tham chiếu sử dụng Bowtie (hoặc chỉnh
chương trình) mà tạo ra các tập tin SAM. File SAM sẽ được sử dụng như là đầu vào cho ref_map. Các [m]
cờ trong ref_map đề cập đến số lần đọc mà sắp xếp để một vị trí duy nhất trong tài liệu tham khảo
bộ gen, nhưng đọc có thể khác nhau mà tạo ra alen (Đối với quá trình này denovo_map
cần 2 lá cờ: [m] số giống hệt nhau đọc và [M] sự khác biệt giữa các alen). Vì vậy, [m]
tương ứng với chiều sâu locus trong ref_map, trong khi nó tương ứng với độ sâu allele trong
denovo_map. Dữ liệu đầu ra có thể xem thông qua giao diện web mySQL, xuất khẩu trong tsv hoặc
định dạng xls.
4b.1- Tạo thư mục "samples_ref" và "stacks_ref" trong
thư mục "stacks_analysis" để sản xuất các tệp danh mục được tạo ra từ việc phân tích ref_map.
4b. 2- Run Bowtie2-xây dựng từ dòng lệnh
Chương trình sẽ chỉ mục các tập tin trình tự bộ gen thành 6 tập con (bt2 file)
> cd / path / to / stacks_analysis / samples_ref
> /path/to/bowtie2-2.2.3/bowtie2-build -f [nhập] [bt2_base]
[-f] để xác định rằng các tập tin đầu vào là trong FASTA định dạng
[nhập] đường dẫn đến trình tự bộ gen ở định dạng FASTA (./genome.fa)
[bt2_base] tên cơ sở của các tập con tương lai ( Ex: Gen)
4b.3- Run Bowtie2 từ dòng lệnh
chương trình sẽ thực hiện một sự liên kết của các radtags đọc để tham khảo genome.of. Bởi
mặc định, Bowtie 2 thực hiện end-to-end đọc liên kết (như phản đối một sự liên kết địa phương
mode). Đó là, nó tìm kiếm sự sắp xếp, liên quan đến tất cả các nucleotide trong đọc và
xác nhận sự liên kết nếu điểm số của nó là ở trên ngưỡng. Alignment số tính toán:
base sai = -6, khoảng cách = -11 (Ex: cho một chuỗi với một mismatch + 1 khoảng cách, liên kết
điểm số = -6-11 = -17). Max kết score = 0 khi trận đấu là hoàn hảo. Các mặc định
ngưỡng số điểm tối thiểu là [-0.6 + (- 0.6 * L)], trong đó L là chiều dài read (Ex: 64bp đọc,
số điểm tối thiểu = -0.6- (0,6 * 64) = -39). Điều này có thể được cấu hình với các tùy chọn [-score-min
L, -0.6, -0.6].
Thực hiện các chương trình từ thư mục "samples_ref" có chứa các tập tin bt2. Chạy
chương trình cho mỗi mẫu (cha mẹ và các tập tin hệ con cháu) độc lập.
> cd / path / to / stacks_anaylsis / samples_ref
> /path/to/bowtie2-2.2.3/bowtie2 [-x bt2-base] [nhập -U] [ sản lượng -S] [- -score-min L, -0.6, -
0.1]
[-x] tên cơ sở của tập con gen (Ex: Gen)
[U] đường dẫn đến tập tin có chứa các trình tự mẫu (ví dụ: parent1. fq)
[-S] đường dẫn đến tập tin trong đó kết quả sẽ được lưu trữ (ví dụ: parent1.sam)
[- -score-min] định nghĩa các biến sử dụng để tính toán các ngưỡng điểm tối thiểu [-0.6 + (-
0.1 * L )], mặc định là [-0.6 + (- 0.6 * L)]. L là chiều dài đọc.
4b.4a- Run ref_map.pl sử dụng dòng lệnh
> cd / usr / local / share / stacks / script
> ref_map.pl -m 3 -n 1 -T 15 -B db_name_radtags -b 1 - Một F2
-D "Ref Map"
o / path / to / stacks_analysis / stacks_ref
p /path/to/stacks_analysis/samples/parent1.sam
p /path/to/stacks_analysis/samples/parent2.sam
r /path/to/stacks_analysis/samples/progeny1.sam
r /path/to/stacks_analysis/samples/progeny2.sam
r /path/to/stacks_analysis/samples/progeny3.sam
...... nhập tất cả mẫu ......
• n -số sai lệch cho phép giữa các locus khi xây dựng danh mục (mặc định là 0). Xem
chương trước để biết thêm chi tiết.
• m -minimum sâu vùng phủ sóng (nb lần đọc) để tạo ra một ngăn xếp (default 1). Xem trước
chương để biết thêm chi tiết.
• T - xác định số lượng các chủ đề để thực thi.
• A - nếu chế biến một bản đồ di truyền, xác định kiểu chéo, 'CP', 'F2', 'BC1', 'DH', hay ' GEN '.
Xem chương trước để biết thêm chi tiết.
• B -. chỉ định một cơ sở dữ liệu để tải dữ liệu vào
• b - ID batch đại diện cho tập dữ liệu này trong cơ sở dữ liệu.
• D - mô tả hàng loạt
• o - đường dẫn thư mục để viết các tập tin đầu ra.
• p . - đường dẫn đến tập tin có chứa các chuỗi mẹ
. • r - đường dẫn đến tập tin có chứa các trình tự thế hệ con cháu
ATTENTION: ref_map có thể chạy trực tiếp sử dụng SAM hay BAM tập tin. Nếu sử dụng các tập tin BAM,
đảm bảo rằng các tập tin được sắp xếp và lập chỉ mục trước khi được sử dụng bởi ref_map.
4b.4b- Run ref_map.pl sử dụng Shell Script
Thay vào đó ofentering một dòng lệnh trong các thiết bị đầu cuối, một kịch bản có thể được sử dụng để chạy stacks . Nó
cung cấp các lợi thế của việc có thể chạy nhiều mẫu và nhiệm vụ cùng một lúc.
Tạo file "stacks.sh" và viết kịch bản sau đây:
#! / bin / bash
cd / path / to / stacks_analysis / samples_ref
/ path / to / bowtie2-2.2.3 / bowtie2-build-f genome.fa Gen
mẫu = "parent1 parent2 progeny1 progeny2 progeny3 ...."
cho tập tin trong $ mẫu
làm
/ path / to / bowtie2 -x Gen -U ../samples/ $ {file} .fq -S ./${file}.sam
làm
cd / usr / local / share / stacks / scripts
mẹ = "parent1 parent2"
con cháu = "progeny1 progeny2 progeny3 progeny4 progeny5 ... .."
cho tôi trong $ mẹ
làm
pathparent + = "- p /path/to/samples_ref/${i}.sam";
làm
cho tôi trong $ con cháu
làm
pathprogeny + = "- r /path/to/samples_ref/${i}.sam";
done
ref_map.pl -m 3 -n 1 -T 15 -B db_name_radtags -b 1 -A F2
-D "Ref Map"
o / path / to / stacks_analysis / stacks_ref
$ pathparent
$ pathprogeny
Sau đó chạy kịch bản bằng taping trong dòng lệnh sau trong terminal:
> bash /path/to/stacks.sh
5- Phân tích dữ liệu trên cơ sở dữ liệu mySQL
5.1 đi đến http: // localhost / ngăn xếp
5.2- Chọn một database_radtags → Catalog
5.3- Xác định Bộ lọc:
alen: Số alen mỗi locus. Kể từ khi cả hai cha mẹ (F0) dự kiến sẽ được
đánh giá cao đồng hợp tử (> 90%), chúng ta có thể mong đợi để có tối đa 2 alen mỗi locus, một từ
. mỗi phụ huynh (aa / bb)
Recommended lập: 1-2
SNPs: Phạm vi số SNPs mỗi locus. Kể từ khi tái tổ hợp là không thể xảy ra
. giữa SNPs của cùng một locus, lọc theo số lượng SNPs mỗi alen không phải vấn đề
thiệu thiết lập: 1
Trận Đấu Parental: Số cha mẹ phù hợp với một locus. Nếu chúng ta đang làm việc với một
chéo đơn giản từ các bậc cha mẹ có liên quan chặt chẽ, sau đó cả hai phải phù hợp với từng locus. Tuy nhiên, nếu
có một đa hình giữa cha mẹ ảnh hưởng đến việc sử dụng trang web hạn chế để tạo ra các
thư viện radtags, sau đó chỉ có một phụ huynh có thể hiển thị một allele cho các locus (aa / -). Lưu ý rằng nếu
có quá nhiều đa hình giữa cha mẹ hoặc / và nếu cờ [n] được đặt quá thấp,
alen khác nhau từ mỗi phụ huynh thường phải thuộc về cùng một locus, có thể được
phân loại như là hai loci khác nhau.
Đề xuất thành lập: 1-2
Progeny các trận đấu: số lượng tối thiểu của các thế hệ con cháu phù hợp với các locus. Mức chất lượng
các mốc dự kiến sẽ được tìm thấy trong một số lượng lớn các thế hệ con cháu. Kể từ khi cha mẹ loci nên
được chủ yếu là đồng hợp tử và các dấu hiệu nên cách ly trong 1: 2: 1 trong dân F2; mỗi alen
. nên có mặt trong ¾ (75%) của progenies
thiệu thiết lập: 60% đến 75% của tổng số các thế hệ con cháu.
Sự phân biệt Distortion: thử nghiệm Chi-square cho sự phân ly của các điểm đánh dấu trong các
thế hệ con cháu. Các nhỏ hơn p-giá trị, thì tốt hơn; Ý nghĩa thống kê là đạt được khi giá trị p <
0,05. Tuy nhiên không sử dụng bộ lọc này khi giao dịch với số lượng nhỏ các mẫu thế hệ con cháu
(Adequate mẫu size> 10 con cháu).
Progeny mappable: Số con cháu mà một kiểu gen có thể được suy ra. (1) Một
locus là mappable trong một thế hệ con cháu nếu alen của đời con là phù hợp với các alen có mặt
trong các bậc cha mẹ. (2) Một locus Progeny là mappable dựa trên sự đa dạng của các alen của nó và có
chiều sâu của vùng phủ sóng. Điều này được dựa trên các tiêu chí được xác định bằng các chương trình kiểu gen
được bao gồm trong denovo_map và ref_map (xem chương 6b- Stacks - kiểu gen cho
biết thêm).
mappable Marker: Để chỉ hiển thị một loại một marker mappable dựa trên các
kiểu gen được tìm thấy trong thế hệ con cháu . Đánh dấu mappable được dựa trên các thế hệ con cháu mappable.
Kiểu gen không được gọi cho nhiều loci trong các mẫu thế hệ con cháu vì sự hiện diện của các
alen nhỏ. Alen nhỏ đến từ sự liên kết của trung đọc mà tạo ra một nghi ngờ
về việc liệu một locus có thể được gọi đồng hợp tử hay dị hợp tử, do đó hạn chế số lượng
các thế hệ con cháu mappable. Sử dụng các flag [-H] có thể giúp đỡ để sửa vấn đề này bằng cách vô hiệu hóa
. sử dụng đọc thứ cấp để kêu gọi các haplotype
thiệu thiết lập: aa / bb
tương tự cho con cháu mappable: Kiểu gen.
Lưu ý: chương trình xác định theo thứ tự sau: Các đa hình
đang được dịch, vui lòng đợi..
