문제 상황
평소에 문자열을 가지고 노는 것을 좋아하는 민호는 DNA 문자열을 알게 되었다. DNA 문자열은 모든 문자열에 등장하는 문자가 {‘A’, ‘C’, ‘G’, ‘T’} 인 문자열을 말한다. 예를 들어 “ACKA”는 DNA 문자열이 아니지만 “ACCA”는 DNA 문자열이다. 이런 신비한 문자열에 완전히 매료된 민호는 임의의 DNA 문자열을 만들고 만들어진 DNA 문자열의 부분문자열을 비밀번호로 사용하기로 마음먹었다.
하지만 민호는 이러한 방법에는 큰 문제가 있다는 것을 발견했다. 임의의 DNA 문자열의 부분문자열을 뽑았을 때 “AAAA”와 같이 보안에 취약한 비밀번호가 만들어 질 수 있기 때문이다. 그래서 민호는 부분문자열에서 등장하는 문자의 개수가 특정 개수 이상이여야 비밀번호로 사용할 수 있다는 규칙을 만들었다.
임의의 DNA문자열이 “AAACCTGCCAA” 이고 민호가 뽑을 부분문자열의 길이를 4라고 하자. 그리고 부분문자열에 ‘A’ 는 1개 이상, ‘C’는 1개 이상, ‘G’는 1개 이상, ‘T’는 0개 이상이 등장해야 비밀번호로 사용할 수 있다고 하자. 이때 “ACCT” 는 ‘G’ 가 1 개 이상 등장해야 한다는 조건을 만족하지 못해 비밀번호로 사용하지 못한다. 하지만 “GCCA” 은 모든 조건을 만족하기 때문에 비밀번호로 사용할 수 있다.
민호가 만든 임의의 DNA 문자열과 비밀번호로 사용할 부분분자열의 길이, 그리고 {‘A’, ‘C’, ‘G’, ‘T’} 가 각각 몇번 이상 등장해야 비밀번호로 사용할 수 있는지 순서대로 주어졌을 때 민호가 만들 수 있는 비밀번호의 종류의 수를 구하는 프로그램을 작성하자. 단 부분문자열이 등장하는 위치가 다르다면 부분문자열이 같다고 하더라도 다른 문자열로 취급한다.
입력
첫 번째 줄에 민호가 임의로 만든 DNA 문자열 길이 |S|와 비밀번호로 사용할 부분문자열의 길이 |P| 가 주어진다. (1 ≤ |P| ≤ |S| ≤ 1,000,000)
두번 째 줄에는 민호가 임의로 만든 DNA 문자열이 주어진다.
세번 째 줄에는 부분문자열에 포함되어야 할 {‘A’, ‘C’, ‘G’, ‘T’} 의 최소 개수가 공백을 구분으로 주어진다. 각각의 수는 |S| 보다 작거나 같은 음이 아닌 정수이며 총 합은 |S| 보다 작거나 같음이 보장된다.
출력
첫 번째 줄에 민호가 만들 수 있는 비밀번호의 종류의 수를 출력해라.
접근법
처음엔 투 포인터로 풀었는데, 슬라이딩 윈도우를 사용하는 것이 조금 더 깔끔하다.
알고리즘을 수정하면서 chatGPT 의 도움을 받아 변수명과 메서드명을 깔끔하게 정리했는데 확실히 직관적이다. 이름짓는건 앞으로도 도움을 좀 받아야겠다ㅎ
슬라이딩 윈도우 알고리즘
- 2개의 포인터로 범위를 지정한 다음 범위(window)를 유지한 채로 이동(sliding)하며 문제를 해결
- 투 포인터와 매우 비슷
문제 풀이
투 포인터를 사용
부분문자열에 포함되어야 할 {‘A’, ‘C’, ‘G’, ‘T’} 의 최소 개수를 checkCount
배열에 저장
부분문자열의 길이가 P이므로 두 포인터 left
와 right
사이의 거리는 P
따라서 left
는 0 / right
는 P-1로 초기화해주고 left
와 right
를 1씩 더해가며 부분문자열을 구함
- 제일 처음 구해지는 부분문자열 즉 0부터 P-1까지의 부분문자열에 포함되는 {‘A’, ‘C’, ‘G’, ‘T’}의 개수를
count
배열에 저장 checkCount
와count
의 각 인덱스의 값을 비교해서 비밀번호로 사용 가능한 문자열인지 판단- 슬라이딩 윈도우를 한칸씩 이동
- 빠지는 문자와 새로 들어오는 문자에 대해
count
배열을 업데이트 - 비밀번호로 사용 가능한 문자열인지 판단
- 빠지는 문자와 새로 들어오는 문자에 대해
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.StringTokenizer;
public class Main {
public static void main(String[] args) throws IOException {
BufferedReader br = new BufferedReader(new InputStreamReader(System.in));
StringTokenizer st = new StringTokenizer(br.readLine());
int S = Integer.parseInt(st.nextToken());
int P = Integer.parseInt(st.nextToken());
String str = br.readLine();
int[] count = new int[4];
int[] checkCount = new int[4];
st = new StringTokenizer(br.readLine());
for (int i = 0; i < count.length; i++) {
count[i] = Integer.parseInt(st.nextToken());
}
int answer = 0;
int left = 0;
int right = P-1;
String dna = str.substring(left, right);
for (int i = 0; i < dna.length(); i++) {
checkCount[dnaCheck(dna.charAt(i))]++;
}
while(right != S){
checkCount[dnaCheck(str.charAt(right))]++;
boolean check = true;
for (int i = 0; i < 4; i++) {
if(count[i] > checkCount[i]){
check = false;
break;
}
}
if(check == true) answer++;
checkCount[dnaCheck(str.charAt(left))]--;
left++;
right++;
}
System.out.println(answer);
}
public static int dnaCheck(char a){
int result = 0;
switch(a){
case 'A' :
result = 0;
break;
case 'C' :
result = 1;
break;
case 'G' :
result = 2;
break;
case 'T' :
result = 3;
break;
}
return result;
}
}
슬라이딩 윈도우 사용
chatGPT 의 도움을 받아 변수명과 메서드명을 깔끔하게 정리했다. 확실히 직관적이다. 굿 👍
S
->dnaLength
: 주어진 DNA 문자열의 길이P
->substringLength
: 주어진 부분 문자열의 길이str
->dna
: 주어진 DNA 문자열count
->currentCount
: 현재 부분 문자열에서의 DNA 문자 개수를 저장하는 배열checkCount
->requiredCount
: 주어진 부분 문자열에서 요구되는 DNA 문자 개수를 저장하는 배열dnaCheck
->dnaToIndex
: DNA 문자를 인덱스로 변환하는 메서드 이름
맨 처음 부분문자열이 저장된 상태에서 아래와 같이 사용하면 right와 left가 일정한 간격을 두고 한칸씩 이동하면서 문자열을 검증한다.
for (int right = substringLength; right < dnaLength; right++) {
int left = right-substringLength;
currentCount[dnaToIndex(dna.charAt(right))]++;
currentCount[dnaToIndex(dna.charAt(left))]--;
if(isValidSubstring()) answer++;
}
전체코드
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.StringTokenizer;
public class Main {
static int[] requiredCount = new int[4];
static int[] currentCount = new int[4];
public static void main(String[] args) throws IOException {
BufferedReader br = new BufferedReader(new InputStreamReader(System.in));
StringTokenizer st = new StringTokenizer(br.readLine());
int dnaLength = Integer.parseInt(st.nextToken());
int substringLength = Integer.parseInt(st.nextToken());
String dna = br.readLine();
st = new StringTokenizer(br.readLine());
for (int i = 0; i < requiredCount.length; i++) {
requiredCount[i] = Integer.parseInt(st.nextToken());
}
int answer = 0;
// 맨 처음 부분문자열 세팅 및 검증
for (int i = 0; i < substringLength; i++) {
currentCount[dnaToIndex(dna.charAt(i))]++;
}
if(isValidSubstring()) answer++;
// 슬라이딩 윈도우를 사용하여 모든 부분문자열 검증
for (int right = substringLength; right < dnaLength; right++) {
int left = right-substringLength;
currentCount[dnaToIndex(dna.charAt(right))]++;
currentCount[dnaToIndex(dna.charAt(left))]--;
if(isValidSubstring()) answer++;
}
System.out.println(answer);
}
public static int dnaToIndex(char a){
int index = 0;
switch(a){
case 'A' :
index = 0;
break;
case 'C' :
index = 1;
break;
case 'G' :
index = 2;
break;
case 'T' :
index = 3;
break;
}
return index;
}
public static boolean isValidSubstring() {
for (int i = 0; i < 4; i++) {
if(requiredCount[i] > currentCount[i]){
return false;
}
}
return true;
}
}
'알고리즘 > 자료구조' 카테고리의 다른 글
[백준] 1874 스택 수열 (스택) - Java (0) | 2023.05.16 |
---|---|
[백준] 11003 최솟값 찾기 (슬라이딩 윈도우, 덱) - Java (0) | 2023.05.14 |
[백준] 1253 좋다 (투 포인터) - Java (0) | 2023.05.14 |
[백준] 1940 주몽 (투 포인터) - Java (1) | 2023.05.14 |
[백준] 2018 수들의 합 5 (투 포인터) - Java (0) | 2023.05.13 |