thp/src/lexic/mod.rs

mod utils;
mod scanner;
use super::token::{self, Token};

type Chars = Vec<char>;

pub enum LexResult {
    // A token was scanned
    Some(Token, usize),
    // No token was found, but there was no error (EOF)
    None(usize),
    Err(String),
}


/// Scans and returns all the tokens in the input String
pub fn get_tokens(input: &String) -> Result<Vec<Token>, String> {
    let chars: Vec<char> = input.chars().into_iter().collect();
    let mut results = Vec::new();
    let mut current_pos: usize = 0;

    while has_input(&chars, current_pos) {
        match next_token(&chars, current_pos) {
            LexResult::Some(token, next_pos) => {
                results.push(token);
                current_pos = next_pos;
            },
            LexResult::None(next_pos) => {
                current_pos = next_pos;
            },
            LexResult::Err(reason) => return Err(reason),
        }
    }

    results.push(token::new_eof(0));
    Ok(results)
}

fn next_token(chars: &Chars, current_pos: usize) -> LexResult {
    let next_char = peek(chars, current_pos);

    // If EOF is reached return nothing but the current position
    if next_char == '\0' {
        return LexResult::None(current_pos)
    }

    // Handle whitespace recursively
    if next_char == ' ' {
        return next_token(chars, current_pos + 1)
    }

    // Scanners
    None
        .or_else(|| scanner::number(next_char, chars, current_pos))
        .or_else(|| scanner::identifier(next_char, chars, current_pos))
        .or_else(|| scanner::string(next_char, chars, current_pos))
        .or_else(|| scanner::operator(next_char, chars, current_pos))
        .or_else(|| scanner::grouping_sign(next_char, chars, current_pos))
        .unwrap_or_else(|| {
            LexResult::Err(format!("Unrecognized character: {}", next_char))
        })
}

fn peek(input: &Chars, pos: usize) -> char {
    let result = input.get(pos).unwrap_or(&'\0');
    *result
}

fn has_input(input: &Chars, current_pos: usize) -> bool {
    current_pos < input.len()
}


#[cfg(test)]
mod tests {
    use super::*;
    use token::TokenType;

    /// Should return an EOF token if the input has no tokens
    #[test]
    fn test1() {
        let input = String::from("");
        let tokens = get_tokens(&input).unwrap();
        assert_eq!(1, tokens.len());
        let first = tokens.get(0).unwrap();
        assert_eq!(TokenType::EOF, first.token_type);

        let input = String::from("  ");
        let tokens = get_tokens(&input).unwrap();
        assert_eq!(1, tokens.len());
        let first = tokens.get(0).unwrap();
        assert_eq!(TokenType::EOF, first.token_type);

        let input = String::from("    ");
        let tokens = get_tokens(&input).unwrap();
        assert_eq!(1, tokens.len());
        let first = tokens.get(0).unwrap();
        assert_eq!(TokenType::EOF, first.token_type);
    }

    #[test]
    fn t() {
        let input = String::from("126 ");
        let chars: Vec<char> = input.chars().into_iter().collect();

        assert_eq!(4, chars.len());
        assert!(has_input(&chars, 0));

        match next_token(&chars, 0) {
            LexResult::Some(t, _) => {
                assert_eq!("126", t.value)
            },
            _ => {
                panic!()
            }
        }
    }

    /// Should scan numbers
    #[test]
    fn number_test() {
        let input = String::from("126 278.98 0.282398 1789e+1 239.3298e-103");
        let tokens = get_tokens(&input).unwrap();

        let t1 = tokens.get(0).unwrap();
        assert_eq!(TokenType::Number, t1.token_type);
        assert_eq!("126", t1.value);

        let t2 = tokens.get(1).unwrap();
        assert_eq!(TokenType::Number, t2.token_type);
        assert_eq!("278.98", t2.value);

        let t3 = tokens.get(2).unwrap();
        assert_eq!(TokenType::Number, t3.token_type);
        assert_eq!("0.282398", t3.value);
        
        assert_eq!("1789e+1", tokens.get(3).unwrap().value);
        assert_eq!("239.3298e-103", tokens.get(4).unwrap().value);
        assert_eq!(TokenType::EOF, tokens.get(5).unwrap().token_type);
    }

    #[test]
    fn grouping_sign_test() {
        let input = String::from("( ) { } [ ]");
        let tokens = get_tokens(&input).unwrap();

        let t = tokens.get(0).unwrap();
        assert_eq!(TokenType::LeftParen, t.token_type);
        assert_eq!("(", t.value);

        let t = tokens.get(1).unwrap();
        assert_eq!(TokenType::RightParen, t.token_type);
        assert_eq!(")", t.value);

        let t = tokens.get(2).unwrap();
        assert_eq!(TokenType::LeftBrace, t.token_type);
        assert_eq!("{", t.value);

        let t = tokens.get(3).unwrap();
        assert_eq!(TokenType::RightBrace, t.token_type);
        assert_eq!("}", t.value);

        let t = tokens.get(4).unwrap();
        assert_eq!(TokenType::LeftBracket, t.token_type);
        assert_eq!("[", t.value);

        let t = tokens.get(5).unwrap();
        assert_eq!(TokenType::RightBracket, t.token_type);
        assert_eq!("]", t.value);
    }
}
Scan operators 2022-11-28 23:33:34 +00:00			`mod utils;`
			`mod scanner;`
			`use super::token::{self, Token};`

			`type Chars = Vec<char>;`

Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00			`pub enum LexResult {`
			`// A token was scanned`
			`Some(Token, usize),`
			`// No token was found, but there was no error (EOF)`
			`None(usize),`
			`Err(String),`
			`}`


Scan operators 2022-11-28 23:33:34 +00:00			`/// Scans and returns all the tokens in the input String`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`pub fn get_tokens(input: &String) -> Result<Vec<Token>, String> {`
Scan operators 2022-11-28 23:33:34 +00:00			`let chars: Vec<char> = input.chars().into_iter().collect();`
			`let mut results = Vec::new();`
			`let mut current_pos: usize = 0;`

			`while has_input(&chars, current_pos) {`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`match next_token(&chars, current_pos) {`
Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00			`LexResult::Some(token, next_pos) => {`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`results.push(token);`
			`current_pos = next_pos;`
			`},`
Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00			`LexResult::None(next_pos) => {`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`current_pos = next_pos;`
			`},`
Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00			`LexResult::Err(reason) => return Err(reason),`
Scan operators 2022-11-28 23:33:34 +00:00			`}`
			`}`

			`results.push(token::new_eof(0));`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`Ok(results)`
Scan operators 2022-11-28 23:33:34 +00:00			`}`

Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00			`fn next_token(chars: &Chars, current_pos: usize) -> LexResult {`
Scan operators 2022-11-28 23:33:34 +00:00			`let next_char = peek(chars, current_pos);`

Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00			`// If EOF is reached return nothing but the current position`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`if next_char == '\0' {`
Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00			`return LexResult::None(current_pos)`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`}`

			`// Handle whitespace recursively`
Scan operators 2022-11-28 23:33:34 +00:00			`if next_char == ' ' {`
			`return next_token(chars, current_pos + 1)`
			`}`

Scan identifiers 2022-12-01 13:33:48 +00:00			`// Scanners`
Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00			`None`
Scan strings and escape characters inside string 2022-12-01 17:53:14 +00:00			`.or_else(\|\| scanner::number(next_char, chars, current_pos))`
			`.or_else(\|\| scanner::identifier(next_char, chars, current_pos))`
			`.or_else(\|\| scanner::string(next_char, chars, current_pos))`
			`.or_else(\|\| scanner::operator(next_char, chars, current_pos))`
			`.or_else(\|\| scanner::grouping_sign(next_char, chars, current_pos))`
Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00			`.unwrap_or_else(\|\| {`
			`LexResult::Err(format!("Unrecognized character: {}", next_char))`
			`})`
Scan operators 2022-11-28 23:33:34 +00:00			`}`

			`fn peek(input: &Chars, pos: usize) -> char {`
			`let result = input.get(pos).unwrap_or(&'\0');`
			`*result`
			`}`

			`fn has_input(input: &Chars, current_pos: usize) -> bool {`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`current_pos < input.len()`
Scan operators 2022-11-28 23:33:34 +00:00			`}`



			`#[cfg(test)]`
			`mod tests {`
			`use super::*;`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`use token::TokenType;`
Scan operators 2022-11-28 23:33:34 +00:00
			`/// Should return an EOF token if the input has no tokens`
			`#[test]`
			`fn test1() {`
			`let input = String::from("");`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`let tokens = get_tokens(&input).unwrap();`
Scan operators 2022-11-28 23:33:34 +00:00			`assert_eq!(1, tokens.len());`
			`let first = tokens.get(0).unwrap();`
			`assert_eq!(TokenType::EOF, first.token_type);`

			`let input = String::from(" ");`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`let tokens = get_tokens(&input).unwrap();`
Scan operators 2022-11-28 23:33:34 +00:00			`assert_eq!(1, tokens.len());`
			`let first = tokens.get(0).unwrap();`
			`assert_eq!(TokenType::EOF, first.token_type);`

Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`let input = String::from(" ");`
			`let tokens = get_tokens(&input).unwrap();`
Scan operators 2022-11-28 23:33:34 +00:00			`assert_eq!(1, tokens.len());`
			`let first = tokens.get(0).unwrap();`
			`assert_eq!(TokenType::EOF, first.token_type);`
			`}`

Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`#[test]`
			`fn t() {`
			`let input = String::from("126 ");`
			`let chars: Vec<char> = input.chars().into_iter().collect();`

			`assert_eq!(4, chars.len());`
			`assert!(has_input(&chars, 0));`

Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00			`match next_token(&chars, 0) {`
			`LexResult::Some(t, _) => {`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`assert_eq!("126", t.value)`
			`},`
Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00			`_ => {`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`panic!()`
			`}`
			`}`
			`}`

Scan operators 2022-11-28 23:33:34 +00:00			`/// Should scan numbers`
			`#[test]`
			`fn number_test() {`
Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00			`let input = String::from("126 278.98 0.282398 1789e+1 239.3298e-103");`
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`let tokens = get_tokens(&input).unwrap();`

			`let t1 = tokens.get(0).unwrap();`
			`assert_eq!(TokenType::Number, t1.token_type);`
			`assert_eq!("126", t1.value);`

			`let t2 = tokens.get(1).unwrap();`
			`assert_eq!(TokenType::Number, t2.token_type);`
			`assert_eq!("278.98", t2.value);`
Scan operators 2022-11-28 23:33:34 +00:00
Fix errors in lexical analyzer 2022-11-29 00:16:55 +00:00			`let t3 = tokens.get(2).unwrap();`
			`assert_eq!(TokenType::Number, t3.token_type);`
			`assert_eq!("0.282398", t3.value);`
Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00
			`assert_eq!("1789e+1", tokens.get(3).unwrap().value);`
Scan operators 2022-11-28 23:33:34 +00:00			`assert_eq!("239.3298e-103", tokens.get(4).unwrap().value);`
			`assert_eq!(TokenType::EOF, tokens.get(5).unwrap().token_type);`
Refactor and scan grouping signs 2022-11-30 13:38:43 +00:00			`}`

			`#[test]`
			`fn grouping_sign_test() {`
			`let input = String::from("( ) { } [ ]");`
			`let tokens = get_tokens(&input).unwrap();`

			`let t = tokens.get(0).unwrap();`
			`assert_eq!(TokenType::LeftParen, t.token_type);`
			`assert_eq!("(", t.value);`

			`let t = tokens.get(1).unwrap();`
			`assert_eq!(TokenType::RightParen, t.token_type);`
			`assert_eq!(")", t.value);`

			`let t = tokens.get(2).unwrap();`
			`assert_eq!(TokenType::LeftBrace, t.token_type);`
			`assert_eq!("{", t.value);`

			`let t = tokens.get(3).unwrap();`
			`assert_eq!(TokenType::RightBrace, t.token_type);`
			`assert_eq!("}", t.value);`

			`let t = tokens.get(4).unwrap();`
			`assert_eq!(TokenType::LeftBracket, t.token_type);`
			`assert_eq!("[", t.value);`

			`let t = tokens.get(5).unwrap();`
			`assert_eq!(TokenType::RightBracket, t.token_type);`
			`assert_eq!("]", t.value);`
Scan operators 2022-11-28 23:33:34 +00:00			`}`
			`}`