ಆರ್ಟಿಫಿಶಿಯಲ್ ಇಂಟಲಿಜೆನ್ಸ್ಗೆ 'ಡೇಟಾ' ಎನ್ನುವುದು ತಂದೆ-ತಾಯಿ ಇದ್ದ ಹಾಗೆ! ಡೇಟಾ ಇಲ್ಲದೇ ಆರ್ಟಿಫಿಶಿಯಲ್ ಇಂಟಲಿಜೆನ್ಸ್ ಇಲ್ಲ. ಈ ತಂದೆ-ತಾಯಿಯರೇ, ಎಂದರೆ ಡೇಟಾದಿಂದಲೇ ಆರ್ಟಿಫಿಶಿಯಲ್ ಇಂಟಲಿಜೆನ್ಸ್, ಅದರಲ್ಲೂ 'ಜನರೇಟಿವ್ ಎಐ'ಗೆ ಜೀವ ಬಂದಿದೆ.
ನಾವು ಒಂದು ಪ್ರಶ್ನೆಯನ್ನು ಒಂದು 'ಜೆನ್ ಎಐ' ಬಳಿ ಕೇಳಿದರೆ, ಅದು ತಪ್ಪು ಉತ್ತರ ನೀಡಿದರೆ ಅಥವಾ ಸುತ್ತಿ ಬಳಸಿ ಅಸಂಬದ್ಧ ಉತ್ತರ ನೀಡಿದರೆ, ಅದಕ್ಕೆ ಕಾರಣ ಅದರ ಹಿಂದೆ ಇರುವ, ಅರ್ಧಂಬರ್ಧ ಇರುವ ಅಥವಾ ಇಲ್ಲದ ಡೇಟಾ!
ಬರಿ ಡೇಟಾ ಇದ್ದರೆ ಸಾಲದು. ಆ ಡೇಟಾವನ್ನು ಇಟ್ಟುಕೊಂಡು ಸರಿಯಾದ ತರಬೇತಿಯನ್ನೂ ಕೊಟ್ಟಿರಬೇಕು. ಈ ಡೇಟಾ ಮತ್ತು ಅದರ ಮೇಲೆ ನೀಡಿರುವ ತರಬೇತಿಯೇ ಒಂದು ಎಐ ಎಷ್ಟು ಪರಿಣಾಮಕಾರಿ ಎಂಬುದನ್ನು ಹೇಳುತ್ತದೆ. ಈಗ ಬಹುತೇಕ ಜೆನ್ ಎಐಗಳಲ್ಲಿರುವ ಸಮಸ್ಯೆಗಳಿಗೆ ಒಂದೋ ಡೇಟಾ ಕೊರತೆ ಅಥವಾ ಡೇಟಾವನ್ನು ಸರಿಯಾಗಿ ವಿಶ್ಲೇಷಣೆ ಮಾಡದೇ ಇರುವುದೇ ಕಾರಣ.
ಕೆಲವು ವರ್ಷಗಳ ಹಿಂದೆ ಉಚಿತವಾಗಿ ಸಿಗುತ್ತಿದ್ದ ಡೇಟಾಗಳೆಲ್ಲ ಈಗ ಜೆನ್ ಎಐಗೆ ಸಾಲುತ್ತಿಲ್ಲ. ಅವೆಲ್ಲವನ್ನೂ ಈ ಜೆನ್ ಎಐಗೆ ಉಣಿಸಿ, ಅದನ್ನು ಜೀರ್ಣಿಸಿಕೊಂಡು ಆಗಿದೆ. ಹಾಗಾದರೆ ಮುಂದೇನು?
ಅದಕ್ಕೆ ತಜ್ಞರ ಬಳಿ ಉತ್ತರ ಸಿದ್ಧವಿದೆ. ಅದುವೇ 'ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ'. ಎಂದರೆ, ಡೇಟಾವನ್ನೂ ಕೃತಕವಾಗಿ ತಯಾರಿಸಲಾಗುತ್ತದೆ. ಆ ಡೇಟಾ ಇಟ್ಟುಕೊಂಡು ಮನುಷ್ಯ ಹೇಗೆ ಯೋಚನೆ ಮಾಡುತ್ತಾನೆಯೋ ಅದೇ ರೀತಿ ಚಿಂತನೆ ನಡೆಸುವ ರೀತಿಯಲ್ಲಿ ಜೆನ್ ಎಐಗೆ ತರಬೇತಿಯನ್ನು ನೀಡಲಾಗುತ್ತದೆ.
ಓಪನ್ಎಐ ಸಂಸ್ಥಾಪಕ ಸದಸ್ಯ ಆಂದ್ರೆಜ್ ಕರ್ಪತಿ ಹೇಳುವ ಪ್ರಕಾರ 'ಈಗಿರುವ ಎಲ್ಲ ಜೆನ್ ಎಐಗಳಿಗೂ 'ಮನುಷ್ಯನ ರೀತಿಯಲ್ಲಿ ಚಿಂತನೆ' ಮಾಡುವ ವಿಷಯದಲ್ಲಿ ಸಮಸ್ಯೆಯಿದೆ.' ನಾವು ಈಗ ಜೆನ್ ಎಐ ಬಳಿ ಕೇಳುವ ಪ್ರಶ್ನೆಗಳಿಗೆ ಬಹುತೇಕ ಸಂದರ್ಭದಲ್ಲಿ ನಮಗೆ ಸಿಗುವ ಉತ್ತರ ತಾರ್ಕಿಕವಾಗಿರುತ್ತದೆ. ಆದರೆ, ಅದಕ್ಕೆ ಭಾವನೆಗಳು, ಚಿಂತನೆಗಳು, ಯೋಚನೆಗಳ ಸ್ಪರ್ಶ ಇರುವುದಿಲ್ಲ!
ಇದಕ್ಕೆ ಮುಖ್ಯ ಕಾರಣವೇ ಈಗಾಗಲೇ ಇಂಟರ್ನೆಟ್ನಲ್ಲಿ ಲಭ್ಯವಿದ್ದ ಡೇಟಾಗಳ ವಿಧಾನ ಎಂದು ತಜ್ಞರು ಹೇಳುತ್ತಾರೆ. ಇದನ್ನು ನಿವಾರಿಸುವುದಕ್ಕೆ ಈಗಾಗಲೇ ಜೆನರೇಟಿವ್ ಎಐ ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತಿರುವ ಕಂಪನಿಗಳು ಆರ್ಎಲ್ಎಚ್ಎಫ್ ವಿಧಾನವನ್ನು ಬಳಸಲು ಶುರು ಮಾಡಿವೆ. ಎಂದರೆ, ಒಂದು ಪ್ರಶ್ನೆಗೆ ಜೆನ್ ಎಐ ನೀಡಿದ ವಿವಿಧ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಒಬ್ಬ ಮಾನವನಿಗೆ ಕೊಟ್ಟು ಯಾವುದು ಹೆಚ್ಚು ಸೂಕ್ತ ಎಂದು ವಿಶ್ಲೇಷಣೆ ಹಾಗೂ ರ್ಯಾಂಕಿಂಗ್ ಅನ್ನು ಪಡೆಯುವುದು. ಅದನ್ನು ಜೆನ್ ಎಐಗೆ ಕೊಟ್ಟು 'ನೋಡು... ನೀನು ಕೊಟ್ಟ ಪ್ರತಿಕ್ರಿಯೆಗಳ ಪೈಕಿ ಮಾನವನಿಗೆ ಈ ಪ್ರತಿಕ್ರಿಯೆ ಇಷ್ಟವಾಗಿದೆ, ಈ ಪ್ರತಿಕ್ರಿಯೆ ಇಷ್ಟವಾಗಿಲ್ಲ' ಎಂದು ತಿಳಿಸುವುದು. ಅದನ್ನು ತಿಳಿದುಕೊಂಡ ಜೆನ್ ಎಐ ಯಾವುದು ಹೆಚ್ಚು ಇಷ್ಟವಾಗಿದೆಯೋ ಅಂಥದ್ದೇ ಪ್ರತಿಕ್ರಿಯೆ ನೀಡುತ್ತದೆ ಮತ್ತು ಅಂಥದ್ದೇ ಪ್ರತಿಕ್ರಿಯೆ ನೀಡುವುದಕ್ಕೆ ಬಳಸಿದ ತರ್ಕವನ್ನು ಆದ್ಯತೆಯ ಮೇಲೆ ಬಳಸಿಕೊಳ್ಳುತ್ತದೆ.
ಈ 'ಆರ್ಎಲ್ಎಚ್ಎಫ್', ಎಂದರೆ 'ರೀಇನ್ಫೋರ್ಸ್ಮೆಂಟ್ ಲರ್ನಿಂಗ್ ವಿಥ್ ಹ್ಯೂಮನ್ ಫೀಡ್ಬ್ಯಾಕ್' ವಿಧಾನವನ್ನು ಬಳಸುವುದಕ್ಕೆ ಹೊಸ ಡೇಟಾ ಬೇಕಾಗಿಲ್ಲ. ಆದರೆ ವೈವಿಧ್ಯಮಯ ಡೇಟಾ ಬೇಕಾಗುತ್ತದೆ.
ಈ ಹಂತದಲ್ಲಿ ಅಸಲಿ ಡೇಟಾ ಬದಲಿಗೆ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ ಬಳಕೆ ಹೆಚ್ಚು ಪ್ರಾಮುಖ್ಯವನ್ನು ಪಡೆಯುತ್ತಿದೆ. ಈಗ ಬಹುತೇಕ ಎಲ್ಲ ಜೆನ್ ಎಐ ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತಿರುವ ಸಂಸ್ಥೆಗಳು ಸಿಂಥೆಟಿಕ್, ಎಂದರೆ ನಕಲಿ ಡೇಟಾ ಜನರೇಟ್ ಮಾಡುವುದಕ್ಕೆ ಅವರದ್ದೇ ಆದ ವ್ಯವಸ್ಥೆಯನ್ನು ಮಾಡಿಕೊಂಡಿವೆ.
ಉದಾಹರಣೆಗೆ, ಓಪನ್ಎಐ ಬಳಿ 'ಸ್ಟ್ರಾಬೆರಿ' ಎಂಬ ಟೂಲ್ ಇದೆ. ಇದು ಅಲ್ಲಿನ ಇಂಜಿನಿಯರುಗಳಿಗೆ ಬೇಕಾದ ರೀತಿಯ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾವನ್ನು ಸಿದ್ಧಪಡಿಸಿ ಕೊಡುತ್ತದೆ. ಈ ಡೇಟಾವನ್ನು ಇಟ್ಟುಕೊಂಡು ಇಂಜಿನಿಯರುಗಳು ಜೆನ್ ಎಐಗೆ ವಿಶ್ಲೇಷಣೆ ಮಾಡುವುದನ್ನು ಕಲಿಸಿಕೊಡುತ್ತಾರೆ. ಇನ್ನೊಂದೆಡೆ, ಹಗ್ಗಿಂಗ್ ಫೇಸ್ ಎಂಬ ಕಂಪನಿಯು 'ಕಾಸ್ಮೋಪೀಡಿಯಾ' ಎಂಬ ಬೃಹತ್ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾಸೆಟ್ ಅನ್ನೇ ಪರಿಚಯಿಸಿದೆ. ಇದು ಮಶಿನ್ ಲರ್ನಿಂಗ್ನಲ್ಲಿ ತೊಡಗಿಸಿಕೊಂಡಿರುವವರಿಗೆ ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಡೇಟಾವನ್ನು ಒದಗಿಸುವ ಕೆಲಸ ಮಾಡುತ್ತದೆ. ಅಷ್ಟೇ ಅಲ್ಲ, ಇದಕ್ಕೆ ಹತ್ತಾರು ಕಂಪನಿಗಳೂ ಹುಟ್ಟಿಕೊಂಡಿವೆ. ಈ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾವನ್ನು ಜನರೇಟ್ ಮಾಡುವುದಷ್ಟೇ ಅಲ್ಲ, ಅವುಗಳನ್ನು ಜೆನ್ ಎಐ ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತಿರುವ ಕಂಪನಿಗಳಿಗೆ ಒದಗಿಸುವುದಕ್ಕೂ ಮೊದಲು ಅವುಗಳ ಗುಣಮಟ್ಟ ತಪಾಸಣೆಯನ್ನೂ ಮಾಡಲಾಗುತ್ತದೆ.
ದೇಶದ ಅತಿದೊಡ್ಡ ಟೆಲಿಕಾಂ ಕಂಪನಿಗಳಲ್ಲಿ ಒಂದಾದ ಟೆಲಿಫೋನಿಕಾ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ ಬಳಸಿಕೊಂಡು ಗ್ರಾಹಕರಿಗೆ ಹೇಗೆ ನೆರವು ನೀಡಬಹುದು ಎಂಬುದರ ಸಂಶೋಧನೆ ನಡೆಸುತ್ತಿದೆ. ಟೆಲಿಕಾಂ ಕಂಪನಿಗಳ ಬಳಿ ಅಪಾರ ಪ್ರಮಾಣದ ಗ್ರಾಹಕರ ಡೇಟಾ ಇದ್ದರೂ, ಅವುಗಳನ್ನು ಸಂಸ್ಕರಿಸುವುದರಲ್ಲಿ ಅಪಾರ ಸಮಯ ಮತ್ತು ಹಣ ವ್ಯರ್ಥವಾಗುತ್ತದೆ. ಅಲ್ಲದೆ, ಗೌಪ್ಯತೆ ಉಲ್ಲಂಘನೆ ಸಮಸ್ಯೆಯೂ ಇದರಲ್ಲಿದೆ. ಹೀಗಾಗಿ, ಇವು ಸಿಂಥೆಟಿಕ್ ಗ್ರಾಹಕರ ಡೇಟಾವನ್ನು ಜನರೇಟ್ ಮಾಡುವುದೇ ಹೆಚ್ಚು ಉಪಯುಕ್ತ ಎಂದು ಭಾವಿಸುತ್ತಿವೆ. ಅಸಲಿ ಡೇಟಾದಲ್ಲಿ ಇರುವ ದೃಷ್ಟಿಕೋನದ ಸಮಸ್ಯೆ ಕೂಡ ಈ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾದಲ್ಲಿಲ್ಲ! ಅಸಲಿ ಡೇಟಾದಲ್ಲಿ ಒಂದು ಜನಾಂಗ ಅಥವಾ ಮನುಷ್ಯರ ಬಗ್ಗೆ ಕೀಳಾದ ಭಾವ ಇರಬಹುದು. ಅದನ್ನು ಹೀರಿಕೊಂಡ ಜೆನ್ ಎಐ ಕೂಡ ಅದೇ ಅಭಿಪ್ರಾಯವನ್ನು ಹೊರಹಾಕಬಹುದು. ಆದರೆ, ಈ ಸಿಂಥಟಿಕ್ ಡೇಟಾದಲ್ಲಿ ಈ ಸಮಸ್ಯೆ ಇರುವುದಿಲ್ಲ.
ಇದರ ಜೊತೆಗೆ ಡೇಟಾ ಬಗ್ಗೆ ಈಗ ಜನರಿಗೆ ಹೆಚ್ಚು ಹೆಚ್ಚು ತಿಳಿವಳಿಕೆ ಬಂದಿದೆ. ಗೌಪ್ಯ ಡೇಟಾಗಳನ್ನು ಜೆನ್ ಎಐ ಬಳಸುವಂತಿಲ್ಲ. ಮೊದಲು ಅನಾಮಿಕಗೊಳಿಸಿದ ಡೇಟಾವನ್ನು ಗೌಪ್ಯವಲ್ಲದ ಡೇಟಾ ಎಂದೇ ಪರಿಗಣಿಸಲಾಗುತ್ತಿತ್ತು. ಆದರೆ, ಈಗ ಅದು ಕೂಡ ಗೌಪ್ಯತೆಯ ವ್ಯಾಖ್ಯಾನದ ವ್ಯಾಪ್ತಿಗೆ ಬರುತ್ತದೆ ಎಂಬ ಕಾರಣಕ್ಕೆ ಜೆನ್ ಎಐ ಕಂಪನಿಗಳು ಅದರ ಬಳಕೆಯನ್ನು ಕಡಿಮೆ ಮಾಡಿವೆ. ಹೀಗಾಗಿ, ಮುಕ್ತವಾಗಿ, ಉಚಿತವಾಗಿ ಸಿಗುವ, ಗೌಪ್ಯತೆ ಇಲ್ಲದಂತಹ ಡೇಟಾದಲ್ಲಿ ವೈವಿಧ್ಯತೆಯ ಕೊರತೆ ಇದೆ.
ಈ ಎಲ್ಲ ಸಮಸ್ಯೆಗಳಿಂದ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾಗೆ ಜೆನ್ ಎಐ ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತಿರುವ ಕಂಪನಿಗಳು ಮೊರೆಹೋಗಿವೆ.
ಕೆಲವೇ ವರ್ಷಗಳ ಹಿಂದೆ ಹುಟ್ಟಿಕೊಂಡಿದ್ದ ಡೇಟಾ ಈಸ್ ದಿ ನ್ಯೂ ಆಯಿಲ್ ಎಂಬ ಕಲ್ಪನೆ ಈಗಲೇ ಹಳಸಲಾಗುತ್ತಿದೆ. ಈಗ ಆಯಿಲ್ ಮತ್ತು ಡೇಟಾ - ಎರಡೂ ಅಮೂಲ್ಯವೇ ಆದರೂ, ಅದರ ರೂಪ ಬದಲಾಗಿದೆ. ಪೆಟ್ರೋಲಿಯಂ ಬದಲಿಗೆ ನವೀಕರಿಸಬಹುದಾದ ಇಂಧನಕ್ಕೂ, ಅಸಲಿ ಡೇಟಾ ಬದಲಿಗೆ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾಕ್ಕೂ ಹೆಚ್ಚಿನ ಪ್ರಾಮುಖ್ಯ ಬರುತ್ತಿದೆ!